Tabellen partitioneren in toegewezen SQL-pool
Aanbevelingen en voorbeelden voor het gebruik van tabelpartities in een toegewezen SQL-pool.
Wat zijn tabelpartities?
Met tabelpartities kunt u uw gegevens onderverdelen in kleinere groepen gegevens. In de meeste gevallen worden tabelpartities gemaakt op een datumkolom. Partitionering wordt ondersteund voor alle toegewezen SQL-pooltabeltypen; inclusief geclusterde columnstore, geclusterde index en heap. Partitionering wordt ook ondersteund voor alle distributietypen, waaronder zowel hash- als round robin gedistribueerd.
Partitioneren kan ten goede komen aan gegevensonderhoud en queryprestaties. Of het nu beide of slechts één voordelen heeft, is afhankelijk van hoe gegevens worden geladen en of dezelfde kolom voor beide doeleinden kan worden gebruikt, omdat partitionering slechts op één kolom kan worden uitgevoerd.
Voordelen voor laden
Het belangrijkste voordeel van partitioneren in een toegewezen SQL-pool is het verbeteren van de efficiëntie en prestaties van het laden van gegevens door gebruik te maken van partitieverwijdering, schakelen en samenvoegen. In de meeste gevallen worden gegevens gepartitioneerd op een datumkolom die nauw is gekoppeld aan de volgorde waarin de gegevens in de SQL-pool worden geladen. Een van de grootste voordelen van het gebruik van partities voor het onderhouden van gegevens is het vermijden van transactielogboekregistratie. Hoewel het eenvoudigweg invoegen, bijwerken of verwijderen van gegevens de eenvoudigste aanpak is, kan het gebruik van partitionering tijdens het laadproces de prestaties aanzienlijk verbeteren.
Partitiewisseling kan worden gebruikt om snel een sectie van een tabel te verwijderen of vervangen. Een tabel met verkoopfeit kan bijvoorbeeld alleen gegevens bevatten voor de afgelopen 36 maanden. Aan het einde van elke maand worden de oudste maand verkoopgegevens uit de tabel verwijderd. Deze gegevens kunnen worden verwijderd met behulp van een verwijderinstructie om de gegevens voor de oudste maand te verwijderen.
Het verwijderen van een grote hoeveelheid gegevensrij per rij met een verwijderinstructie kan echter te veel tijd in beslag nemen en het risico vormen van grote transacties die lang duren om terug te draaien als er iets misgaat. Een optimale benadering is het verwijderen van de oudste partitie van gegevens. Wanneer het verwijderen van de afzonderlijke rijen uren kan duren, kan het verwijderen van een volledige partitie seconden duren.
Voordelen van query's
Partitionering kan ook worden gebruikt om de queryprestaties te verbeteren. Een query die een filter toepast op gepartitioneerde gegevens, kan de scan beperken tot alleen de in aanmerking komende partities. Met deze filtermethode voorkomt u een volledige tabelscan en scant u alleen een kleinere subset met gegevens. Met de introductie van geclusterde columnstore-indexen zijn de prestatievoordelen van predicaatverwijdering minder nuttig, maar in sommige gevallen is het een voordeel voor query's.
Als de feitentabel verkoop bijvoorbeeld is gepartitioneerd in 36 maanden met behulp van het veld Verkoopdatum, kunnen query's die filteren op de verkoopdatum het zoeken in partities die niet overeenkomen met het filter overslaan.
Grootte van partitie aanpassen
Hoewel partitionering kan worden gebruikt om de prestaties van sommige scenario's te verbeteren, kan het maken van een tabel met te veel partities onder bepaalde omstandigheden de prestaties schaden. Deze problemen gelden met name voor geclusterde columnstore-tabellen.
Om partitionering nuttig te maken, is het belangrijk om te begrijpen wanneer u partitionering en het aantal partities moet gebruiken dat moet worden gemaakt. Er is geen harde regel over hoeveel partities te veel zijn, afhankelijk van uw gegevens en hoeveel partities u tegelijkertijd laadt. Een geslaagd partitioneringsschema heeft meestal tientallen tot honderden partities, niet duizenden.
Bij het maken van partities in geclusterde columnstore-tabellen is het belangrijk om te overwegen hoeveel rijen bij elke partitie horen. Voor optimale compressie en prestaties van geclusterde columnstore-tabellen is minimaal 1 miljoen rijen per distributie en partitie nodig. Voordat partities worden gemaakt, verdeelt de toegewezen SQL-pool elke tabel al in 60 distributies.
Partitionering die aan een tabel wordt toegevoegd, is naast de distributies die achter de schermen worden gemaakt. Als in dit voorbeeld de feitentabel verkoop 36 maandelijkse partities bevat en een toegewezen SQL-pool 60 distributies heeft, moet de feitentabel verkoop 60 miljoen rijen per maand bevatten, of 2,1 miljard rijen wanneer alle maanden zijn gevuld. Als een tabel minder dan het aanbevolen minimumaantal rijen per partitie bevat, kunt u overwegen om minder partities te gebruiken om het aantal rijen per partitie te verhogen.
Zie het artikel Indexering , dat query's bevat die de kwaliteit van de columnstore-indexen van het cluster kunnen beoordelen voor meer informatie.
Syntaxisverschillen van SQL Server
Toegewezen SQL-pool introduceert een manier om partities te definiëren die eenvoudiger zijn dan SQL Server. Partitioneringsfuncties en -schema's worden niet gebruikt in een toegewezen SQL-pool, omdat ze zich in SQL Server bevinden. In plaats daarvan hoeft u alleen de gepartitioneerde kolom en de grenspunten te identificeren.
Hoewel de syntaxis van partitionering enigszins verschilt van SQL Server, zijn de basisconcepten hetzelfde. SQL Server en toegewezen SQL-pool ondersteunen één partitiekolom per tabel, die een bereikpartitie kan zijn. Zie Gepartitioneerde tabellen en indexen voor meer informatie over partitionering.
In het volgende voorbeeld wordt de instructie CREATE TABLE gebruikt om de FactInternetSales
tabel in de OrderDateKey
kolom te partitioneren:
CREATE TABLE [dbo].[FactInternetSales]
(
[ProductKey] int NOT NULL
, [OrderDateKey] int NOT NULL
, [CustomerKey] int NOT NULL
, [PromotionKey] int NOT NULL
, [SalesOrderNumber] nvarchar(20) NOT NULL
, [OrderQuantity] smallint NOT NULL
, [UnitPrice] money NOT NULL
, [SalesAmount] money NOT NULL
)
WITH
( CLUSTERED COLUMNSTORE INDEX
, DISTRIBUTION = HASH([ProductKey])
, PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES
(20000101,20010101,20020101
,20030101,20040101,20050101
)
)
);
Partities migreren vanuit SQL Server
Als u SQL Server-partitiedefinities wilt migreren naar een toegewezen SQL-pool, hoeft u het volgende te doen:
- Verwijder het SQL Server-partitieschema.
- Voeg de definitie van de partitiefunctie toe aan uw CREATE TABLE.
Als u een gepartitioneerde tabel migreert van een SQL Server-exemplaar, kan de volgende SQL u helpen bij het bepalen van het aantal rijen in elke partitie. Houd er rekening mee dat als dezelfde partitioneringsgranulariteit wordt gebruikt in een toegewezen SQL-pool, het aantal rijen per partitie met een factor van 60 afneemt.
-- Partition information for a SQL Server Database
SELECT s.[name] AS [schema_name]
, t.[name] AS [table_name]
, i.[name] AS [index_name]
, p.[partition_number] AS [partition_number]
, SUM(a.[used_pages]*8.0) AS [partition_size_kb]
, SUM(a.[used_pages]*8.0)/1024 AS [partition_size_mb]
, SUM(a.[used_pages]*8.0)/1048576 AS [partition_size_gb]
, p.[rows] AS [partition_row_count]
, rv.[value] AS [partition_boundary_value]
, p.[data_compression_desc] AS [partition_compression_desc]
FROM sys.schemas s
JOIN sys.tables t ON t.[schema_id] = s.[schema_id]
JOIN sys.partitions p ON p.[object_id] = t.[object_id]
JOIN sys.allocation_units a ON a.[container_id] = p.[partition_id]
JOIN sys.indexes i ON i.[object_id] = p.[object_id]
AND i.[index_id] = p.[index_id]
JOIN sys.data_spaces ds ON ds.[data_space_id] = i.[data_space_id]
LEFT JOIN sys.partition_schemes ps ON ps.[data_space_id] = ds.[data_space_id]
LEFT JOIN sys.partition_functions pf ON pf.[function_id] = ps.[function_id]
LEFT JOIN sys.partition_range_values rv ON rv.[function_id] = pf.[function_id]
AND rv.[boundary_id] = p.[partition_number]
WHERE p.[index_id] <=1
GROUP BY s.[name]
, t.[name]
, i.[name]
, p.[partition_number]
, p.[rows]
, rv.[value]
, p.[data_compression_desc];
Schakelen tussen partities
Toegewezen SQL-pool biedt ondersteuning voor het splitsen, samenvoegen en overschakelen van partities. Elk van deze functies wordt uitgevoerd met behulp van de instructie ALTER TABLE .
Als u wilt schakelen tussen partities tussen twee tabellen, moet u ervoor zorgen dat de partities zijn uitgelijnd op hun respectieve grenzen en dat de tabeldefinities overeenkomen. Omdat er geen controlebeperkingen beschikbaar zijn om het bereik van waarden in een tabel af te dwingen, moet de brontabel dezelfde partitiegrenzen bevatten als de doeltabel. Als de partitiegrenzen niet hetzelfde zijn, mislukt de partitieswitch omdat de metagegevens van de partitie niet worden gesynchroniseerd.
Voor een partitiesplitsing moet de betreffende partitie (niet noodzakelijkerwijs de hele tabel) leeg zijn als de tabel een geclusterde columnstore-index (CCI) heeft. Andere partities in dezelfde tabel kunnen gegevens bevatten. Een partitie die gegevens bevat, kan niet worden gesplitst. Dit resulteert in een fout: ALTER PARTITION statement failed because the partition is not empty. Only empty partitions can be split in when a columnstore index exists on the table. Consider disabling the columnstore index before issuing the ALTER PARTITION statement, then rebuilding the columnstore index after ALTER PARTITION is complete.
Als tijdelijke oplossing voor het splitsen van een partitie die gegevens bevat, raadpleegt u Hoe u een partitie splitst die gegevens bevat.
Een partitie splitsen die gegevens bevat
De meest efficiënte methode voor het splitsen van een partitie die al gegevens bevat, is door een CTAS
instructie te gebruiken. Als de gepartitioneerde tabel een geclusterde columnstore is, moet de tabelpartitie leeg zijn voordat deze kan worden gesplitst.
In het volgende voorbeeld wordt een gepartitioneerde columnstore-tabel gemaakt. Er wordt één rij ingevoegd in elke partitie:
CREATE TABLE [dbo].[FactInternetSales]
(
[ProductKey] int NOT NULL
, [OrderDateKey] int NOT NULL
, [CustomerKey] int NOT NULL
, [PromotionKey] int NOT NULL
, [SalesOrderNumber] nvarchar(20) NOT NULL
, [OrderQuantity] smallint NOT NULL
, [UnitPrice] money NOT NULL
, [SalesAmount] money NOT NULL
)
WITH
( CLUSTERED COLUMNSTORE INDEX
, DISTRIBUTION = HASH([ProductKey])
, PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES
(20000101
)
)
);
INSERT INTO dbo.FactInternetSales
VALUES (1,19990101,1,1,1,1,1,1);
INSERT INTO dbo.FactInternetSales
VALUES (1,20000101,1,1,1,1,1,1);
Met de volgende query wordt het aantal rijen gevonden met behulp van de sys.partitions
catalogusweergave:
SELECT QUOTENAME(s.[name])+'.'+QUOTENAME(t.[name]) as Table_name
, i.[name] as Index_name
, p.partition_number as Partition_nmbr
, p.[rows] as Row_count
, p.[data_compression_desc] as Data_Compression_desc
FROM sys.partitions p
JOIN sys.tables t ON p.[object_id] = t.[object_id]
JOIN sys.schemas s ON t.[schema_id] = s.[schema_id]
JOIN sys.indexes i ON p.[object_id] = i.[object_Id]
AND p.[index_Id] = i.[index_Id]
WHERE t.[name] = 'FactInternetSales';
De volgende splitsopdracht ontvangt een foutbericht:
ALTER TABLE FactInternetSales SPLIT RANGE (20010101);
Msg 35346, Level 15, State 1, Line 44
SPLIT clause of ALTER PARTITION statement failed because the partition is not empty. Only empty partitions can be split in when a columnstore index exists on the table. Consider disabling the columnstore index before issuing the ALTER PARTITION statement, then rebuilding the columnstore index after ALTER PARTITION is complete.
U kunt echter een nieuwe tabel maken CTAS
voor het opslaan van de gegevens.
CREATE TABLE dbo.FactInternetSales_20000101
WITH ( DISTRIBUTION = HASH(ProductKey)
, CLUSTERED COLUMNSTORE INDEX
, PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES
(20000101
)
)
)
AS
SELECT *
FROM FactInternetSales
WHERE 1=2;
Omdat de partitiegrenzen zijn uitgelijnd, is een switch toegestaan. Hierdoor blijft de brontabel met een lege partitie die u vervolgens kunt splitsen.
ALTER TABLE FactInternetSales SWITCH PARTITION 2 TO FactInternetSales_20000101 PARTITION 2;
ALTER TABLE FactInternetSales SPLIT RANGE (20010101);
U hoeft alleen maar de gegevens uit te lijnen op de nieuwe partitiegrenzen met behulp van CTAS
en vervolgens de gegevens weer over te zetten naar de hoofdtabel.
CREATE TABLE [dbo].[FactInternetSales_20000101_20010101]
WITH ( DISTRIBUTION = HASH([ProductKey])
, CLUSTERED COLUMNSTORE INDEX
, PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES
(20000101,20010101
)
)
)
AS
SELECT *
FROM [dbo].[FactInternetSales_20000101]
WHERE [OrderDateKey] >= 20000101
AND [OrderDateKey] < 20010101;
ALTER TABLE dbo.FactInternetSales_20000101_20010101 SWITCH PARTITION 2 TO dbo.FactInternetSales PARTITION 2;
Zodra u de verplaatsing van de gegevens hebt voltooid, is het een goed idee om de statistieken op de doeltabel te vernieuwen. Bijwerken van statistieken zorgt ervoor dat de statistieken de nieuwe distributie van de gegevens in hun respectieve partities nauwkeurig weerspiegelen.
UPDATE STATISTICS [dbo].[FactInternetSales];
Ten slotte kunt u, in het geval van een eenmalige partitieswitch om gegevens te verplaatsen, de tabellen verwijderen die zijn gemaakt voor de partitieswitch en FactInternetSales_20000101_20010101
FactInternetSales_20000101
. U kunt ook lege tabellen bewaren voor normale, geautomatiseerde partitieswitches.
Nieuwe gegevens laden in partities die gegevens in één stap bevatten
Het laden van gegevens in partities met het schakelen tussen partities is een handige manier om nieuwe gegevens in een tabel te faseken die niet zichtbaar is voor gebruikers. Het kan lastig zijn voor drukke systemen om te gaan met het vergrendelingsconflict dat is gekoppeld aan het schakelen tussen partities.
Als u de bestaande gegevens in een partitie wilt wissen, ALTER TABLE
moet u de gegevens uitschakelen. Vervolgens was er nog een ALTER TABLE
vereiste om over te schakelen in de nieuwe gegevens.
In een toegewezen SQL-pool wordt de TRUNCATE_TARGET
optie ondersteund in de ALTER TABLE
opdracht. Met TRUNCATE_TARGET
de ALTER TABLE
opdracht worden bestaande gegevens in de partitie overschreven met nieuwe gegevens. Hieronder ziet u een voorbeeld waarin CTAS
u een nieuwe tabel maakt met de bestaande gegevens, nieuwe gegevens invoegt en vervolgens alle gegevens weer in de doeltabel overschrijft, waarbij de bestaande gegevens worden overschreven.
CREATE TABLE [dbo].[FactInternetSales_NewSales]
WITH ( DISTRIBUTION = HASH([ProductKey])
, CLUSTERED COLUMNSTORE INDEX
, PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES
(20000101,20010101
)
)
)
AS
SELECT *
FROM [dbo].[FactInternetSales]
WHERE [OrderDateKey] >= 20000101
AND [OrderDateKey] < 20010101
;
INSERT INTO dbo.FactInternetSales_NewSales
VALUES (1,20000101,2,2,2,2,2,2);
ALTER TABLE dbo.FactInternetSales_NewSales SWITCH PARTITION 2 TO dbo.FactInternetSales PARTITION 2 WITH (TRUNCATE_TARGET = ON);
Broncodebeheer voor tabelpartitionering
Notitie
Als het hulpprogramma voor broncodebeheer niet is geconfigureerd om partitieschema's te negeren, kan het wijzigen van het schema van een tabel om partities bij te werken ertoe leiden dat een tabel wordt verwijderd en opnieuw wordt gemaakt als onderdeel van de implementatie, wat mogelijk niet haalbaar is. Een aangepaste oplossing voor het implementeren van een dergelijke wijziging, zoals hieronder beschreven, kan nodig zijn. Controleer of uw hulpprogramma voor continue integratie/continue implementatie (CI/CD) dit toestaat. Zoek in SQL Server Data Tools (SSDT) naar de geavanceerde publicatie-instellingen 'Partitieschema's negeren' om te voorkomen dat een gegenereerd script dat ervoor zorgt dat een tabel wordt verwijderd en opnieuw wordt gemaakt.
Dit voorbeeld is handig bij het bijwerken van partitieschema's van een lege tabel. Als u voortdurend partitiewijzigingen in een tabel met gegevens wilt implementeren, volgt u de stappen in Het splitsen van een partitie die gegevens naast de implementatie bevat, om gegevens tijdelijk uit elke partitie te verplaatsen voordat u de partitie SPLIT RANGE toepast. Dit is nodig omdat het CI/CD-hulpprogramma niet weet welke partities gegevens bevatten.
Als u wilt voorkomen dat uw tabeldefinitie wordt verroest in uw broncodebeheersysteem, kunt u de volgende aanpak overwegen:
De tabel maken als een gepartitioneerde tabel, maar zonder partitiewaarden
CREATE TABLE [dbo].[FactInternetSales] ( [ProductKey] int NOT NULL , [OrderDateKey] int NOT NULL , [CustomerKey] int NOT NULL , [PromotionKey] int NOT NULL , [SalesOrderNumber] nvarchar(20) NOT NULL , [OrderQuantity] smallint NOT NULL , [UnitPrice] money NOT NULL , [SalesAmount] money NOT NULL ) WITH ( CLUSTERED COLUMNSTORE INDEX , DISTRIBUTION = HASH([ProductKey]) , PARTITION ( [OrderDateKey] RANGE RIGHT FOR VALUES () ) );
SPLIT
de tabel als onderdeel van het implementatieproces:-- Create a table containing the partition boundaries CREATE TABLE #partitions WITH ( LOCATION = USER_DB , DISTRIBUTION = HASH(ptn_no) ) AS SELECT ptn_no , ROW_NUMBER() OVER (ORDER BY (ptn_no)) as seq_no FROM ( SELECT CAST(20000101 AS INT) ptn_no UNION ALL SELECT CAST(20010101 AS INT) UNION ALL SELECT CAST(20020101 AS INT) UNION ALL SELECT CAST(20030101 AS INT) UNION ALL SELECT CAST(20040101 AS INT) ) a; -- Iterate over the partition boundaries and split the table DECLARE @c INT = (SELECT COUNT(*) FROM #partitions) , @i INT = 1 --iterator for while loop , @q NVARCHAR(4000) --query , @p NVARCHAR(20) = N'' --partition_number , @s NVARCHAR(128) = N'dbo' --schema , @t NVARCHAR(128) = N'FactInternetSales' --table; WHILE @i <= @c BEGIN SET @p = (SELECT ptn_no FROM #partitions WHERE seq_no = @i); SET @q = (SELECT N'ALTER TABLE '+@s+N'.'+@t+N' SPLIT RANGE ('+@p+N');'); -- PRINT @q; EXECUTE sp_executesql @q; SET @i+=1; END -- Code clean-up DROP TABLE #partitions;
Met deze methode blijft de code in broncodebeheer statisch en mogen de partitioneringsgrenswaarden dynamisch zijn; Zich ontwikkelen met de SQL-pool in de loop van de tijd.
Gerelateerde inhoud
Zie het overzicht van tabellen voor meer informatie over het ontwikkelen van tabellen.