Sprawdzanie dokładności statystyk dedykowanej puli SQL
Dotyczy: Azure Synapse Analytics
Aktualne statystyki mają kluczowe znaczenie dla generowania optymalnego planu wykonywania. Istnieją dwie różne perspektywy, które należy ocenić w ramach określania dokładności statystyk:
Krok 1. Sprawdzanie dokładności liczby wierszy w węźle sterowania
W dedykowanej puli SQL aparat podstawowy do tworzenia rozproszonych planów zapytań musi być aktualizowany o liczbę wierszy w węzłach obliczeniowych. Uruchom następujące zapytanie, aby zidentyfikować tabele, w przypadku których występują różnice liczby wierszy:
SELECT objIdsWithStats.[object_id]
,actualRowCounts.[schema]
,actualRowCounts.logical_table_name
,statsRowCounts.stats_row_count
,actualRowCounts.actual_row_count
,row_count_difference = CASE
WHEN actualRowCounts.actual_row_count >= statsRowCounts.stats_row_count
THEN actualRowCounts.actual_row_count - statsRowCounts.stats_row_count
ELSE statsRowCounts.stats_row_count - actualRowCounts.actual_row_count
END
,percent_deviation_from_actual = CASE
WHEN actualRowCounts.actual_row_count = 0
THEN statsRowCounts.stats_row_count
WHEN statsRowCounts.stats_row_count = 0
THEN actualRowCounts.actual_row_count
WHEN actualRowCounts.actual_row_count >= statsRowCounts.stats_row_count
THEN CONVERT(NUMERIC(18, 0), CONVERT(NUMERIC(18, 2), (actualRowCounts.actual_row_count - statsRowCounts.stats_row_count)) / CONVERT(NUMERIC(18, 2), actualRowCounts.actual_row_count) * 100)
ELSE CONVERT(NUMERIC(18, 0), CONVERT(NUMERIC(18, 2), (statsRowCounts.stats_row_count - actualRowCounts.actual_row_count)) / CONVERT(NUMERIC(18, 2), actualRowCounts.actual_row_count) * 100)
END
,'UPDATE STATISTICS ' + quotename(actualRowCounts.[schema]) + '.' + quotename(actualRowCounts.logical_table_name) + ';' as update_stats_stmt
FROM (
SELECT DISTINCT object_id
FROM sys.stats
WHERE stats_id > 1
) objIdsWithStats
LEFT JOIN (
SELECT object_id
,sum(rows) AS stats_row_count
FROM sys.partitions
GROUP BY object_id
) statsRowCounts ON objIdsWithStats.object_id = statsRowCounts.object_id
LEFT JOIN (
SELECT sm.name [schema]
,tb.name logical_table_name
,tb.object_id object_id
,SUM(rg.row_count) actual_row_count
FROM sys.schemas sm
INNER JOIN sys.tables tb ON sm.schema_id = tb.schema_id
INNER JOIN sys.pdw_table_mappings mp ON tb.object_id = mp.object_id
INNER JOIN sys.pdw_nodes_tables nt ON nt.name = mp.physical_name
INNER JOIN sys.dm_pdw_nodes_db_partition_stats rg ON rg.object_id = nt.object_id
AND rg.pdw_node_id = nt.pdw_node_id
AND rg.distribution_id = nt.distribution_id
INNER JOIN sys.indexes ind on tb.object_id = ind.object_id
WHERE rg.index_id < 2 -- In case this condition removed the number of rows will gets duplicated based on the number of index.
AND ind.type_desc IN ('CLUSTERED COLUMNSTORE', 'HEAP') -- Switch between the CCI (Column store) and HEAP, You should at least keep one value or else the total number of rows will gets duplicated based on the number of indexes.
GROUP BY sm.name
,tb.name
,tb.object_id
) actualRowCounts ON objIdsWithStats.object_id = actualRowCounts.object_id
Krok 2. Sprawdzanie, czy statystyki są aktualne
Aktualizowanie danych może znacząco wpłynąć na histogramy statystyk używane do generowania skutecznych planów wykonywania. Uruchom następujące zapytanie, aby ustalić, czy data ostatniej aktualizacji statystyk jest zgodna z wzorcami modyfikacji tabeli:
SELECT ob.[object_id],max(sm.[name]) AS [schema_name]
,max(tb.[name]) AS [table_name]
,st.[stats_id]
,max(st.[name]) AS [stats_name]
,string_agg(co.[name], ',') AS [stats_column_names]
,STATS_DATE(ob.[object_id], st.[stats_id]) AS [stats_last_updated_date]
,'UPDATE STATISTICS ' + quotename(max(sm.[name])) + '.' + quotename(max(tb.[name])) + ';' as [update_stats_stmt]
FROM sys.objects ob
JOIN sys.stats st ON ob.[object_id] = st.[object_id]
JOIN sys.stats_columns sc ON st.[stats_id] = sc.[stats_id]
AND st.[object_id] = sc.[object_id]
JOIN sys.columns co ON sc.[column_id] = co.[column_id]
AND sc.[object_id] = co.[object_id]
JOIN sys.types ty ON co.[user_type_id] = ty.[user_type_id]
JOIN sys.tables tb ON co.[object_id] = tb.[object_id]
JOIN sys.schemas sm ON tb.[schema_id] = sm.[schema_id]
WHERE st.[stats_id] > 1
GROUP BY ob.[object_id], st.[stats_id]
ORDER BY stats_last_updated_date
Krok 3. Aktualizowanie statystyk dla zidentyfikowanych tabel
Po zidentyfikowaniu tabel kandydatów w poprzednich krokach uruchom instrukcje wygenerowane w update_stats_stmt
kolumnie zapytań, aby zaktualizować statystyki.
Uwaga 16.
Nie zalecamy aktualizowania poszczególnych statystyk, nawet w przypadku utworzenia przez użytkownika. Uruchomienie polecenia UPDATE STATISTICS
bez określenia nazwy statystyki spowoduje zaktualizowanie wszystkich statystyk skojarzonych z tabelą, a także liczby wierszy w węźle sterowania. Możesz rozważyć zastąpienie domyślnej wartości procentowej skanowania przy użyciu metody WITH FULLSCAN
lub WITH SAMPLE <SamplePercent> PERCENT
osiągnięcia odpowiedniej dokładności dla dużych tabel. Aby zapoznać się z pełną składnią, zobacz UPDATE STATISTICS (Transact-SQL).
Na przykład:
UPDATE STATISTICS [dbo].[MyAwesomeTable];
Po zaktualizowaniu statystyk uruchom ponownie problematyczne zapytanie, aby ustalić, czy aktualizacje statystyk poprawiły czas wykonywania.