専用 SQL プールの統計の正確性を確認する

[アーティクル]
11/20/2024

適用対象:Azure Synapse Analytics

更新された統計は、最適な実行プランの生成に不可欠です。統計の精度の決定に関連する次の 2 つの異なる観点から評価する必要があります。

手順 1: 制御ノードの行数の精度を確認する

dedicated SQL プールでは分散クエリプランを作成するためのプライマリエンジンを、コンピューティングノード上の行数に関して更新しておく必要があります。次のクエリを実行して、行数に差異があるテーブルを特定します。

SELECT objIdsWithStats.[object_id]
    ,actualRowCounts.[schema]
    ,actualRowCounts.logical_table_name
    ,statsRowCounts.stats_row_count
    ,actualRowCounts.actual_row_count
    ,row_count_difference = CASE 
        WHEN actualRowCounts.actual_row_count >= statsRowCounts.stats_row_count
            THEN actualRowCounts.actual_row_count - statsRowCounts.stats_row_count
        ELSE statsRowCounts.stats_row_count - actualRowCounts.actual_row_count
        END
    ,percent_deviation_from_actual = CASE 
        WHEN actualRowCounts.actual_row_count = 0
            THEN statsRowCounts.stats_row_count
        WHEN statsRowCounts.stats_row_count = 0
            THEN actualRowCounts.actual_row_count
        WHEN actualRowCounts.actual_row_count >= statsRowCounts.stats_row_count
            THEN CONVERT(NUMERIC(18, 0), CONVERT(NUMERIC(18, 2), (actualRowCounts.actual_row_count - statsRowCounts.stats_row_count)) / CONVERT(NUMERIC(18, 2), actualRowCounts.actual_row_count) * 100)
        ELSE CONVERT(NUMERIC(18, 0), CONVERT(NUMERIC(18, 2), (statsRowCounts.stats_row_count - actualRowCounts.actual_row_count)) / CONVERT(NUMERIC(18, 2), actualRowCounts.actual_row_count) * 100)
        END
    ,'UPDATE STATISTICS ' + quotename(actualRowCounts.[schema]) + '.' + quotename(actualRowCounts.logical_table_name) + ';' as update_stats_stmt
FROM (
    SELECT DISTINCT object_id
    FROM sys.stats
    WHERE stats_id > 1
    ) objIdsWithStats
LEFT JOIN (
    SELECT object_id
        ,sum(rows) AS stats_row_count
    FROM sys.partitions
    GROUP BY object_id
    ) statsRowCounts ON objIdsWithStats.object_id = statsRowCounts.object_id
LEFT JOIN (
    SELECT sm.name [schema]
        ,tb.name logical_table_name
        ,tb.object_id object_id
        ,SUM(rg.row_count) actual_row_count
    FROM sys.schemas sm
    INNER JOIN sys.tables tb ON sm.schema_id = tb.schema_id
    INNER JOIN sys.pdw_table_mappings mp ON tb.object_id = mp.object_id
    INNER JOIN sys.pdw_nodes_tables nt ON nt.name = mp.physical_name
    INNER JOIN sys.dm_pdw_nodes_db_partition_stats rg ON rg.object_id = nt.object_id
        AND rg.pdw_node_id = nt.pdw_node_id
        AND rg.distribution_id = nt.distribution_id
    INNER JOIN sys.indexes ind on tb.object_id = ind.object_id
    WHERE rg.index_id < 2 -- In case this condition removed the number of rows will gets duplicated based on the number of index.
    AND ind.type_desc IN ('CLUSTERED COLUMNSTORE', 'HEAP') -- Switch between the CCI (Column store) and HEAP, You should at least keep one value or else the total number of rows will gets duplicated based on the number of indexes.
    GROUP BY sm.name
        ,tb.name
        ,tb.object_id
    ) actualRowCounts ON objIdsWithStats.object_id = actualRowCounts.object_id

手順 2: 統計が最新であることを確認する

データの更新は、効果的な実行プランの生成に使用される統計ヒストグラムに大きな影響を与える可能性があります。次のクエリを実行して、統計の最終更新日がテーブルの変更パターンと一致しているかどうかを判断します。

SELECT ob.[object_id],max(sm.[name]) AS [schema_name]
    ,max(tb.[name]) AS [table_name]
    ,st.[stats_id]
    ,max(st.[name]) AS [stats_name]
    ,string_agg(co.[name], ',') AS [stats_column_names]
    ,STATS_DATE(ob.[object_id], st.[stats_id]) AS [stats_last_updated_date]
    ,'UPDATE STATISTICS ' + quotename(max(sm.[name])) + '.' + quotename(max(tb.[name])) + ';' as [update_stats_stmt]
FROM sys.objects ob
JOIN sys.stats st ON ob.[object_id] = st.[object_id]
JOIN sys.stats_columns sc ON st.[stats_id] = sc.[stats_id]
    AND st.[object_id] = sc.[object_id]
JOIN sys.columns co ON sc.[column_id] = co.[column_id]
    AND sc.[object_id] = co.[object_id]
JOIN sys.types ty ON co.[user_type_id] = ty.[user_type_id]
JOIN sys.tables tb ON co.[object_id] = tb.[object_id]
JOIN sys.schemas sm ON tb.[schema_id] = sm.[schema_id]
WHERE st.[stats_id] > 1
GROUP BY ob.[object_id], st.[stats_id]
ORDER BY stats_last_updated_date

手順 3: 特定したテーブルについての統計を更新する

前の手順で候補テーブルを特定した後、クエリの update_stats_stmt 列に生成されたステートメントを実行して統計を更新します。

Note

ユーザーが作成した場合でも、個々の統計を更新することはお勧めしません。統計名を指定せずに UPDATE STATISTICS を実行すると、テーブルに関連付けられているすべての統計と、制御ノードの行数が更新されます。 WITH FULLSCANまたはWITH SAMPLE <SamplePercent> PERCENTを使用して、大きなテーブルに対して適切な精度を実現することで、既定のスキャン率をオーバーライドすることを検討できます。完全な構文については、「UPDATE STATISTICS (Transact-SQL)」を参照してください。

例えば次が挙げられます。

UPDATE STATISTICS [dbo].[MyAwesomeTable];

統計を更新したら、問題のクエリを再実行して、統計の更新によって実行時間が向上したかどうかを判断します。

次の方法で共有

専用 SQL プールの統計の正確性を確認する

手順 1: 制御ノードの行数の精度を確認する

手順 2: 統計が最新であることを確認する

手順 3: 特定したテーブルについての統計を更新する

統計のメンテナンスに関するその他のリソース

フィードバック

その他のリソース