Suggerimenti

Articolo
03/22/2025

Si applica a: segno di spunta sì Databricks SQL Databricks Runtime

Suggerire approcci specifici per generare un piano di esecuzione.

Sintassi

/*+ { partition_hint | join_hint | skew_hint } [, ...] */

Suggerimenti di partizionamento

Gli hint di partizionamento consentono di suggerire una strategia di partizionamento che Azure Databricks deve seguire. COALESCE, REPARTITION e REPARTITION_BY_RANGE sono suggerimenti supportati e sono equivalenti rispettivamente alle API di coalesce, repartition e repartitionByRange dell'insieme di dati. Questi hint consentono di ottimizzare le prestazioni e controllare il numero di file di output. Quando vengono specificati più hint di partizionamento, più nodi vengono inseriti nel piano logico, ma l'hint più a sinistra viene selezionato dall'ottimizzatore.

Sintassi

partition_hint
  COALESCE ( part_num ) |
  REPARTITION ( { part_num | [ part_num , ] column_name [ , ...] } ) |
  REPARTITION_BY_RANGE ( column_name [, ...] [, part_num] ) |
  REBALANCE [ ( column_name [, ...] ) ]

Tipi di hint per il partizionamento

COALESCE ( part_num )

Ridurre il numero di partizioni al numero specificato di partizioni. Accetta un numero di partizione come parametro.
REPARTITION ( { part_num | [ part_num , ] column_name [ , ...] } )

Ripartizione al numero specificato di partizioni usando le espressioni di partizionamento specificate. Accetta un numero di partizione, nomi di colonna o entrambi come parametri.
REPARTITION_BY_RANGE ( column_name [, ...] [, part_num]

Ripartizione al numero specificato di partizioni usando le espressioni di partizionamento specificate. Accetta nomi di colonna e un numero di partizione facoltativo come parametri.
REBALANCE [ ( column_name [, ...] ) ]

L'hint REBALANCE può essere usato per ribilanciare le partizioni di output dei risultati della query, in modo che ogni partizione sia di dimensioni ragionevoli (non troppo piccole e non troppo grandi). Può accettare nomi di colonna come parametri e provare a partizionare il risultato della query in base a queste colonne. Si tratta di un'operazione ottimale: se sono presenti asimmetrie, Spark dividerà le partizioni asimmetriche, per rendere queste partizioni non troppo grandi. Questo hint è utile quando è necessario scrivere il risultato di questa query in una tabella, per evitare file troppo piccoli/grandi. Questo hint viene ignorato se AQE non è abilitato.
column_name

Nome esposto di una colonna o di un alias da utilizzare per il ripartizionamento o il ribilanciamento.
part_num

Numero letterale intero. Numero di partizioni da suddividere in.

Esempi

> SELECT /*+ COALESCE(3) */ * FROM t;

> SELECT /*+ REPARTITION(3) */ * FROM t;

> SELECT /*+ REPARTITION(c) */ * FROM t;

> SELECT /*+ REPARTITION(3, c) */ * FROM t;

> SELECT /*+ REPARTITION_BY_RANGE(c) */ * FROM t;

> SELECT /*+ REPARTITION_BY_RANGE(3, c) */ * FROM t;

> SELECT /*+ REBALANCE */ * FROM t;

> SELECT /*+ REBALANCE(c) */ * FROM t;

-- When a column name has been occluded by an alias you must refere to it by the alias name.
> SELECT /*+ REBALANCE(d) */ * FROM t AS s(d);

-- multiple partitioning hints
> EXPLAIN EXTENDED SELECT /*+ REPARTITION(100), COALESCE(500), REPARTITION_BY_RANGE(3, c) */ * FROM t;
== Parsed Logical Plan ==
'UnresolvedHint REPARTITION, [100]
+- 'UnresolvedHint COALESCE, [500]
   +- 'UnresolvedHint REPARTITION_BY_RANGE, [3, 'c]
      +- 'Project [*]
         +- 'UnresolvedRelation [t]

== Analyzed Logical Plan ==
name: string, c: int
Repartition 100, true
+- Repartition 500, false
   +- RepartitionByExpression [c#30 ASC NULLS FIRST], 3
      +- Project [name#29, c#30]
         +- SubqueryAlias spark_catalog.default.t
            +- Relation[name#29,c#30] parquet

== Optimized Logical Plan ==
Repartition 100, true
+- Relation[name#29,c#30] parquet

== Physical Plan ==
Exchange RoundRobinPartitioning(100), false, [id=#121]
+- *(1) ColumnarToRow
   +- FileScan parquet default.t[name#29,c#30] Batched: true, DataFilters: [], Format: Parquet,
      Location: CatalogFileIndex[file:/spark/spark-warehouse/t], PartitionFilters: [],
      PushedFilters: [], ReadSchema: struct<name:string>

Suggerimenti per collegamenti

Gli hint di join consentono di suggerire la strategia di join che Databricks SQL deve usare. Quando vengono specificati hint di strategia di join diversi su entrambi i lati di un join, Databricks SQL assegna le priorità agli hint nell'ordine seguente: BROADCAST su MERGE su SHUFFLE_HASH su SHUFFLE_REPLICATE_NL. Quando entrambi i lati sono specificati dall'hint BROADCAST o dall'hint SHUFFLE_HASH, Databricks SQL sceglie il lato di costruzione in base al tipo di join e alle dimensioni delle relazioni. Poiché una determinata strategia potrebbe non supportare tutti i tipi di join, Databricks SQL non garantisce l'uso della strategia di join suggerita dall'hint.

Sintassi

join_hint
  BROADCAST ( table_name ) |
  MERGE ( table_name ) |
  SHUFFLE_HASH ( table_name ) |
  SHUFFLE_REPLICATE_NL ( table_name )

BROADCASTJOIN e MAPJOIN sono supportati come alias per BROADCAST.

SHUFFLE_MERGE e MERGEJOIN sono supportati come alias per MERGE.

Tipi di suggerimenti di join

BROADCAST ( table_name )

Usa il join broadcast. Il lato join con l'hint viene trasmesso indipendentemente dal autoBroadcastJoinThreshold. Se entrambi i lati del join hanno gli hint di trasmissione, quello con le dimensioni più piccole (in base alle statistiche) viene trasmesso.
MERGE ( table_name )

Usare il join di ordinamento shuffle merge.
SHUFFLE_HASH ( table_name )

Utilizzare lo shuffle hash join. Se entrambi i lati hanno gli hint di hash shuffle, Databricks SQL sceglie il lato più piccolo (in base alle statistiche) come lato di costruzione.
SHUFFLE_REPLICATE_NL ( table_name )

Usare il "shuffle-and-replicate nested loop join".
table_name

Nome esposto di una tabella o di un alias di tabella a cui si applica l'hint.

Esempi

-- Join Hints for broadcast join
> SELECT /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
> SELECT /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
> SELECT /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;

-- Join Hints for shuffle sort merge join
> SELECT /*+ SHUFFLE_MERGE(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
> SELECT /*+ MERGEJOIN(t2) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
> SELECT /*+ MERGE(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

-- Join Hints for shuffle hash join
> SELECT /*+ SHUFFLE_HASH(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

-- Join Hints for shuffle-and-replicate nested loop join
> SELECT /*+ SHUFFLE_REPLICATE_NL(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

-- When different join strategy hints are specified on both sides of a join, Databricks SQL
-- prioritizes the BROADCAST hint over the MERGE hint over the SHUFFLE_HASH hint
-- over the SHUFFLE_REPLICATE_NL hint.
-- Databricks SQL will issue Warning in the following example
-- org.apache.spark.sql.catalyst.analysis.HintErrorLogger: Hint (strategy=merge)
-- is overridden by another hint and will not take effect.
> SELECT /*+ BROADCAST(t1), MERGE(t1, t2) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

-- When a table name is occluded by an alias you must use the alias name in the hint
> SELECT /*+ BROADCAST(t1), MERGE(s1, s2) */ * FROM t1 AS s1 INNER JOIN t2 AS s2 ON s1.key = s2.key;

Hint di asimmetria

(Delta Lake) Per informazioni sull'hint , consultare l'ottimizzazione dell'asimmetria dei join utilizzando gli hint di asimmetria SKEW.

SELECT

Condividi tramite

Suggerimenti

Sintassi

Suggerimenti di partizionamento

Sintassi

Tipi di hint per il partizionamento

Esempi

Suggerimenti per collegamenti

Sintassi

Tipi di suggerimenti di join

Esempi

Hint di asimmetria

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Suggerimenti

Sintassi

Suggerimenti di partizionamento

Sintassi

Tipi di hint per il partizionamento

Esempi

Suggerimenti per collegamenti

Sintassi

Tipi di suggerimenti di join

Esempi

Hint di asimmetria

Dichiarazioni correlate

Commenti e suggerimenti

Risorse aggiuntive