次の方法で共有


Spark の DAG で高負荷な読み取りを識別する

DAG にアクセスする

高負荷のジョブが表示されているとしましょう。まず、読み取りを実行しているステージの ID が必要です。 ここでは、ステージ ID が 194 であることを確認できます。

ステージ ID

次に、SQL DAG にアクセスする必要があります。 ジョブのページの上部までスクロールし、[関連付けられた SQL クエリ] をクリックします。

SQL ID

これで DAG が表示されます。 そうでない場合は、少しスクロールすると表示されます。

SQL DAG

場合によっては、DAG をたどって、データの取得元を確認することができます。 それ以外の場合は、確認したステージ ID を探します。

DAG での SQL ステージ

次に、"スキャン" ノードを探す必要があります。 このケースでは、transactions という名前のテーブルを読み取っていることが簡単に分かります。

DAG でのスキャン

場合によっては、読み取るデータの場所を取得するために、ノードをクリックまたはロールオーバーする必要があります。