Spark の DAG で高負荷な読み取りを識別する
DAG にアクセスする
高負荷のジョブが表示されているとしましょう。まず、読み取りを実行しているステージの ID が必要です。 ここでは、ステージ ID が 194 であることを確認できます。
次に、SQL DAG にアクセスする必要があります。 ジョブのページの上部までスクロールし、[関連付けられた SQL クエリ] をクリックします。
これで DAG が表示されます。 そうでない場合は、少しスクロールすると表示されます。
場合によっては、DAG をたどって、データの取得元を確認することができます。 それ以外の場合は、確認したステージ ID を探します。
次に、"スキャン" ノードを探す必要があります。 このケースでは、transactions
という名前のテーブルを読み取っていることが簡単に分かります。
場合によっては、読み取るデータの場所を取得するために、ノードをクリックまたはロールオーバーする必要があります。