次の方法で共有


1 つの Spark タスク

1 つのタスクだけで実行時間の長いステージが表示されている場合、問題が発生している可能性があります。 この 1 つのタスクが実行されている間、CPU が 1 つだけ使用され、クラスターの残りの部分はアイドル状態である可能性があります。 これは、次の状況で最も頻繁に発生します。

  • 小さなデータに対する負荷の高い UDF
  • PARTITION BY ステートメントのない Window 関数
  • 分割できないファイルの種類からの読み取り。 つまり、ファイルを複数の部分で読み取ることができないため、1 つの大きなタスクになります。 分割できないファイルの種類の例として gzip が挙げられます。
  • JSON または CSV ファイルを読み取るときに multiLine オプションを設定する
  • 大きなファイルのスキーマ推論
  • repartition(1) または coalesce(1) の使用