次の方法で共有


小さい多数の Spark ジョブ

小さいジョブが多数表示される場合は、比較的小さいデータ (<10 GB) に対して多くの操作を実行している可能性があります。 小規模な操作はそれぞれ数秒しかかかりませんが、その時間は積み重なり、操作ごとのオーバーヘッドに費やされる時間も長くなります。

小さいジョブを高速化する最善の方法は、複数の操作を並列で実行することです。 デルタ ライブ テーブル を使用すると、これが自動的に行われます。

次のオプションがあります。

  • 操作を複数のノートブックに分割し、複数のタスク ジョブ を使用して、同じクラスター上でそれらを並列実行します。
  • すべてのクエリが SQL で書かれている場合は、SQL ウェアハウス を使用します。 SQL ウェアハウスは、この種のワークロード用に設計されているため、多くのクエリを並列で実行する場合に適切にスケーリングされます。
  • ノートブックをパラメーター化しFor each タスクを使用してノートブックを複数回並列で実行します。 コンカレンシーを使用して、並列化のレベルを設定します。 これはサーバーレス コンピューティングで適切に機能します。