小さい多数の Spark ジョブ
小さいジョブが多数表示される場合は、比較的小さいデータ (<10 GB) に対して多くの操作を実行している可能性があります。 小規模な操作はそれぞれ数秒しかかかりませんが、その時間は積み重なり、操作ごとのオーバーヘッドに費やされる時間も長くなります。
小さいジョブを高速化する最善の方法は、複数の操作を並列で実行することです。 デルタ ライブ テーブル を使用すると、これが自動的に行われます。
次のオプションがあります。
- 操作を複数のノートブックに分割し、複数のタスク ジョブ を使用して、同じクラスター上でそれらを並列実行します。
- すべてのクエリが SQL で書かれている場合は、SQL ウェアハウス を使用します。 SQL ウェアハウスは、この種のワークロード用に設計されているため、多くのクエリを並列で実行する場合に適切にスケーリングされます。
- ノートブックをパラメーター化し、For each タスクを使用してノートブックを複数回並列で実行します。 コンカレンシーを使用して、並列化のレベルを設定します。 これはサーバーレス コンピューティングで適切に機能します。