コンピューティング作成チート シート
この記事では、コンピューティング作成に関する明確で意見に基づくガイダンスを提供することを目的としています。 ワークフローに適したコンピューティングの種類を使用することで、パフォーマンスを向上させ、コストを節約できます。
ベスト プラクティス | 影響 | ドキュメント |
---|---|---|
Azure Databricks を初めて使用する場合は、まず汎用インスタンスの種類を使用する | ワークロードに適したインスタンスの種類を選択すると、効率がより高くなります。 | - クラスターの作成 |
必要な機能がサポートされていない場合を除き、共有アクセス モードを使用する | 共有アクセス モードでのコンピューティングは、複数のユーザーがユーザー間でデータを分離して使用できます。 | - アクセス モード |
十分な可用性がある場合は、最新世代のインスタンスの種類を使用する | 最新世代のインスタンスの種類を使用すると、最高のパフォーマンスと最新の機能が提供されます。 | - Azure インスタンスの種類 |
ワークロードの実行に必要な速度に基づいて、オンデマンドとスポット インスタンスのバランスを設定する | スポット インスタンスを使用するとコストが節約されますが、スポット インスタンスが再利用された場合、操作の全体的な実行時間に影響を及ぼす可能性があります。 | - コンピューティング構成の奨励事項 |
ワークロードが実行する操作の種類に基づいて、ノードのサイズとワーカーの数を選択する | たとえば、多くのシャッフルが想定される場合は、複数の小さなノードではなく、大きな 1 つのノードを使用する方が効率的です。 | - コンピューティングのサイズに関する考慮事項 |
1 から 4 個のワーカーに対して自動スケーリングが設定されたクラスターでバキュームを実行します。各ワーカーには 8 個のコアがあります。 8 コアから 32 コアのドライバーを選択します。 メモリ不足 (OOM) エラーが発生する場合は、ドライバーのサイズを大きくします。 |
VACUUM ステートメントは 2 つのフェーズで行われ、2 番目のフェーズはドライバーの負荷が高くなります。 適切なサイズのクラスターを使用しない場合、操作が遅くなる可能性および成功しない可能性があります。 | - バキュームで必要なクラスターのサイズは何ですか? - VACUUM のベスト プラクティス |
バッチ ワークフローが Photon のメリットを得られるかどうかを評価する | Photon を使用すると、より高速なクエリが提供され、ワークロードあたりの総コストが削減されます。 | - Photon の利点 |