Spickzettel für die Compute-Erstellung
Dieser Artikel soll eine klare und fundierte Anleitung für die Compute-Erstellung bieten. Indem Sie die richtigen Compute-Typen für Ihren Workflow verwenden, können Sie die Leistung verbessern und Kosten sparen.
Bewährte Methode | Auswirkung | Docs |
---|---|---|
Wenn Sie noch nicht mit Azure Databricks vertraut sind, verwenden Sie zunächst allgemeine universelle Instanztypen | Die Auswahl des geeigneten Instanztyps für die Workload führt zu einer höheren Effizienz. | - Erstellen eines Clusters |
Verwenden des Modus für den freigegebenen Zugriff, es sei denn, Ihre erforderliche Funktionalität wird nicht unterstützt | Compute mit dem Modus für den freigegebenen Zugriff kann von mehreren Benutzern mit Datenisolation zwischen den Benutzern verwendet werden. | - Zugriffsmodi |
Verwenden Sie die Instanztypen der neuesten Generation, wenn genügend verfügbar sind | Die neueste Generation von Instanztypen bietet die beste Leistung und die neuesten Features. | - Azure-Instanztypen |
Legen Sie die Balance zwischen On-Demand- und Spot-Instanzen fest, je nachdem, wie schnell Ihre Workload ausgeführt werden muss | Spot-Instanzen sparen Kosten, können sich aber auf die Gesamtlaufzeit eines Vorgangs auswirken, wenn die Spot-Instanzen erneut beansprucht werden. | - Empfehlungen für die Computekonfiguration |
Wählen Sie die Größe Ihrer Knoten und die Anzahl der Workers basierend auf den Typen der Vorgänge aus, die Ihre Workload ausführt | Wenn Sie beispielsweise viele Umschichtungen erwarten, kann es effizienter sein, einen großen einzelnen Knoten anstelle mehrerer kleinerer Knoten zu verwenden. | - Berechnen von Überlegungen zur Größenanpassung |
Führen Sie VACUUM auf einem Cluster aus, für den die automatische Skalierung für 1 bis 4 Worker festgelegt ist und jeder Worker über 8 Kerne verfügt. Wählen Sie einen Treiber mit 8 bis 32 Kernen aus. Erhöhen Sie die Größe des Treibers, wenn Sie OOM (Out-of-Memory)-Fehler erhalten. |
VACUUM-Anweisungen erfolgen in zwei Phasen, die zweite davon ist treiberlastig. Wenn Sie nicht den richtig dimensionierten Cluster verwenden, kann der Vorgang zu einer Verlangsamung führen und ist möglicherweise nicht erfolgreich. | - Welche Clustergröße benötigt VACUUM? - Bewährte Methoden für VACUUM |
Bewerten, ob Ihr Batchworkflow von Photon profitieren würde | Photon bietet schnellere Abfragen und reduziert Ihre Gesamtkosten pro Workload. | - Vorteile von Photon |