Ściągawka planowania zadań produkcyjnych
Ten artykuł ma na celu przedstawienie jasnych i opinii wskazówek dotyczących planowania zadań produkcyjnych. Zastosowanie najlepszych rozwiązań może pomóc zmniejszyć koszty, poprawić wydajność i zaostrzyć zabezpieczenia.
Najlepsze rozwiązanie | Wpływ | Dokumenty |
---|---|---|
Używanie klastrów zadań na potrzeby zautomatyzowanych przepływów pracy | Koszt: klastry zadań są rozliczane według niższych stawek niż klastry interaktywne. | - Tworzenie klastra - Klastry zadań i klastry zadań. |
Ponowne uruchamianie długotrwałych klastrów | Zabezpieczenia: uruchom ponownie klastry, aby skorzystać z poprawek i poprawek błędów w środowisku Databricks Runtime. | - Uruchom ponownie klaster, aby zaktualizować go przy użyciu najnowszych obrazów |
Uruchamianie zadań produkcyjnych przy użyciu jednostek usługi zamiast kont użytkowników | Zabezpieczenia: jeśli zadania należą do poszczególnych użytkowników, gdy ci użytkownicy opuszczają grupę, te zadania mogą przestać działać. | - Zarzadzanie jednostkami usługi |
Używanie zadań usługi Databricks do orkiestracji zawsze, gdy jest to możliwe | Koszt: nie trzeba używać narzędzi zewnętrznych do organizowania, jeśli organizujesz tylko obciążenia w usłudze Azure Databricks. | - Planowanie i organizowanie przepływów pracy |
Korzystanie z najnowszej wersji LTS środowiska Databricks Runtime | Wydajność i koszty: usługa Azure Databricks zawsze ulepsza środowisko Databricks Runtime pod kątem użyteczności, wydajności i zabezpieczeń. | - Środowisko obliczeniowe - Cykle życia pomocy technicznej usługi Databricks |
Nie przechowuj danych produkcyjnych w katalogu głównym systemu plików DBFS | Zabezpieczenia: gdy dane są przechowywane w katalogu głównym systemu plików DBFS, wszyscy użytkownicy mogą uzyskać do niego dostęp. | - Co to jest system plików DBFS? - Rekomendacje dotycząće pracy z katalogiem głównym systemu plików DBFS |