Vývoj sad prostředků Databricks
Tento článek popisuje vývoj a životní cyklus sady prostředků Databricks. Obecné informace o sadách prostředků Databricks najdete v tématu Co jsou sady prostředků Databricks?.
Životní cyklus sady
Abyste pochopili, jak efektivně používat sady, musíte porozumět základnímu životnímu cyklu sady:
- Kostra sady se vytvoří na základě projektu.
- Projekt sady se vyvíjí místně. Sada obsahuje konfigurační soubory, které definují nastavení infrastruktury a pracovního prostoru, jako jsou cíle nasazení, nastavení pro prostředky Databricks, jako jsou úlohy a kanály, a také zdrojové soubory a další artefakty.
- Projekt sady je ověřen. Ověření ověří nastavení a definice prostředků v konfiguraci sady s odpovídajícími schématy objektů, aby se zajistilo, že je sada nasaditelná do Databricks.
- Sada se nasadí do cílového pracovního prostoru. Nejčastěji se sada nasazuje nejprve do osobního vývojového pracovního prostoru uživatele pro účely testování. Po dokončení testování sady je možné sadu nasadit do přípravného a následně produkčního cíle.
- Prostředky pracovního postupu definované v nasazené sadě je možné spustit. Můžete například spustit úlohu.
- Pokud se sada už nepoužívá, může být trvale zničena.
Pomocí příkazů sady rozhraní příkazového řádku Databricks vytvoříte, ověříte, nasadíte, spustíte a zničíte sady, jak je popsáno v následujících částech.
Krok 1: Vytvoření sady
Existují tři způsoby, jak začít vytvářet sadu:
- Použijte výchozí šablonu sady.
- Použijte vlastní šablonu sady.
- Vytvořte sadu ručně.
Použití výchozí šablony sady
Pokud chcete použít výchozí šablonu sady prostředků Azure Databricks k vytvoření počáteční sady, kterou pak můžete dále přizpůsobit, použijte Rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší a spusťte příkaz bundle init
, který vám umožní vybrat si ze seznamu dostupných šablon. Viz Vytvoření sady z šablony projektu.
databricks bundle init
Zdroj výchozích šablon sad můžete zobrazit ve veřejných úložištích Databricks/cli a databricks/mlops-stacks Na GitHubu.
Přeskočte k kroku 2: Naplňte konfigurační soubory sady.
Použití vlastní šablony sady
Pokud chcete použít jinou šablonu sady než výchozí šablonu sady Azure Databricks, musíte znát místní cestu nebo adresu URL umístění vzdálené šablony sady. Ke spuštění příkazu použijte bundle init
Databricks verze 0.218.0 nebo novější:
databricks bundle init <project-template-local-path-or-url>
Další informace o tomto příkazu najdete v tématu Šablony projektů Sady prostředků Databricks. Informace o konkrétní šabloně sady najdete v dokumentaci poskytovatele šablony sady.
Přeskočte k kroku 2: Naplňte konfigurační soubory sady.
Ruční vytvoření sady
Pokud chcete sadu vytvořit ručně místo pomocí šablony sady, vytvořte adresář projektu na místním počítači nebo prázdné úložiště s poskytovatelem Gitu třetí strany.
V adresáři nebo úložišti vytvořte jako vstup jeden nebo více konfiguračních souborů sady. Tyto soubory jsou vyjádřeny ve formátu YAML. Musí existovat minimálně jeden (a pouze jeden) konfigurační soubor sady s názvem databricks.yml
. Při mapování include
souboru se musí odkazovat na databricks.yml
další konfigurační soubory sady.
Pokud chcete snadněji a rychleji vytvářet soubory YAML, které odpovídají syntaxi konfigurace sady prostředků Databricks, můžete použít nástroj, jako je Visual Studio Code, PyCharm Professionalnebo IntelliJ IDEA Ultimate, který poskytuje podporu souborů YAML a souborů schématu JSON následujícím způsobem:
Visual Studio Code
Přidejte podporu jazykového serveru YAML do editoru Visual Studio Code, například instalací rozšíření YAML z webu Visual Studio Code Marketplace.
Vygenerujte soubor schématu JSON konfigurace sady prostředků Databricks pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší, aby se spustil příkaz
bundle schema
a přesměroval výstup do souboru JSON. Například vygenerujte soubor s názvembundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Pomocí editoru Visual Studio Code vytvořte nebo otevřete konfigurační soubor sady v aktuálním adresáři. Tento soubor musí mít název
databricks.yml
.Na začátek konfiguračního souboru sady přidejte následující komentář:
# yaml-language-server: $schema=bundle_config_schema.json
Poznámka:
V předchozím komentáři, pokud je soubor schématu JSON pro konfiguraci sady prostředků Databricks na jiné cestě, nahraďte
bundle_config_schema.json
úplnou cestou k vašemu souboru schématu.Použijte funkce jazykového serveru YAML, které jste přidali dříve. Další informace najdete v dokumentaci k jazykovému serveru YAML.
PyCharm Professional
Vygenerujte soubor schématu JSON konfigurace sady prostředků Databricks pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší, aby se spustil příkaz
bundle schema
a přesměroval výstup do souboru JSON. Například vygenerujte soubor s názvembundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Nakonfigurujte PyCharm tak, aby rozpoznal konfigurační soubor schématu JSON balíčku, a poté dokončete mapování schématu JSON podle pokynů v Konfigurace vlastního schématu JSON.
Pomocí PyCharm vytvořte nebo otevřete konfigurační soubor sady. Tento soubor musí mít název
databricks.yml
. Při psaní PyCharm kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.
IntelliJ IDEA Ultimate
Vygenerujte soubor schématu JSON konfigurace sady prostředků Databricks pomocí Databricks CLI verze 0.218.0 nebo vyšší, spusťte příkaz
bundle schema
a přesměrujte výstup do souboru JSON. Například vygenerujte soubor s názvembundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Nakonfigurujte IntelliJ IDEA tak, aby rozpoznal konfigurační JSON schéma balíčku, a poté dokončete mapování schématu JSON podle pokynů v Konfigurace vlastního schématu JSON.
K vytvoření nebo otevření konfiguračního souboru sady použijte IntelliJ IDEA. Tento soubor musí mít název
databricks.yml
. Při psaní IntelliJ IDEA kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.
Krok 2: Naplnění konfiguračních souborů sady
Konfigurační soubory sady prostředků definují pracovní postupy Azure Databricks zadáním nastavení, jako jsou podrobnosti pracovního prostoru, názvy artefaktů, umístění souborů, podrobnosti úlohy a podrobnosti kanálu. Konfigurace sady prostředků obvykle obsahuje také cíle vývojového, přípravného a produkčního nasazení. Podrobné informace o konfiguračních souborech sady prostředků najdete v tématu Konfigurace sady prostředků Databricks.
Pomocí příkazu bundle generate
můžete automaticky vygenerovat konfiguraci sady pro existující prostředek v pracovním prostoru a pak pomocí bundle deployment bind
propojit konfiguraci sady s prostředkem v pracovním prostoru, aby byly synchronizované. Viz Vygenerování konfiguračního souboru sady a Vytvoření vazby prostředků sady.
Krok 3: Ověření konfiguračních souborů sady
Před nasazením artefaktů nebo spuštěním úlohy nebo kanálu byste měli ověřit, jestli jsou definice v konfiguračních souborech sady platné. Uděláte to tak, že příkaz spustíte bundle validate
z kořenového adresáře projektu sady. Viz Ověření sady.
databricks bundle validate
Pokud je ověření úspěšné, vrátí se souhrn identity sady a potvrzovací zpráva. K výstupu schématu použijte příkaz databricks bundle schema
. Viz Zobrazení schématu konfigurace sady.
Krok 4: Nasazení sady
Před nasazením sady se ujistěte, že má vzdálený pracovní prostor povolené soubory pracovního prostoru. Podívejte se, co jsou soubory pracovního prostoru?
Pokud chcete nasadit sadu do vzdáleného pracovního prostoru, spusťte bundle deploy
příkaz z kořenového adresáře sady, jak je popsáno v části Nasazení sady. Rozhraní příkazového řádku Databricks se nasadí do cílového pracovního prostoru deklarovaného v rámci konfiguračních souborů sady. Podívejte se na cíle.
databricks bundle deploy
Jedinečná identita sady je definována jeho názvem, cílem a identitou nasazovacího nástroje. Pokud jsou tyto atributy v různých sadách stejné, nasazení těchto sad bude vzájemně kolidovat. Další podrobnosti najdete v tématu Nasazení sady .
Tip
Příkazy mimo kořen sady můžete spustit databricks bundle
nastavením BUNDLE_ROOT
proměnné prostředí. Pokud tato proměnná prostředí není nastavená, příkazy databricks bundle
se pokusí o nalezení kořene sady hledáním v aktuálním pracovním adresáři.
Krok 5: Spuštění sady
Pokud chcete spustit konkrétní úlohu nebo kanál, spusťte bundle run
příkaz z kořenového adresáře sady a zadejte úlohu nebo klíč kanálu deklarovaný v konfiguračních souborech sady, jak je popsáno v části Spuštění úlohy nebo kanálu. Klíč prostředku je prvek nejvyšší úrovně bloku YAML prostředku. Pokud nezadáte úlohu nebo klíč pipeline, zobrazí se výzva k výběru prostředku, který se má spustit ze seznamu dostupných prostředků. Pokud není zadána -t
možnost, použije se výchozí cíl deklarovaný v konfiguračních souborech sady. Pokud chcete například spustit úlohu s klíčem hello_job
v kontextu výchozího cíle:
databricks bundle run hello_job
Spuštění úlohy s klíčem hello_job
v kontextu cíle deklarovaného názvem dev
:
databricks bundle run -t dev hello_job
Krok 6: Zničení sady
Upozorňující
Zničení sady trvale odstraní dříve nasazené úlohy, kanály a artefakty sady. Tuto akci nejde vrátit zpátky.
Pokud jste dokončili sadu a chcete odstranit úlohy, kanály a artefakty, které byly dříve nasazené, spusťte bundle destroy
příkaz z kořenového adresáře sady. Tento příkaz odstraní všechny dříve nasazené úlohy, kanály a artefakty definované v konfiguračních souborech sady. Viz Zničení svazku.
databricks bundle destroy
Ve výchozím nastavení se zobrazí výzva k potvrzení trvalého odstranění dříve nasazených úloh, kanálů a artefaktů. Pokud chcete tyto výzvy přeskočit a provést automatické trvalé odstranění, přidejte --auto-approve
do bundle destroy
příkazu možnost.