Úvod k objektům pracovního prostoru
Tento článek obsahuje základní úvod k objektům pracovního prostoru Azure Databricks. Objekty pracovního prostoru můžete vytvářet, zobrazovat a uspořádat v prohlížeči pracovních prostorů napříč osobami.
Poznámka k pojmenování aktiv pracovního prostoru
Úplný název prostředku pracovního prostoru se skládá ze základního názvu a jeho přípony souboru. Přípona souboru poznámkového bloku může být .py
například , .sql
, .scala
, .r
a .ipynb
v závislosti na jazyce a formátu poznámkového bloku.
Při vytváření prostředku poznámkového bloku musí být jeho základní název a úplný název (základní název zřetězený s příponou souboru) jedinečný v rámci jakékoli složky pracovního prostoru. Když pojmenujete prostředek, Databricks zkontroluje, jestli splňuje tato kritéria, a to přidáním přípony souboru. Pokud úplný název odpovídá existujícímu souboru ve složce, tento název není povolený a musíte zvolit nový název poznámkového bloku. Pokud se například pokusíte vytvořit poznámkový blok Pythonu (ve zdrojovém formátu Pythonu) pojmenovaný test
ve stejné složce jako soubor Pythonu s názvem test.py
, nebude povolený.
Svazky
Clustery Azure Databricks Datová Věda & Engineering a Databricks Mosaic AI poskytují jednotnou platformu pro různé případy použití, jako je spouštění produkčních kanálů ETL, analýzy streamování, ad hoc analýzy a strojového učení. Cluster je typ výpočetního prostředku Azure Databricks. Mezi další typy výpočetních prostředků patří azure Databricks SQL Warehouses.
Podrobné informace o správě a používání clusterů najdete v tématu Výpočty.
Notebooky
Poznámkový blok je webové rozhraní pro dokumenty obsahující řadu spustitelných buněk (příkazů), které pracují se soubory a tabulkami, vizualizacemi a textem vyprávění. Příkazy lze spouštět postupně, odkazující na výstup jednoho nebo více dříve spouštěných příkazů.
Poznámkové bloky jsou jedním z mechanismů pro spouštění kódu v Azure Databricks. Druhým mechanismem jsou úlohy.
Podrobné informace o správě a používání poznámkových bloků najdete v tématu Úvod do poznámkových bloků Databricks.
Pracovní místa
Úlohy jsou jedním z mechanismů pro spouštění kódu v Azure Databricks. Dalším mechanismem jsou poznámkové bloky.
Podrobné informace o správě a používání úloh najdete v tématu Plánování a orchestrace pracovních postupů.
Knihovny
Knihovna zpřístupňuje kód třetích stran nebo místně vytvořený pro poznámkové bloky a úlohy spuštěné v clusterech.
Podrobné informace o správě a používání knihoven najdete v tématu Knihovny.
Data
Data můžete importovat do distribuovaného systému souborů připojeného k pracovnímu prostoru Azure Databricks a pracovat s ním v poznámkových blocích a clusterech Azure Databricks. Pro přístup k datům můžete použít také širokou škálu zdrojů dat Apache Sparku.
Podrobné informace o načítání dat najdete v tématu Ingestování dat do databricks lakehouse.
Soubory
Důležité
Tato funkce je ve verzi Public Preview.
V Databricks Runtime 11.3 LTS a novějších můžete v pracovním prostoru Databricks vytvářet a používat libovolné soubory. Soubory můžou být libovolný typ souboru. Mezi běžné příklady typů souborů patří:
-
.py
soubory používané ve vlastních modulech. -
.md
soubory, napříkladREADME.md
. -
.csv
nebo jiné malé datové soubory. -
.txt
soubory. - Soubory protokolu
Podrobné informace o používání souborů najdete v tématu Práce se soubory v Azure Databricks. Informace o tom, jak používat soubory ke modularizaci kódu při vývoji pomocí poznámkových bloků Databricks, najdete v tématu Sdílení kódu mezi poznámkovými bloky Databricks.
Složky Gitu
Složky Gitu jsou složky Azure Databricks, jejichž obsah je spolusdílený tím, že je synchronizuje do vzdáleného úložiště Git. Pomocí složek Git Databricks můžete vyvíjet poznámkové bloky v Azure Databricks a používat vzdálené úložiště Git pro spolupráci a správu verzí.
Podrobné informace o používání úložišť najdete v tématu Integrace Gitu pro složky Databricks Git.
Modely
Model odkazuje na model zaregistrovaný v registru modelů MLflow. Registr modelů je centralizované úložiště modelů, které umožňuje spravovat celý životní cyklus modelů MLflow. Poskytuje chronologickou rodokmen modelu, správu verzí modelu, přechody fází a poznámky a popisy verzí modelu a modelů.
Podrobné informace o správě a používání modelů najdete v tématu Správa životního cyklu modelu v katalogu Unity.
Experimenty
Experiment MLflow je primární jednotka organizace a řízení přístupu pro trénování modelů strojového učení MLflow. Všechna spuštění MLflow patří do experimentu. Každý experiment umožňuje vizualizovat, vyhledávat a porovnávat spuštění a stahovat a spouštět artefakty nebo metadata pro analýzu v jiných nástrojích.
Podrobné informace o správě a používání experimentů najdete v tématu Uspořádání trénovacích běhů pomocí experimentů MLflow.
Dotazy
Dotazy jsou příkazy SQL, které umožňují interakci s daty. Další informace najdete v tématu Přístup a správa uložených dotazů.
Řídicí panely
Řídicí panely jsou prezentace vizualizací dotazů a komentářů. Viz řídicí panely nebo starší řídicí panely.
Výstrahy
Výstrahy jsou oznámení, že pole vrácené dotazem dosáhlo prahové hodnoty. Další informace najdete v tématu Co jsou výstrahy SQL služby Databricks?.
Odkazy na objekty pracovního prostoru
V minulosti bylo nutné, aby uživatelé zahrnuli předponu /Workspace
cesty pro některá rozhraní API Databricks (%sh
), ale ne pro jiné (%run
vstupy rozhraní REST API).
Uživatelé můžou používat cesty pracovního prostoru s předponou /Workspace
všude. Staré odkazy na cesty bez předpony /Workspace
jsou přesměrovány a nadále fungují. Doporučujeme, aby všechny cesty pracovního prostoru nesly předponu /Workspace
, aby se odlišily od cest svazku a DBFS.
Předpokladem pro konzistentní /Workspace
chování předpony cesty je toto: Na kořenové úrovni pracovního prostoru nemůže existovat /Workspace
složka. Pokud máte /Workspace
složku na kořenové úrovni a chcete povolit toto vylepšení uživatelského prostředí, odstraňte nebo přejmenujte /Workspace
složku, kterou jste vytvořili, a obraťte se na tým účtu Azure Databricks.
Sdílení souboru, složky nebo adresy URL poznámkového bloku
Ve vašem pracovním prostoru Azure Databricks jsou adresy URL souborů, poznámkových bloků a složek pracovních prostorů ve formátech:
Adresy URL souborů pracovního prostoru
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Adresy URL poznámkového bloku
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
Adresy URL složky (pracovního prostoru a Gitu)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Tyto odkazy můžou přerušit, pokud se v aktuální cestě aktualizuje nějaká složka, soubor nebo poznámkový blok, nebo se odstraní a znovu vytvoří se stejným názvem. Odkaz ale můžete vytvořit na základě cesty pracovního prostoru ke sdílení s ostatními uživateli Databricks s odpovídajícími úrovněmi přístupu tak, že ho změníte na odkaz v tomto formátu:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Odkazy na složky, poznámkové bloky a soubory je možné sdílet nahrazením všeho v adrese URL za ?o=<16-digit-workspace-ID>
cestou k souboru, složce nebo poznámkovému bloku z kořenového adresáře pracovního prostoru. Pokud sdílíte adresu URL se složkou, odeberte /browse/folders/<16-digit-ID>
ji také z původní adresy URL.
Pokud chcete získat cestu k souboru, otevřete místní nabídku tak, že kliknete pravým tlačítkem na složku, poznámkový blok nebo soubor v pracovním prostoru, který chcete sdílet, a vyberete Kopírovat adresu URL/cestu>Úplná cesta. Předkopend #workspace
k cestě k souboru, kterou jste právě zkopírovali, a za něj ?o=<16-digit-workspace-ID>
připojte výsledný řetězec tak, aby odpovídal výše uvedenému formátu adresy URL.
Příklad formulace adresy URL č. 1: Adresy URL složek
Pokud chcete sdílet adresu URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
složky pracovního prostoru, odeberte browse/folders/1111111111111111
z adresy URL podřetětěr. Přidejte #workspace
cestu ke složce nebo objektu pracovního prostoru, který chcete sdílet.
V tomto případě je cesta pracovního prostoru ke složce . /Workspace/Users/user@example.com/team-git/notebooks
Po zkopírování úplné cesty z pracovního prostoru teď můžete vytvořit odkaz ke sdílení:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
Příklad formulace adresy URL 2: Adresy URL poznámkového bloku
Pokud chcete sdílet adresu URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
poznámkového bloku, odeberte #notebook/2222222222222222/command/3333333333333333
. Přidejte #workspace
cestu ke složce nebo objektu pracovního prostoru.
V tomto případě cesta k pracovnímu prostoru odkazuje na poznámkový blok /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. Po zkopírování úplné cesty z pracovního prostoru teď můžete vytvořit odkaz ke sdílení:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Teď máte stabilní adresu URL pro soubor, složku nebo cestu poznámkového bloku ke sdílení. Další informace o adresách URL a identifikátorech naleznete v tématu Získání identifikátorů pro objekty pracovního prostoru.