Sdílet prostřednictvím


Úvod k objektům pracovního prostoru

Tento článek obsahuje základní úvod k objektům pracovního prostoru Azure Databricks. Objekty pracovního prostoru můžete vytvářet, zobrazovat a uspořádat v prohlížeči pracovních prostorů napříč osobami.

Poznámka k pojmenování aktiv pracovního prostoru

Úplný název prostředku pracovního prostoru se skládá ze základního názvu a jeho přípony souboru. Přípona souboru poznámkového bloku může být .pynapříklad , .sql, .scala, .ra .ipynb v závislosti na jazyce a formátu poznámkového bloku.

Při vytváření prostředku poznámkového bloku musí být jeho základní název a úplný název (základní název zřetězený s příponou souboru) jedinečný v rámci jakékoli složky pracovního prostoru. Když pojmenujete prostředek, Databricks zkontroluje, jestli splňuje tato kritéria, a to přidáním přípony souboru. Pokud úplný název odpovídá existujícímu souboru ve složce, tento název není povolený a musíte zvolit nový název poznámkového bloku. Pokud se například pokusíte vytvořit poznámkový blok Pythonu (ve zdrojovém formátu Pythonu) pojmenovaný test ve stejné složce jako soubor Pythonu s názvem test.py, nebude povolený.

Svazky

Clustery Azure Databricks Datová Věda & Engineering a Databricks Mosaic AI poskytují jednotnou platformu pro různé případy použití, jako je spouštění produkčních kanálů ETL, analýzy streamování, ad hoc analýzy a strojového učení. Cluster je typ výpočetního prostředku Azure Databricks. Mezi další typy výpočetních prostředků patří azure Databricks SQL Warehouses.

Podrobné informace o správě a používání clusterů najdete v tématu Výpočty.

Notebooky

Poznámkový blok je webové rozhraní pro dokumenty obsahující řadu spustitelných buněk (příkazů), které pracují se soubory a tabulkami, vizualizacemi a textem vyprávění. Příkazy lze spouštět postupně, odkazující na výstup jednoho nebo více dříve spouštěných příkazů.

Poznámkové bloky jsou jedním z mechanismů pro spouštění kódu v Azure Databricks. Druhým mechanismem jsou úlohy.

Podrobné informace o správě a používání poznámkových bloků najdete v tématu Úvod do poznámkových bloků Databricks.

Pracovní místa

Úlohy jsou jedním z mechanismů pro spouštění kódu v Azure Databricks. Dalším mechanismem jsou poznámkové bloky.

Podrobné informace o správě a používání úloh najdete v tématu Plánování a orchestrace pracovních postupů.

Knihovny

Knihovna zpřístupňuje kód třetích stran nebo místně vytvořený pro poznámkové bloky a úlohy spuštěné v clusterech.

Podrobné informace o správě a používání knihoven najdete v tématu Knihovny.

Data

Data můžete importovat do distribuovaného systému souborů připojeného k pracovnímu prostoru Azure Databricks a pracovat s ním v poznámkových blocích a clusterech Azure Databricks. Pro přístup k datům můžete použít také širokou škálu zdrojů dat Apache Sparku.

Podrobné informace o načítání dat najdete v tématu Ingestování dat do databricks lakehouse.

Soubory

Důležité

Tato funkce je ve verzi Public Preview.

V Databricks Runtime 11.3 LTS a novějších můžete v pracovním prostoru Databricks vytvářet a používat libovolné soubory. Soubory můžou být libovolný typ souboru. Mezi běžné příklady typů souborů patří:

  • .py soubory používané ve vlastních modulech.
  • .md soubory, například README.md.
  • .csv nebo jiné malé datové soubory.
  • .txt soubory.
  • Soubory protokolu

Podrobné informace o používání souborů najdete v tématu Práce se soubory v Azure Databricks. Informace o tom, jak používat soubory ke modularizaci kódu při vývoji pomocí poznámkových bloků Databricks, najdete v tématu Sdílení kódu mezi poznámkovými bloky Databricks.

Složky Gitu

Složky Gitu jsou složky Azure Databricks, jejichž obsah je spolusdílený tím, že je synchronizuje do vzdáleného úložiště Git. Pomocí složek Git Databricks můžete vyvíjet poznámkové bloky v Azure Databricks a používat vzdálené úložiště Git pro spolupráci a správu verzí.

Podrobné informace o používání úložišť najdete v tématu Integrace Gitu pro složky Databricks Git.

Modely

Model odkazuje na model zaregistrovaný v registru modelů MLflow. Registr modelů je centralizované úložiště modelů, které umožňuje spravovat celý životní cyklus modelů MLflow. Poskytuje chronologickou rodokmen modelu, správu verzí modelu, přechody fází a poznámky a popisy verzí modelu a modelů.

Podrobné informace o správě a používání modelů najdete v tématu Správa životního cyklu modelu v katalogu Unity.

Experimenty

Experiment MLflow je primární jednotka organizace a řízení přístupu pro trénování modelů strojového učení MLflow. Všechna spuštění MLflow patří do experimentu. Každý experiment umožňuje vizualizovat, vyhledávat a porovnávat spuštění a stahovat a spouštět artefakty nebo metadata pro analýzu v jiných nástrojích.

Podrobné informace o správě a používání experimentů najdete v tématu Uspořádání trénovacích běhů pomocí experimentů MLflow.

Dotazy

Dotazy jsou příkazy SQL, které umožňují interakci s daty. Další informace najdete v tématu Přístup a správa uložených dotazů.

Řídicí panely

Řídicí panely jsou prezentace vizualizací dotazů a komentářů. Viz řídicí panely nebo starší řídicí panely.

Výstrahy

Výstrahy jsou oznámení, že pole vrácené dotazem dosáhlo prahové hodnoty. Další informace najdete v tématu Co jsou výstrahy SQL služby Databricks?.

Odkazy na objekty pracovního prostoru

V minulosti bylo nutné, aby uživatelé zahrnuli předponu /Workspace cesty pro některá rozhraní API Databricks (%sh), ale ne pro jiné (%runvstupy rozhraní REST API).

Uživatelé můžou používat cesty pracovního prostoru s předponou /Workspace všude. Staré odkazy na cesty bez předpony /Workspace jsou přesměrovány a nadále fungují. Doporučujeme, aby všechny cesty pracovního prostoru nesly předponu /Workspace , aby se odlišily od cest svazku a DBFS.

Předpokladem pro konzistentní /Workspace chování předpony cesty je toto: Na kořenové úrovni pracovního prostoru nemůže existovat /Workspace složka. Pokud máte /Workspace složku na kořenové úrovni a chcete povolit toto vylepšení uživatelského prostředí, odstraňte nebo přejmenujte /Workspace složku, kterou jste vytvořili, a obraťte se na tým účtu Azure Databricks.

Sdílení souboru, složky nebo adresy URL poznámkového bloku

Ve vašem pracovním prostoru Azure Databricks jsou adresy URL souborů, poznámkových bloků a složek pracovních prostorů ve formátech:

Adresy URL souborů pracovního prostoru

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Adresy URL poznámkového bloku

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

Adresy URL složky (pracovního prostoru a Gitu)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Tyto odkazy můžou přerušit, pokud se v aktuální cestě aktualizuje nějaká složka, soubor nebo poznámkový blok, nebo se odstraní a znovu vytvoří se stejným názvem. Odkaz ale můžete vytvořit na základě cesty pracovního prostoru ke sdílení s ostatními uživateli Databricks s odpovídajícími úrovněmi přístupu tak, že ho změníte na odkaz v tomto formátu:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Odkazy na složky, poznámkové bloky a soubory je možné sdílet nahrazením všeho v adrese URL za ?o=<16-digit-workspace-ID> cestou k souboru, složce nebo poznámkovému bloku z kořenového adresáře pracovního prostoru. Pokud sdílíte adresu URL se složkou, odeberte /browse/folders/<16-digit-ID> ji také z původní adresy URL.

Pokud chcete získat cestu k souboru, otevřete místní nabídku tak, že kliknete pravým tlačítkem na složku, poznámkový blok nebo soubor v pracovním prostoru, který chcete sdílet, a vyberete Kopírovat adresu URL/cestu>Úplná cesta. Předkopend #workspace k cestě k souboru, kterou jste právě zkopírovali, a za něj ?o=<16-digit-workspace-ID> připojte výsledný řetězec tak, aby odpovídal výše uvedenému formátu adresy URL.

Výběr cesty kopírovat adresu URL následovanou úplnou cestou z místní nabídky složky pracovního prostoru.

Příklad formulace adresy URL č. 1: Adresy URL složek

Pokud chcete sdílet adresu URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222složky pracovního prostoru, odeberte browse/folders/1111111111111111 z adresy URL podřetětěr. Přidejte #workspace cestu ke složce nebo objektu pracovního prostoru, který chcete sdílet.

V tomto případě je cesta pracovního prostoru ke složce . /Workspace/Users/user@example.com/team-git/notebooks Po zkopírování úplné cesty z pracovního prostoru teď můžete vytvořit odkaz ke sdílení:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Příklad formulace adresy URL 2: Adresy URL poznámkového bloku

Pokud chcete sdílet adresu URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333poznámkového bloku, odeberte #notebook/2222222222222222/command/3333333333333333. Přidejte #workspace cestu ke složce nebo objektu pracovního prostoru.

V tomto případě cesta k pracovnímu prostoru odkazuje na poznámkový blok /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Po zkopírování úplné cesty z pracovního prostoru teď můžete vytvořit odkaz ke sdílení:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Teď máte stabilní adresu URL pro soubor, složku nebo cestu poznámkového bloku ke sdílení. Další informace o adresách URL a identifikátorech naleznete v tématu Získání identifikátorů pro objekty pracovního prostoru.