Co se stalo s Úložištěm Databricks?
Služba Azure Databricks zavádí nové prvky uživatelského rozhraní, které uživatelům umožňují pracovat přímo se složkami založenými na úložišti Git z uživatelského rozhraní pracovního prostoru a efektivně nahradit předchozí samostatné funkce funkcí Úložiště.
Co pro mě tato změna znamená?
Pokud jste uživatelem funkce Databricks Repos pro spoluvlastní správu zdrojového kódu založeného na Gitu pro prostředky projektu, základní funkce se nezměnily. Nejdůležitější rozdíl spočívá v tom, že mnoho kontextových operací uživatelského rozhraní teď místo repos odkazuje na složky Gitu.
Například složku Databricks zálohovanou úložištěm Gitu můžete vytvořit tak, že v uživatelském rozhraní vyberete Nový a pak úložiště :
Nyní vyberete Nový a zvolíte Git složku. To samé, jiný název!
Tato změna přináší některá vylepšení, která zjednodušují práci se složkami řízenými verzemi:
-
Lepší uspořádání složek: Složky Gitu je možné vytvářet na libovolné úrovni stromu souborů pracovního prostoru, což vám umožní uspořádat složky Git způsobem, který je pro váš projekt nejvhodnější. Můžete například vytvořit složky Gitu na adrese
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
. Úložiště lze vytvořit pouze na pevné úrovni adresáře, například na kořenovém adresáři uživatelské složky Repos, například/Workspace/Repos/<user email>/<Repo name>
.- Poznámka: Složky Gitu můžou obsahovat nebo sloučit s jinými prostředky, které úložiště dnes nepodporují. Do složek Gitu je možné přesunout nepodporované typy prostředků, jako jsou prostředky DBSQL a experimenty MLflow. Podpora serializace dalších prostředků bude přidána v průběhu času.
- Zjednodušené chování uživatelského rozhraní: Tato změna přináší běžnou interakci pracovního prostoru s Gitem přímo do pracovního prostoru Databricks a zkracuje dobu strávenou procházením mezi pracovním prostorem a složkami Git řízenými verzemi.
Co se změnilo, konkrétně?
- Složky Gitu je možné vytvořit mimo
/Repos
adresář. - Složky Git se vytvářejí výběrem nové>složky Git v pracovním prostoru Databricks. Tím se vytvoří nová složka Git v části
/Workspace/Users/<user-email>/
. - Složky Gitu je možné vytvářet v různých hloubkách stromu souborů pracovního prostoru, pokud jsou pod
/Workspace/Users/<user-email>
nimi . Můžete například vytvořit složky Gitu na adrese/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
. Můžete mít více složek Gitu v části/Workspace/Users/<user-email>
. - Ve složkách Gitu jsou povoleny nepodporované prostředky. Podpora serializace pro jiné typy prostředků bude přidána v průběhu času.
- Na rozdíl od úložišť nemůžete v Databricks vytvořit novou složku Git bez adresy URL vzdáleného úložiště.
Co se stane s mými aktuálními úložištěmi?
Pokud máte úložiště definovaná pro váš pracovní prostor Azure Databricks, neodejdou a tyto existující úložiště nemusíte migrovat do složek Gitu. Úložiště se místo toho integrovaly do uživatelského rozhraní pracovního prostoru Azure Databricks a nyní nejsou zobrazeny jako samostatná sada složek uspořádaných v rámci hlavní úrovně úložiště uzlu. Nyní je najdete v /Workspace
kořenové složce jako /Workspace/Repos
.
- Stávající
/Repos
odkazy budou i nadále fungovat. Cesty, které začínají buď/Repos
stejnou složkou, nebo/Workspace/Repos
odkazují na stejnou složku a deklarované cesty vjobs
dbutils.notebook.run
, a%run
odkazy mohou zůstat beze změny. - Ve výjimečných případech musíte v pracovním prostoru provést jednorázovou změnu, aby toto přesměrování fungovalo. Další podrobnosti o této úpravě naleznete v tématu Odkazy na objekty pracovního prostoru.
Databricks doporučuje, aby uživatelé vytvářeli nové složky Git místo úložišť, pokud se potřebují připojit ke správě zdrojového kódu Gitu z pracovního prostoru Databricks. Společné přidělení úložišť Git a dalších prostředků pracovních prostorů usnadňuje zjišťování složek Git a usnadňuje správu než úložiště.
Oprávnění ke složce Gitu mají stejné oprávnění ke složce pracovního prostoru jako jiné složky pracovního prostoru. Aby uživatelé mohli provádět většinu operací Gitu CAN_MANAGE
, musí mít oprávnění.
Který dbr mám použít ke spouštění kódu ve složkách Gitu?
Pro konzistentní spouštění kódu mezi složkami Gitu a staršími úložišti Repos doporučuje Databricks uživatelům spouštět kód pouze ve složkách Gitu s DBR 15 nebo novějšími.
Chování aktuálního pracovního adresáře (CWD)
Databricks Runtime (DBR) verze 14 nebo vyšší umožňuje používat relativní cesty a poskytuje stejné aktuální pracovní adresář (CWD) pro všechny poznámkové bloky, kde poznámkový blok spouštíte z aktuálního pracovního adresáře. Aktuální chování pracovního adresáře (CWD) může být nekonzistentní mezi poznámkovými bloky ve složce Git a složkou mimo Git pro starší verze databricks Runtime (DBR).
Chování sys.path v Pythonu
Databricks Runtime (DBR) verze 14.3 nebo vyšší poskytuje stejné sys.path
chování ve složkách Gitu jako ve starších úložištích. U starších verzí DBR se chování složek Git liší od starších úložišť, protože kořenový adresář úložiště se automaticky nepřidá do sys.path
složek Git. Pro Python sys.path
obsahuje seznam adresářů, které interpret hledá při importu modulů. Pokud nemůžete použít DBR 15 nebo vyšší, můžete jako alternativní řešení ručně připojit cestu ke sys.path
složce.
Příklady přidání adresářů do sys.path
relativních cest najdete v tématu Import modulů Pythonu a R.
Priorita knihovny Pythonu
Databricks Runtime (DBR) verze 14.3 nebo novější poskytuje stejnou prioritu knihovny Pythonu ve složkách Gitu jako ve starších úložištích.