Nastavení složek Git pro Databricks (Repozitáře)
Zjistěte, jak nastavit složky Gitu Databricks (dříve Repos) pro správu verzí. Po nastavení složek Git ve službě Databricks můžete provádět běžné operace Git, jako jsou klonování, checkout, commit, push, pull a správa větví, z uživatelského rozhraní Databricks. Při vývoji s využitím poznámkových bloků a souborů v Databricks také můžete zobrazit rozdíly ve změnách.
Konfigurace uživatelských nastavení
Složky Gitu Databricks používají token PAT (Personal Access Token) nebo ekvivalentní přihlašovací údaje k ověření u vašeho poskytovatele Gitu k provádění operací, jako jsou klonování, nabízení, vyžádání atd. Pokud chcete používat složky Git, musíte nejprve přidat uživatelské jméno zprostředkovatele Git PAT a Git do Databricks. Viz Konfigurovat přihlašovací údaje Git, & připojit vzdálené úložiště k Azure Databricks.
Veřejná vzdálená úložiště můžete klonovat bez přihlašovacích údajů Gitu (osobní přístupový token a uživatelské jméno). Pokud chcete upravit veřejné vzdálené úložiště nebo naklonovat nebo upravit privátní vzdálené úložiště, musíte mít uživatelské jméno poskytovatele Gitu a PAT s oprávněními pro zápis (nebo vyšší) pro vzdálené úložiště.
Složky Gitu jsou ve výchozím nastavení povolené. Další podrobnosti o povolení nebo zakázání podpory složek Git najdete v tématu Povolení nebo zakázání funkce složky Git Databricks.
Přidání nebo úprava přihlašovacích údajů Gitu v Databricks
Důležité
Složky Gitu Databricks podporují jenom jeden přihlašovací údaje Gitu pro jednotlivé uživatele a pracovní prostor.
Vyberte šipku dolů vedle názvu účtu v pravém horním rohu obrazovky a pak vyberte Nastavení.
Vyberte kartu Propojené účty.
Pokud přihlašovací údaje přidáváte poprvé, postupujte podle pokynů na obrazovce.
Pokud jste dříve zadali přihlašovací údaje, klikněte na Konfigurace>Upravit a přejděte k dalšímu kroku.
V rozevíracím seznamu zprostředkovatele Git vyberte název poskytovatele.
Zadejte svoje uživatelské jméno nebo e-mail Gitu.
Do pole Token přidejte osobní přístupový token (PAT) nebo jiné přihlašovací údaje od poskytovatele Gitu. Podrobnosti najdete v tématu Konfigurace přihlašovacích údajů Gitu & připojení vzdáleného úložiště k azure Databricks
Důležité
Databricks doporučuje nastavit datum vypršení platnosti pro všechny tokeny osobního přístupu.
Pokud pro Azure DevOps nezadáte token nebo heslo aplikace, integrace Git ve výchozím nastavení použije váš token Microsoft Entra ID. Pokud zadáte osobní přístupový token Azure DevOps, integrace Git ho místo toho použije. Viz Připojení k úložišti Azure DevOps pomocí tokenu.
Poznámka:
Po aktualizaci hesla Azure se znovu ověřte pomocí Azure Databricks, pokud potřebujete nové ověřování, aby fungovalo hned. Pokud se znovu neověříte, připojení Azure DevOps se nemusí ověřit až na 24 hodin.
Pokud má vaše organizace povolené jednotné přihlašování SAML na GitHubu, povolte váš osobní přístupový token pro jednotné přihlašování.
Do pole uživatelského jména zprostředkovatele Gitu zadejte svoje uživatelské jméno.
Klikněte na Uložit.
Token PAT Gitu a uživatelské jméno můžete také uložit do Azure Databricks pomocí rozhraní API Databricks Repos.
Pokud nemůžete naklonovat úložiště a používáte Azure DevOps s ověřováním Microsoft Entra ID, přečtěte si téma Problém se zásadami podmíněného přístupu (CAP) pro ID Microsoft Entra.
Síťové připojení mezi složkami Git Databricks a poskytovatelem Gitu
Složky Gitu potřebují síťové připojení k vašemu poskytovateli Gitu, aby fungovaly. Obvykle je to přes internet a funguje mimo krabici. Možná jste ale pro svého poskytovatele Gitu nastavili další omezení pro řízení přístupu. Můžete mít například zavedený seznam povolených IP adres nebo můžete hostovat vlastní místní server Git pomocí služeb, jako je GitHub Enterprise (GHE), Bitbucket Server (BBS) nebo Gitlab Self-managed. V závislosti na hostování a konfiguraci sítě nemusí být váš server Git přístupný přes internet.
Poznámka:
- Pokud je váš server Git přístupný z internetu, ale má zavedený seznam povolených IP adres, jako jsou seznamy povolených na GitHubu, musíte přidat IP adresy NAT řídicí roviny Azure Databricks do seznamu povolených IP adres serveru Git. Seznam IP adres NAT řídicí roviny podle regionu najdete v tématu Azure Databricks regiony. Použijte IP adresu pro oblast, ve které je váš pracovní prostor Azure Databricks.
- Pokud soukromě hostujete server Git, nahlédněte do Nastavení privátního připojení Gitu pro složky Git Azure Databricks nebo se obraťte na tým účtu Azure Databricks a požádejte ho o pokyny pro zapojení.
Funkce zabezpečení ve složkách Gitu
Složky Gitu Databricks mají mnoho funkcí zabezpečení. Následující části vás provedou nastavením a použitím:
- Použití šifrovaných přihlašovacích údajů Gitu
- Seznam povolených
- Řízení přístupu k pracovním prostorům
- Protokolování auditu
- Detekce tajných kódů
Přineste si vlastní klíč: Šifrování přihlašovacích údajů Gitu
Azure Key Vault můžete použít k šifrování tokenu PAT (Personal Access Token) Gitu nebo jiných přihlašovacích údajů Gitu. Použití klíče z šifrovací služby se označuje jako klíč spravovaný zákazníkem (CMK) nebo používání vlastního klíče (BYOK).
Další informace najdete v tématu Klíče spravované zákazníkem pro šifrování.
Omezení využití na adresy URL v seznamu povolených
Pokud k ověřování v Azure DevOps použijete ID Microsoft Entra, výchozí seznam povolených adres URL gitu omezuje na:
- dev.azure.com
- visualstudio.com
V případě AAD s vlastními aliasy CNAMES nebo aliasy adresy URL Gitu může správce pracovního prostoru nakonfigurovat vlastní seznam povolených položek, jak je uvedeno v následujících krocích. Pokud používáte vlastní seznam povolených, musí správce pracovního prostoru přidat tyto adresy URL, pokud s nimi chcete pracovat: dev.azure.com
a visualstudio.com
.
Správce pracovního prostoru může omezit, která vzdálená úložiště můžou uživatelé klonovat a potvrdit & nasdílení změn. To pomáhá zabránit exfiltraci vašeho kódu; Uživatelé například nemohou odeslat kód do libovolného úložiště, pokud jste zapnuli omezení seznamu povolených. Uživatelům můžete také zabránit v používání nelicencovaného kódu tím, že omezíte operaci klonování na seznam povolených úložišť.
Nastavení seznamu povolených položek:
Přejděte na stránku nastavení.
Klikněte na kartu správce pracovního prostoru (ve výchozím nastavení je otevřená).
V části Vývoj zvolte možnost ze seznamu povolených oprávnění seznamu povolených adres URL Gitu:
- Zakázáno (bez omezení): V seznamu povolených nejsou žádné kontroly.
- Omezit klonování, potvrzení & push do povolených úložišť Git: Operace klonování, potvrzení a push jsou povolené jenom pro adresy URL úložiště v seznamu povolených.
- Omezit pouze potvrzení & Push do povolených úložišť Git: Operace potvrzení a push jsou povolené jen pro URL úložišť v seznamu povolených. Operace klonování a přijetí změn nejsou omezeny.
Klikněte na tlačítko Upravit vedle seznamu povolených URL adres Gitu : Prázdný seznam a zadejte seznam předpon URL adres oddělených čárkami.
Klikněte na Uložit.
Poznámka:
- Seznam, který uložíte, přepíše existující sadu uložených předpon URL.
- Než se změny projeví, může to trvat až 15 minut.
Povolit přístup ke všem úložištím
Zakázání existujícího seznamu povolených položek a povolení přístupu ke všem úložištím:
- Přejděte na stránku nastavení.
- Klikněte na kartu správce pracovního prostoru.
- V části Vývoj v části seznam povolených oprávnění k adrese URL Gituvyberte Zakázat (bez omezení).
Řízení přístupu k úložišti ve vašem pracovním prostoru
Poznámka:
Řízení přístupu je dostupné jenom v plánu Premium.
Nastavte oprávnění pro úložiště pro řízení přístupu. Oprávnění pro úložiště platí pro veškerý obsah v daném úložišti. K souborům můžete přiřadit pět úrovní oprávnění: ŽÁDNÁ OPRÁVNĚNÍ, MŮŽE ČÍST, MŮŽE SPOUŠTĚT, MŮŽE UPRAVOVAT a SPRAVOVAT.
Další podrobnosti o oprávněních ke složce Git najdete v seznamech ACL složek Gitu.
(Volitelné) Nastavení proxy serveru pro podnikové servery Git
Pokud vaše společnost používá místní podnikovou službu Git, jako je GitHub Enterprise nebo Azure DevOps Server, můžete k připojení pracovních prostorů Databricks k úložišti, která slouží, použít proxy serveru Databricks.
Protokolování auditu
Pokud je protokolování auditu povolené, události auditu se protokolují při interakci se složkou Git. Například při vytváření, aktualizaci nebo odstranění složky Git se zaznamená událost auditu, když vypíšete všechny složky Git přidružené k pracovnímu prostoru a když synchronizujete změny mezi složkou Gitu a vzdáleným úložištěm Git.
Detekce tajných kódů
Složky Gitu kontrolují kód ID přístupových klíčů, které začínají předponou AKIA
, a před potvrzením uživatele upozorní.
Použití konfiguračního souboru úložiště
Nastavení pro každý poznámkový blok můžete přidat do úložiště v .databricks/commit_outputs
souboru, který vytvoříte ručně.
Zadejte poznámkový blok, který chcete zahrnout výstupy pomocí vzorů podobných vzorům gitignore.
Vzory konfiguračního souboru úložiště
Soubor obsahuje pozitivní a záporné vzory cesty k souboru. Vzory cest k souborům zahrnují příponu souboru poznámkového bloku, například .ipynb
.
- Pozitivní vzory umožňují zahrnutí výstupů pro odpovídající poznámkové bloky.
- Negativní vzory zakazují zahrnutí výstupů pro odpovídající poznámkové bloky.
Vzory se vyhodnocují v pořadí pro všechny poznámkové bloky. Neplatné cesty nebo cesty, které se nepřekládají na .ipynb
poznámkové bloky, se ignorují.
Pokud chcete zahrnout výstupy z cestyfolder/innerfolder/notebook.ipynb
poznámkového bloku, použijte následující vzory:
**/*
folder/**
folder/innerfolder/note*
Pokud chcete vyloučit výstupy poznámkového bloku, zkontrolujte, jestli se žádný z pozitivních vzorů neshoduje nebo nepřidá negativní vzor ve správném místě konfiguračního souboru. Negativní vzory (vyloučení) začínají na !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Přesunutí složky Git do koše (odstranění)
Odstranění složky Git z pracovního prostoru:
Klikněte pravým tlačítkem na složku Git a vyberte Přesunout do koše.
V dialogovém okně zadejte název složky Git, kterou chcete odstranit. Potom klikněte na Potvrdit a přesunout do koše.