Set upp Databricks Git-mappar (Repos)
Lär dig hur du set upp Databricks Git-mappar (tidigare Repos) för versionskontroll. När du set upp Git-mappar i dina Databricks kan du utföra vanliga Git-åtgärder som kloning, utcheckning, incheckning, push-överföring, pull- och grenhantering på dem från Databricks-användargränssnittet. Du kan också se skillnader för dina ändringar när du utvecklar med notebook-filer och filer i Databricks.
Konfigurera användarinställningar
Databricks Git-mappar använder en personlig åtkomsttoken (PAT) eller motsvarande autentiseringsuppgifter för att autentisera med git-providern för att utföra åtgärder som kloning, push-överföring, pull osv. Om du vill använda Git-mappar måste du först lägga till ditt användarnamn för Git PAT och Git-providern i Databricks. Se Konfigurera Git credentials & ansluta en fjärransluten lagringsplats till Azure Databricks.
Du kan klona offentliga fjärrlagringsplatser utan Git credentials (en personlig åtkomsttoken och ett användarnamn). Om du vill ändra en offentlig fjärrlagringsplats eller klona eller ändra en privat fjärrlagringsplats måste du ha ett användarnamn för Git-providern och PAT med skrivbehörighet (eller högre) för fjärrlagringsplatsen.
Git-mappar är aktiverade som standard. Mer information om hur du aktiverar eller inaktiverar Stöd för Git-mappar finns i Aktivera eller inaktivera Git-mappfunktionen i Databricks.
Lägga till eller redigera Git-credentials i Databricks
Viktigt!
Databricks Git-mappar stöder bara en Git-autentiseringsuppgift per användare och arbetsyta.
Select nedåtpilen bredvid kontonamnet längst upp till höger på skärmen och selectinställningar.
Select fliken Länkade konton.
Om du lägger till credentials för första gången följer du anvisningarna på skärmen.
Om du tidigare har angett credentialsklickar du på Config>Redigera och går till nästa steg.
I listrutan för Git-leverantör, select leverantörsnamnet.
Ange ditt Git-användarnamn eller e-postmeddelande.
I fältet Token lägger du till en personlig åtkomsttoken (PAT) eller andra credentials från Git-providern. Mer information finns i Konfigurera Git credentials & ansluta en fjärransluten lagringsplats till Azure Databricks
Viktigt!
Databricks rekommenderar att du set ett förfallodatum för alla personliga åtkomsttoken.
Om du inte anger ett token- eller applösenord för Azure DevOps använder Git-integreringen din Microsoft Entra-ID-token som standard. Om du anger en personlig åtkomsttoken för Azure DevOps använder Git-integreringen den i stället. Se Ansluta till en Azure DevOps-lagringsplats med hjälp av en token.
Kommentar
När du har update ditt Azure-lösenord kan du autentisera igen med Azure Databricks om du behöver den nya autentiseringen för att fungera direkt. Om du inte autentiserar igen kanske Azure DevOps-anslutningen inte verifieras på upp till 24 timmar.
Om din organisation har SAML SSO aktiverat i GitHub auktoriserar du din personliga åtkomsttoken för enkel inloggning.
Ange ditt användarnamn i fältet Git-providerns användarnamn .
Klicka på Spara.
Du kan också spara en Git PAT-token och ett användarnamn i Azure Databricks med hjälp av Databricks Repos-API:et.
Om du inte kan klona lagringsplatsen och du använder Azure DevOps med Microsoft Entra ID-autentisering läser du Problem med en princip för villkorlig åtkomst (CAP) för Microsoft Entra-ID.
Nätverksanslutning mellan Databricks Git-mappar och en Git-provider
Git-mappar behöver nätverksanslutning till git-providern för att fungera. Vanligtvis är detta över Internet och fungerar ur lådan. Du kan dock ha set ytterligare begränsningar för din Git-provider för att kontrollera åtkomsten. Du kan till exempel ha en IP-tillåtelse list på plats, eller så kan du ha en egen lokal Git-server med hjälp av tjänster som GitHub Enterprise (GHE), Bitbucket Server (BBS) eller GitLab självhanterad. Beroende på nätverksvärd och konfiguration kanske git-servern inte är tillgänglig via Internet.
Kommentar
- Om git-servern är internettillgänglig men har en LISTA över TILLÅTNA IP-adresser, till exempel GitHub-tillåtna listor, måste du lägga till NAT-IP-adresser för Azure Databricks-kontrollplanet i Git-serverns IP-tillåtna lista. Se Azure Databricks-regioner för en list kontrollplanets NAT IP-adresser per region. Använd IP-adressen för den region som din Azure Databricks-arbetsyta finns i.
- Om du sköter en privat Git-server, läs om privat Git-anslutning för Azure Databricks Git-mappar (Repos) Set eller kontakta ditt Azure Databricks-kontoteam för information om hur du får åtkomst.
Säkerhetsfunktioner i Git-mappar
Databricks Git-mappar har många säkerhetsfunktioner. Följande avsnitt beskriver hur de konfigureras och används:
- Användning av krypterade Git credentials
- En lista över tillåtna
- Åtkomstkontroll för arbetsyta
- Granskningsloggning
- Identifiering av hemligheter
Ta med din egen nyckel: Kryptera Git-credentials
Du kan använda Azure Key Vault för att kryptera en personlig Åtkomsttoken för Git (PAT) eller andra Git-autentiseringsuppgifter. Att använda en nyckel från en krypteringstjänst kallas för en kundhanterad nyckel (CMK) eller BYOK (Bring Your Own Key).
Mer information finns i Kundhanterade nycklar för kryptering.
Begränsa användningen till tillåtna URL:er list
Om du använder Microsoft Entra-ID för autentisering med Azure DevOps begränsar standardinställningen list Git-URL:er till:
- dev.azure.com
- visualstudio.com
För AAD med anpassade CNAMES- eller Git-URL-alias kan din arbetsyteadministratör konfigurera en anpassad tillåtelse list enligt följande steg. Om du använder en anpassad tillåtelselista listmåste arbetsyteadministratören lägga till dessa URL:er om du vill arbeta med dem: dev.azure.com
och visualstudio.com
.
En arbetsyteadministratör kan limit vilka fjärrlagringsplatser som användare kan klona från och checka in & push-överföring till. Detta hjälper till att förhindra exfiltrering av din kod; Användarna kan till exempel inte skicka kod till en godtycklig lagringsplats om du har aktiverat begränsningarna för tillåtna list. Du kan också förhindra användare från att använda olicensierad kod genom att begränsa kloningsåtgärden till en list tillåtna lagringsplatser.
För att set upp en tillåtelse list:
Klicka på fliken Administratör för arbetsyta (den är öppen som standard).
I avsnittet Development väljer du ett alternativ från Git-URL:en tillåter list behörighet:
- Inaktiverad (inga begränsningar): Det finns inga kontroller mot tillåtna list.
- Begränsa kloning, commit & Push till tillåtna Git-förråd: Klonings-, commit- och push-åtgärder tillåts endast för förråds-URL:er i tillåtna list.
- Begränsa endast incheckning & push-överföring till tillåtna Git-lagringsplatser: Inchecknings- och push-åtgärder tillåts endast för lagringsplats-URL:er i tillåtna list. Klon- och pull-åtgärder är inte begränsade.
Klicka på knappen Redigera bredvid Git-URL:en tillåter list: Tom list och ange ett kommaavgränsat list med URL-prefix.
Klicka på Spara.
Kommentar
- Det list du sparar skriver över befintliga set av sparade URL-prefix.
- Det kan ta upp till 15 minuter innan ändringarna börjar gälla.
Tillåt åtkomst till alla lagringsplatser
Så här inaktiverar du en befintlig 'allow list' och ger åtkomst till alla lagringsplatser:
- Gå till inställningssidan.
- Klicka på fliken Administratör för arbetsyta.
- I avsnittet Development under Git URL tillåt list behörighet: selectInaktivera (inga begränsningar).
Kontrollera åtkomsten för en lagringsplats på din arbetsyta
Set behörigheter för en lagringsplats för att styra åtkomsten. Behörigheter för en lagringsplats gäller för allt innehåll på lagringsplatsen. Du kan tilldela fem behörighetsnivåer till filer: INGA BEHÖRIGHETER, KAN LÄSA, KAN KÖRA, KAN REDIGERA och KAN HANTERA.
Mer information om Behörigheter för Git-mappar finns i ACL:er för Git-mappar.
(Valfritt) Set upp en proxy för företagets Git-servrar
Om ditt företag använder en lokal Git-tjänst för företag, till exempel GitHub Enterprise eller Azure DevOps Server, kan du använda Databricks Git Server Proxy för att ansluta dina Databricks-arbetsytor till de lagringsplatser som det betjänar.
Granskningsloggning
När granskningsloggning är aktiverat loggas granskningshändelser när du interagerar med en Git-mapp. En granskningshändelse loggas till exempel när du skapar, updateeller tar bort en Git-mapp, när du list alla Git-mappar som är associerade med en arbetsyta och när du sync ändringar mellan din Git-mapp och git-lagringsplatsen.
Identifiering av hemligheter
Git-mappar söker igenom kod för åtkomstnyckel-ID:t som börjar med prefixet AKIA
och varnar användaren innan de checkar in.
Använda en konfigurationsfil för lagringsplats
Du kan lägga till inställningar för varje notebook-fil på lagringsplatsen i en .databricks/commit_outputs
fil som du skapar manuellt.
Ange den notebook-fil som du vill inkludera utdata med mönster som liknar gitignore-mönster.
Mönster för en lagringsplatskonfigurationsfil
Filen innehåller mönster för positiv och negativ filsökväg. Filsökvägsmönster omfattar filnamnstillägg för notebook-filer som .ipynb
.
- Positiva mönster möjliggör inkludering av utdata för matchande notebook-filer.
- Negativa mönster inaktiverar inkludering av utdata för matchande notebook-filer.
Mönster utvärderas i ordning för alla notebook-filer. Ogiltiga sökvägar eller sökvägar som .ipynb
inte matchar notebook-filer ignoreras.
Om du vill inkludera utdata från en notebook-sökvägfolder/innerfolder/notebook.ipynb
använder du följande mönster:
**/*
folder/**
folder/innerfolder/note*
Om du vill exkludera utdata för en notebook-fil kontrollerar du att inget av de positiva mönstren matchar eller lägger till ett negativt mönster på rätt plats i konfigurationsfilen. Negativa (exkludera) mönster börjar med !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Flytta Git-mappen till papperskorgen (ta bort)
Så här tar du bort en Git-mapp från din arbetsyta:
Högerklicka på Git-mappen och selectsedan Flytta till papperskorgen.
I dialogrutan skriver du namnet på den Git-mapp som du vill ta bort. Klicka sedan på Bekräfta och flytta till papperskorgen.