Nastavení privátního připojení Gitu pro složky Git Azure Databricks (Repos)
Zjistěte více a nakonfigurujte proxy server Git pro složky Git v pracovním prostoru Databricks. Tato konfigurovatelná služba umožňuje směrovat Git příkazy ze složek Git pracovního prostoru Databricks do vašich lokálních Git úložišť, které jsou obsluhovány servery GitHub Enterprise Server, Azure DevOps Server, Bitbucket Server a GitLab ve vlastním spravování.
Poznámka:
Uživatelé s proxy serverem Git Databricks nakonfigurovaným během verze Preview by měli upgradovat svá oprávnění ke clusteru, aby byl co nejlepší výkon. Viz Odebrání globálních oprávnění CAN_ATTACH_TO.
Proxy serveru Git Databricks je speciálně navržené tak, aby fungovalo s verzí Databricks Runtime, která je součástí konfiguračního poznámkového bloku. Uživatelům se nedoporučuje aktualizovat verzi Databricks Runtime proxy clusteru.
Co je proxy serveru Git pro složky Databricks Git?
Proxy serveru Git Databricks pro složky Git je funkce, která umožňuje proxy příkazy Gitu z pracovního prostoru Azure Databricks na místní server Git.
Databricks složky Git (dříve Repos) představují vaše připojená úložiště Git ve formě složek. Obsah těchtosch Složky Gitu se ve výchozím nastavení můžou synchronizovat jenom s veřejnými poskytovateli Gitu (jako je veřejný GitHub, GitLab, Azure DevOps a další). Pokud ale hostujete vlastní místní server Git (jako je GitHub Enterprise Server, Bitbucket Server nebo samoobslužná správa GitLabu), musíte použít proxy serveru Git se složkami Git, aby databricks měl přístup k vašemu serveru Git. Váš server Git musí být přístupný z roviny dat Azure Databricks (uzel ovladače).
Pokud je vaše podniková síť jenom privátní přístup (bez veřejného přístupu), musíte spustit proxy serveru Git, abyste měli přístup k úložištím Git, která jsou mimo ni, a přidat složky Git do vašich pracovních prostorů.
Jak funguje proxy serveru Git pro složky Databricks Git?
Proxy server Gitu pro Git složky Databricks z řídicí roviny Databricks směruje Git příkazy do proxy clusteru , který běží ve výpočetní rovině vašeho pracovního prostoru Databricks. V tomto kontextu je proxy cluster nakonfigurovaný tak, aby spustil službu proxy pro příkazy Gitu ze složek Databricks Git do místního úložiště Git. Tato proxy služba přijímá příkazy Gitu z řídicí roviny Databricks a předává je do vaší instance serveru Git.
Následující diagram znázorňuje celkovou systémovou architekturu:
Důležité
Databricks poskytuje poznámkový blok pro povolení, který můžete spustit a nakonfigurovat instanci serveru Git na příkazy proxy pro složky Git Databricks. Získat poznámkový blok pro povolení na GitHubu.
Proxy serveru Git už v současné době nevyžaduje CAN_ATTACH_TO
oprávnění pro všechny uživatele. Správci s existujícími proxy clustery teď můžou upravit oprávnění seznamu ACL clusteru, aby tuto funkci povolili. Povolíte ji takto:
Na bočním panelu vyberte Výpočetní a potom klikněte na nabídku nabídce Kebab vedle položky Compute pro proxy serveru Git, který používáte:
V dialogovém okně odeberte položku Může připojit k pro všichni uživatelé:
Jak nastavím proxy serveru Git pro složky Git Databricks?
Tato část popisuje, jak připravit instanci serveru Git pro proxy serveru Git pro složky Databricks Git, vytvořit proxy server a ověřit konfiguraci.
Než začnete
Před povolením proxy serveru se ujistěte, že:
- Váš pracovní prostor má povolenou funkci složek Git Databricks.
- Vaše instance serveru Git je přístupná z VPC výpočetní roviny pracovního prostoru Azure Databricks a má povolené tokeny HTTPS i osobní přístupové tokeny (PAT).
Poznámka:
Proxy serveru Git pro Databricks funguje ve všech oblastech podporovaných vaším VPC.
Krok 1: Příprava instance serveru Git
Důležité
Abyste mohli vytvořit výpočetní prostředek a dokončit tento úkol, musíte být správcem pracovního prostoru s přístupovými právy.
Konfigurace instance serveru Git:
Dejte uzlu ovladače proxy clusteru přístup k vašemu serveru Git.
Podnikový server Git může mít
allowlist
IP adresy, ze kterých je povolený přístup.- Přidružte statickou odchozí IP adresu pro provoz, který pochází z vašeho proxy clusteru. Můžete to provést pomocí služby Azure Firewall nebo výchozího zařízení.
- Přidejte IP adresu z předchozího kroku do seznamu povolených serverů Git.
Nastavte instanci gitového serveru tak, aby umožňovala přenos HTTPS.
- Informace o GitHubu Enterprise najdete v nápovědě k GitHubu Enterprise, kterou vzdálenou adresu URL mám použít .
- V případě Bitbucketu přejděte na stránku správy serveru Bitbucket a vyberte nastavení serveru. V části hostování SCM PROTOKOLU HTTP povolte zaškrtávací políčko s povoleným protokolem HTTP(S).
Krok 2: Spuštění poznámkového bloku povolení
Povolení proxy serveru:
Přihlaste se k pracovnímu prostoru Azure Databricks jako správce pracovního prostoru s přístupovými právy k vytvoření clusteru.
Naimportujte tento poznámkový blok, který zvolí nejmenší typ instance, který je k dispozici od poskytovatele cloudu pro spuštění proxy serveru Git:
Poznámkový blok: Povolení proxy serveru Git pro složky Git Databricks pro privátní připojení k serveru Git ve složkách Git
Kliknutím na Spustit všechny spusťte poznámkový blok, který provádí následující úlohy:
- Vytvoří výpočetní prostředek s jedním uzlem s názvem "Databricks Git Proxy", který se automaticky neukončí. Toto je služba proxy gitu, která bude zpracovávat a předávat příkazy Gitu z vašeho pracovního prostoru Azure Databricks na místní server Git.
- Povolí příznak funkce, který určuje, jestli se požadavky Gitu ve složkách Databricks Gitu přes výpočetní instanci přesxidují.
Osvědčeným postupem je vytvořit jednoduchou úlohu pro spuštění výpočetního prostředku proxy gitu. Může se jednat o jednoduchý poznámkový blok, který vytiskne nebo zapíše stav protokolu, například služba proxy Gitu je spuštěná. Nastavte úlohu tak, aby běžela v pravidelných časových intervalech, aby se zajistilo, že je služba proxy gitu vždy dostupná pro vaše uživatele.
Poznámka:
Spuštění dalšího dlouhotrvajícího výpočetního prostředku pro hostování proxy softwaru způsobuje další jednotky DBU. Aby se minimalizovaly náklady, poznámkový blok nakonfiguruje proxy server tak, aby používal výpočetní prostředek s jedním uzlem s levným typem uzlu. Možná ale budete chtít upravit možnosti výpočetních prostředků tak, aby vyhovovaly vašim potřebám. Další informace o cenách výpočetních instancí najdete v cenové kalkulačce Databricks.
Krok 3: Ověření konfigurace serveru Git
Pokud chcete ověřit konfiguraci serveru Git, zkuste klonovat úložiště hostované na privátním serveru Git prostřednictvím proxy clusteru. Úspěšný klon znamená, že jste pro svůj pracovní prostor úspěšně povolili proxy serveru Git.
Krok 4: Vytvoření úložišť Git s podporou proxy serveru
Po konfiguraci přihlašovacích údajů Gitu se k vytvoření nebo synchronizaci úložišť nevyžadují žádné další kroky. Informace o konfiguraci přihlašovacích údajů a přístupu k úložištím pro složky Gitu prostřednictvím kódu programu najdete v tématu Konfigurace přihlašovacích údajů Gitu & připojení vzdáleného úložiště k Azure Databricks.
Odstranit globální oprávnění CAN_ATTACH_TO
Správci s existujícími proxy clustery teď můžou upravit oprávnění seznamu ACL clusteru tak, aby využívali obecně dostupné chování proxy serveru Git.
Pokud jste dříve nakonfigurovali proxy serveru Git Databricks s oprávněními CAN_ATTACH_TO
, pomocí následujícího postupu odeberte tato oprávnění:
Na bočním panelu vyberte Compute a potom klikněte na nabídku nabídku Kebab vedle položky Compute pro proxy serveru Git, který používáte:
V dialogovém okně odeberte položku Může se připojit k pro všechny uživatele:
Řešení problému
Došlo k chybě při konfiguraci proxy serveru Git pro složky Git Databricks? Tady jsou některé běžné problémy a způsoby, jak je efektivněji diagnostikovat.
Kontrolní seznam pro běžné problémy
Než začnete s diagnostikou chyby, ověřte, že jste dokončili následující kroky:
- Ověřte, že je váš proxy cluster spuštěný s tímto poznámkovým blokem ladění proxy serveru Git. (Jedná se o jiný poznámkový blok než poznámkový blok pro povolení proxy serveru Git a poskytuje ho také Databricks.)
- Potvrďte, že jste správcem pracovního prostoru.
- Spusťte zbývající poznámkový blok ladění a zaznamenejte výsledky, pokud jste to ještě neudělali. Pokud se vám problém nedaří ladit nebo se nezobrazují žádné chyby hlášené z poznámkového bloku ladění, může podpora Databricks zkontrolovat výsledky. V případě potřeby můžete poznámkový blok ladění exportovat a odeslat jako archiv DBC.
Změna konfigurace proxy serveru Git
Pokud vaše proxy služba Git nefunguje s výchozí konfigurací, můžete nastavit specifické proměnné prostředí, aby v ní provedly změny pro lepší podporu vaší síťové infrastruktury.
Pomocí následujících proměnných prostředí aktualizujte konfiguraci pro váš Git proxy server.
Proměnná prostředí | Formát | Popis |
---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true /false |
Tuto možnost nastavte na false , pokud pro privátní server Git používáte certifikát podepsaný svým držitelem. |
GIT_PROXY_CA_CERT_PATH |
Cesta k souboru (řetězec) | Nastavte ji na cestu k souboru certifikátu certifikační autority použitému k ověření SSL. Příklad: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Nastavte ji na adresu URL HTTPS pro proxy brány firewall vaší sítě pro provoz HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Číslo portu (celé číslo) | Nastavte ho na číslo portu přiřazeného portu HTTP serveru Git. |
Pokud chcete nastavit tyto proměnné prostředí, přejděte na kartu Compute v pracovním prostoru Azure Databricks a vyberte konfiguraci výpočetních prostředků pro vaši službu proxy Gitu. V dolní části podokna Konfigurace rozbalte Rozšířené možnosti a vyberte pod ním kartu Spark. Nastavte jednu nebo více těchto proměnných prostředí tak, že je přidáte do Proměnné prostředí textové oblasti.
Kontrola protokolů v clusteru proxy
Soubor /databricks/git-proxy/git-proxy.log
v clusteru proxy obsahuje protokoly, které jsou užitečné pro účely ladění.
Soubor protokolu by měl začínat řádkem Data-plane proxy server binding to ('', 8000)…
. Pokud ne, znamená to, že se proxy server nespustí správně. Zkuste restartovat cluster nebo odstranit cluster, který jste vytvořili, a znovu spusťte poznámkový blok pro povolení.
Pokud soubor protokolu začíná tímto řádkem, projděte si příkazy protokolu, které ho následují pro jednotlivé požadavky Gitu iniciované operací Gitu ve složkách Databricks Git.
Příklad:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Protokoly chyb zapsané do tohoto souboru můžou být užitečné, pokud chcete pomoct s laděním problémů s podporou Databricks.
Běžné chybové zprávy a jejich řešení
Zabezpečené připojení nebylo možné navázat kvůli problémům s protokolem SSL.
Může se zobrazit následující chyba:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SLL problems
Často to znamená, že používáte úložiště, které vyžaduje speciální certifikáty SSL. Zkontrolujte obsah
/databricks/git-proxy/git-proxy.log
souboru v clusteru proxy. Pokud se zobrazí zpráva, že ověření certifikátu selhalo, musíte přidat certifikát autority do systémového řetězu certifikátů. Nejprve extrahujte kořenový certifikát (pomocí prohlížeče nebo jiné možnosti) a nahrajte ho do DBFS. Potom upravte cluster Git složek Git Proxy tak, aby používal proměnnouGIT_PROXY_CA_CERT_PATH
prostředí tak, aby odkazovat na soubor kořenového certifikátu. Další informace o úpravách proměnných prostředí clusteru najdete v tématu Proměnné prostředí.Po dokončení kroku restartujte cluster.
Selhání klonování úložiště s chybou Chybějící nebo Neplatné přihlašovací údaje Gitu
Nejprve zkontrolujte, že jste nakonfigurovali přihlašovací údaje Gitu v uživatelském nastavení.
K této chybě může dojít:
Error: Invalid Git credentials. Go to User Settings -> Git Integration and check that your personal access token or app password has the correct repository access.
Pokud vaše organizace používá jednotné přihlašování SAML, ujistěte se, že je token autorizovaný (můžete to udělat ze stránky pro správu tokenů PAT (Personal Access Token) na serveru Git.
Nejčastější dotazy
Jaký je nejjednodušší způsob, jak zjistit, jestli je spuštěný proxy server Gitu?
Importujte poznámkový blok ladění proxy Gitu , který poskytuje Databricks. Stáhněte si ho do místního počítače a pak ho naimportujte do pracovního prostoru Azure Databricks.
Spuštění poznámkového bloku oznámí, jestli došlo k chybám nebo problémům se službou proxy gitu.
Jaké jsou důsledky zabezpečení proxy serveru Git?
Nejdůležitější věci, které je potřeba vědět, jsou:
- Proxy server nemá vliv na architekturu zabezpečení řídicí roviny Databricks.
- V každém pracovním prostoru můžete mít jenom jeden cluster proxy serveru Git.
Je veškerý provoz Git související se složkami Git Databricks směrován přes proxy cluster, dokonce i pro veřejná úložiště Git?
Ano. V aktuální verzi váš pracovní prostor Azure Databricks nerozlišuje mezi proxy a nepřexiovanými úložišti.
Funguje funkce proxy serveru Git s jinými poskytovateli serveru Git Enterprise?
Složky Git Databricks podporují GitHub Enterprise, Bitbucket Server, Azure DevOps Server a GitLab, které se spravují samostatně. Ostatní podnikoví poskytovatelé serverů Git by měli fungovat i v případě, že vyhovují běžným specifikacím Gitu.
Podporují složky Gitu Databricks podepisování potvrzení GPG?
Ne.
Podporují složky Gitu databricks přenos SSH pro operace Gitu?
Ne. Podporuje se jenom HTTPS.
Podporuje se použití jiného než výchozího portu HTTPS na serveru Git?
V současné době poznámkový blok povolení předpokládá, že váš server Git používá výchozí port HTTPS 443. Proměnnou prostředí můžete nastavit GIT_PROXY_CUSTOM_HTTP_PORT
tak, aby přepsala hodnotu portu upřednostňovanou hodnotou.
Můžete sdílet jeden proxy server pro více pracovních prostorů nebo potřebujete jeden proxy cluster na jeden pracovní prostor?
Potřebujete jeden proxy cluster na pracovní prostor Azure Databricks.
Funguje proxy server se starší verzí jednoho poznámkového bloku?
Ne, proxy server nefunguje se starší verzí jednoho poznámkového bloku. Uživatelé musí migrovat do správy verzí složek Git Databricks.
Může Databricks skrýt adresy URL serveru Git, které jsou proxiedované? Můžou uživatelé místo přesxiovaných adres URL serveru Git zadat původní adresy URL serveru Git?
Ano na obě otázky. Uživatelé nemusí upravovat chování proxy serveru. Při aktuální implementaci proxy serveru se veškerý provoz Gitu pro složky Databricks Git směruje přes proxy server. Uživatelé zadají normální adresu URL úložiště Git, například https://git.company.com/org/repo-name.git
.
Jak často budou uživatelé pracovat s adresami URL Gitu?
Uživatel obvykle přidá adresu URL Gitu, když vytvoří nové úložiště, nebo si rezervuje existující úložiště, které ještě nemá rezervované.
Je tato funkce transparentně proxy ověřovacími daty na serveru Git?
Ano, proxy server používá token serveru Git uživatelského účtu k ověření na serveru Git.
Je přístup Databricks k kódu serveru Git?
Proxy služba Azure Databricks přistupuje k úložišti Git na serveru Git pomocí přihlašovacích údajů zadaných uživatelem a synchronizuje všechny soubory kódu v úložišti se složkou Git. Přístup je omezený oprávněními uvedenými v tokenu PAT poskytnutém uživatelem.