Sdílet prostřednictvím


Instanční objekty pro CI/CD

Tento článek popisuje, jak používat instanční objekty pro CI/CD s Azure Databricks. Instanční objekt je identita vytvořená pro použití s automatizovanými nástroji a aplikacemi, včetně:

Jako osvědčený postup zabezpečení doporučuje Databricks používat instanční objekt a jeho token místo uživatele Azure Databricks nebo osobního přístupového tokenu Databricks pro uživatele pracovního prostoru, aby platforma CI/CD měla přístup k prostředkům Azure Databricks. Mezi výhody tohoto přístupu patří:

  • Pro instanční objekt můžete udělit a omezit přístup k prostředkům Azure Databricks nezávisle na uživateli. To vám například umožní zakázat, aby instanční objekt fungoval jako správce ve vašem pracovním prostoru Azure Databricks, zatímco ostatní konkrétní uživatelé ve vašem pracovním prostoru mohli dál fungovat jako správci.
  • Uživatelé můžou chránit přístupové tokeny před přístupem k platformám CI/CD.
  • Instanční objekt můžete dočasně zakázat nebo trvale odstranit, aniž by to mělo vliv na ostatní uživatele. To například umožňuje pozastavit nebo odebrat přístup z instančního objektu, který máte podezření, že se používá škodlivým způsobem.
  • Pokud uživatel opustí vaši organizaci, můžete ho odebrat, aniž by to mělo vliv na jakýkoli instanční objekt.

Pokud chcete platformě CI/CD udělit přístup k pracovnímu prostoru Azure Databricks, postupujte takto:

Vyberte jeden z následujících podporovaných mechanismů ověřování MS Entra s připojením služby:

Požadavky

  • Token OAuth služby Azure Databricks nebo token ID Microsoft Entra pro instanční objekt spravované službou Azure Databricks nebo instanční objekt spravované pomocí Microsoft Entra ID. Informace o vytvoření spravovaného instančního objektu Azure Databricks nebo spravovaného instančního objektu Microsoft Entra ID a jeho tokenu Azure Databricks OAuth nebo tokenu Microsoft Entra ID najdete v tématu Správa instančních objektů.
  • Účet s vaším poskytovatelem Gitu

Nastavení GitHub Actions

GitHub Actions musí mít přístup k vašemu pracovnímu prostoru Azure Databricks. Pokud chcete používat složky Git Azure Databricks, musí mít váš pracovní prostor také přístup k GitHubu.

Pokud chcete gitHub Actions povolit přístup k pracovnímu prostoru Azure Databricks, musíte zadat informace o instančním objektu spravovaném službou Azure Databricks nebo instančním objektu spravovaném Microsoft Entra ID do GitHub Actions. Může to zahrnovat informace, jako je ID aplikace (klienta), ID adresáře (tenanta) pro instanční objekt spravované službou Microsoft Entra ID, instanční objekt spravovaného v Azure Databricks nebo tajný klíč klienta spravovaného instančního objektu Microsoft Entra ID nebo access_token hodnotu spravovaného instančního objektu Azure Databricks v závislosti na požadavcích akce GitHubu. Další informace najdete v tématu Správa instančních objektů a dokumentace k akci GitHubu.

Pokud chcete také povolit přístup k GitHubu pracovnímu prostoru Azure Databricks při používání složek Git Databricks, musíte do svého pracovního prostoru přidat osobní přístupový token GitHubu pro uživatele počítače GitHubu.

Zadání informací o instančním objektu do GitHub Actions

Tato část popisuje, jak povolit GitHub Actions přístup k pracovnímu prostoru Azure Databricks.

Jako osvědčený postup zabezpečení doporučuje Databricks nezadávat informace o instančním objektu přímo do těla souboru GitHub Actions. Tyto informace byste měli poskytnout GitHub Actions pomocí šifrovaných tajných kódů GitHubu.

GitHub Actions, například ty, které Databricks uvádí v kontinuální integraci a doručování pomocí GitHub Actions, spoléhají na různé tajné kódy šifrované GitHubem, jako jsou:

  • DATABRICKS_HOST, což je hodnota https:// následovaná názvem vaší instance pracovního prostoru, například adb-1234567890123456.7.azuredatabricks.net.
  • AZURE_CREDENTIALS, což je dokument JSON, který představuje výstup spuštění Azure CLI pro získání informací o spravovaném instančním objektu Microsoft Entra ID. Další informace najdete v dokumentaci k akci GitHubu.
  • AZURE_SP_APPLICATION_ID, což je hodnota ID aplikace (klienta) spravovaného instančního objektu Microsoft Entra ID.
  • AZURE_SP_TENANT_ID, což je hodnota ID adresáře (tenanta) spravovaného instančního objektu Microsoft Entra ID.
  • AZURE_SP_CLIENT_SECRET, což je hodnota hodnoty tajného klíče klienta pro instanční objekt spravovaný id Microsoft Entra.

Další informace o tom, které tajné kódy gitHubu jsou vyžadovány pro akci GitHubu, najdete v tématu Správa instančních objektů a dokumentace pro danou akci GitHubu.

Pokud chcete do úložiště GitHub přidat tyto šifrované tajné kódy GitHubu, přečtěte si téma Vytváření šifrovaných tajných kódů pro úložiště v dokumentaci k GitHubu. Další přístupy k přidání těchto tajných kódů úložiště GitHub najdete v dokumentaci k Šifrovaným tajným kódům na GitHubu.

Přidání osobního přístupového tokenu GitHubu pro uživatele počítače GitHubu do pracovního prostoru Azure Databricks

Tato část popisuje, jak povolit pracovnímu prostoru Azure Databricks přístup ke GitHubu pomocí složek Git Azure Databricks. Toto je volitelná úloha ve scénářích CI/CD.

Jako osvědčený postup zabezpečení doporučuje Databricks používat uživatele počítačů GitHub místo osobních účtů GitHubu, a to z mnoha stejných důvodů, proč byste měli místo uživatele Azure Databricks použít instanční objekt. Pokud chcete přidat osobní přístupový token GitHubu pro uživatele počítače GitHubu do pracovního prostoru Azure Databricks, postupujte takto:

  1. Pokud ještě nemáte k dispozici uživatele počítače GitHubu. Uživatel počítače GitHub je osobní účet GitHubu oddělený od vlastního osobního účtu GitHubu, který můžete použít k automatizaci aktivit na GitHubu. Vytvořte nový samostatný účet GitHubu, který se použije jako uživatel počítače GitHubu, pokud ho ještě nemáte k dispozici.

    Poznámka:

    Když vytvoříte nový samostatný účet GitHubu jako uživatel počítače GitHub, nemůžete ho přidružit k e-mailové adrese pro vlastní osobní účet GitHubu. Místo toho se podívejte na správce e-mailu vaší organizace o získání samostatné e-mailové adresy, kterou můžete přidružit k tomuto novému samostatnému účtu GitHubu jako uživatel počítače GitHub.

    Přečtěte si správce účtu vaší organizace o správě samostatné e-mailové adresy a přidruženého uživatele počítače GitHub a jeho osobních přístupových tokenů GitHubu ve vaší organizaci.

  2. Poskytněte uživateli počítače GitHub přístup k úložišti GitHub. Viz Pozvání týmu nebo osoby v dokumentaci k GitHubu. Pokud chcete pozvánku přijmout, možná se budete muset nejdřív odhlásit ze svého osobního účtu GitHubu a pak se znovu přihlásit jako uživatel počítače GitHub.

  3. Přihlaste se k GitHubu jako uživatel počítače a pak vytvořte osobní přístupový token GitHubu pro daného uživatele počítače. Viz Vytvoření osobního přístupového tokenu v dokumentaci k GitHubu. Nezapomeňte udělit přístup k úložišti tokenů pat GitHubu.

  4. Shromážděte token ID Microsoft Entra pro váš instanční objekt, uživatelské jméno počítače GitHub a pak přidejte přihlašovací údaje zprostředkovatele Git do pracovního prostoru Azure Databricks.

Nastavení Služby Azure Pipelines

Azure Pipelines musí mít přístup k vašemu pracovnímu prostoru Azure Databricks. Pokud chcete používat také složky Git Azure Databricks, musí mít váš pracovní prostor přístup ke službě Azure Pipelines.

Soubory kanálů YAML služby Azure Pipelines spoléhají na proměnné prostředí pro přístup k pracovnímu prostoru Azure Databricks. Mezi tyto proměnné prostředí patří například:

  • DATABRICKS_HOST, což je hodnota https:// následovaná názvem vaší instance pracovního prostoru, například adb-1234567890123456.7.azuredatabricks.net.
  • DATABRICKS_TOKEN, což je hodnota hodnoty token_value , kterou jste zkopírovali po vytvoření tokenu MICROSOFT Entra ID pro spravovaný instanční objekt Microsoft Entra ID.

Pokud chcete tyto proměnné prostředí přidat do kanálu Azure, přečtěte si téma Použití tajných kódů klíč-hodnota Azure v Azure Pipelines a nastavení tajných proměnných v dokumentaci k Azure.

Podívejte se také na následující blog Databricks:

Volitelné pro scénáře CI/CD: Pokud váš pracovní prostor používá složky Git Azure Databricks a chcete povolit, aby váš pracovní prostor mohl přistupovat ke službě Azure Pipelines, shromážděte:

  • Token ID Microsoft Entra pro váš instanční objekt
  • Vaše uživatelské jméno služby Azure Pipelines

Potom přidejte přihlašovací údaje zprostředkovatele Git do pracovního prostoru Azure Databricks.

Nastavení CI/CD GitLabu

Ci/CD GitLabu musí mít přístup k vašemu pracovnímu prostoru Azure Databricks. Pokud chcete používat také složky Git Azure Databricks, musí mít váš pracovní prostor přístup k CI/CD GitLabu.

Pokud chcete získat přístup k pracovnímu prostoru Azure Databricks, soubory CI/CD .gitlab-ci.yml GitLabu, jako je například ta, která je součástí základní šablony Pythonu, dbxzávisí na vlastních proměnných CI/CD, jako jsou:

  • DATABRICKS_HOST, což je hodnota https:// následovaná názvem vaší instance pracovního prostoru, například adb-1234567890123456.7.azuredatabricks.net.
  • DATABRICKS_TOKEN, což je hodnota hodnoty token_value , kterou jste zkopírovali po vytvoření tokenu ID Microsoft Entra pro instanční objekt.

Pokud chcete tyto vlastní proměnné přidat do projektu CI/CD GitLabu, přečtěte si téma Přidání proměnné CI/CD do projektu v dokumentaci k CI/CD GitLabu.

Pokud váš pracovní prostor používá složky Git Databricks a chcete povolit vašemu pracovnímu prostoru přístup k CI/CD GitLabu, shromážděte:

  • Token ID Microsoft Entra pro váš instanční objekt
  • Vaše uživatelské jméno CI/CD GitLabu

Pak přidejte přihlašovací údaje zprostředkovatele Git do pracovního prostoru Azure Databricks.

Přidání přihlašovacích údajů zprostředkovatele Git do pracovního prostoru Azure Databricks

Tato část popisuje, jak povolit pracovnímu prostoru Azure Databricks přístup k poskytovateli Gitu pro složky Git Azure Databricks. To je volitelné ve scénářích CI/CD. Můžete například chtít, aby váš poskytovatel Gitu přistupoval jenom k vašemu pracovnímu prostoru Azure Databricks, ale nechcete ve svém pracovním prostoru používat složky Git Azure Databricks s vaším poskytovatelem Git. Pokud ano, přeskočte tuto část.

Než začnete, shromážděte následující informace a nástroje:

  • Token ID Microsoft Entra pro váš instanční objekt.
  • Uživatelské jméno přidružené k vašemu poskytovateli Gitu.
  • Přístupový token přidružený k uživateli pro vašeho poskytovatele Gitu.

Poznámka:

Informace o službě Azure Pipelines najdete v tématu Použití tokenů pat na webu Azure.

  • Databricks CLI verze 0.205 nebo novější Podívejte se, co je rozhraní příkazového řádku Databricks? Nemůžete použít uživatelské rozhraní Azure Databricks.
  • Konfigurační profil Azure Databricks v .databrickscfg souboru s poli profilu nastavenými správně pro související host reprezentaci adresy URL azure Databricks pro pracovní prostor, například https://adb-1234567890123456.7.azuredatabricks.neta token představující token ID Microsoft Entra pro váš instanční objekt. (Nepoužívejte osobní přístupový token Databricks pro uživatele pracovního prostoru.) Viz ověřování tokenů pat azure Databricks.

Pomocí rozhraní příkazového řádku Databricks spusťte následující příkaz:

databricks git-credentials create <git-provider-short-name> --git-username <git-provider-user-name> --personal-access-token <git-provider-access-token> -p <profile-name>
  • Použijte jednu z následujících možností:<git-provider-short-name>
    • Pro GitHub použijte GitHub.
    • Pro Azure Pipelines použijte AzureDevOpsServices.
    • Pro CI/CD GitLabu použijte GitLab.
  • Nahraďte <git-provider-user-name> uživatelské jméno přidružené k vašemu poskytovateli Gitu.
  • Nahraďte <git-provider-access-token> přístupovým tokenem přidruženým k uživateli pro vašeho poskytovatele Gitu.
  • Nahraďte <profile-name> názvem konfiguračního profilu Azure Databricks ve vašem .databrickscfg souboru.

Tip

Pokud chcete ověřit, že volání proběhlo úspěšně, můžete spustit jeden z následujících příkazů rozhraní příkazového řádku Databricks a zkontrolovat výstup:

databricks git-credentials list -p <profile-name>
databricks git-credentials get <credential-id> -p <profile-name>