Wat is CI/CD in Azure Databricks?
Dit artikel is een inleiding tot CI/CD op Databricks. Continue integratie en continue levering (CI/CD) verwijst naar het proces van het ontwikkelen en leveren van software in korte, frequente cycli door het gebruik van automatiseringspijplijnen. CI/CD is gebruikelijk voor softwareontwikkeling en wordt steeds meer nodig voor data engineering en data science. Door het bouwen, testen en implementeren van code te automatiseren, kunnen ontwikkelteams betrouwbaarder releases leveren dan met de handmatige processen die nog steeds gebruikelijk zijn voor data engineering- en data science-teams.
Azure Databricks raadt aan om Databricks Asset Bundles te gebruiken voor CI/CD, waarmee complexe gegevens, analyses en ML-projecten kunnen worden ontwikkeld en geïmplementeerd voor het Azure Databricks-platform. Met bundels kunt u eenvoudig veel aangepaste configuraties beheren en builds, tests en implementaties van uw projecten automatiseren in Azure Databricks-ontwikkel-, faserings- en productiewerkruimten.
Zie Hoe biedt Databricks ondersteuning voor CI/CD voor machine learning-projecten in Azure Databricks voor machine learning.
Wat is er in een CI/CD-pijplijn in Azure Databricks?
U kunt Databricks Asset Bundles gebruiken om uw CI/CD-implementatie van Azure Databricks te definiëren en programmatisch te beheren. Dit omvat meestal:
- Notebooks: Azure Databricks-notebooks vormen vaak een belangrijk onderdeel van data engineering- en data science-werkstromen. U kunt versiebeheer gebruiken voor notebooks en deze ook valideren en testen als onderdeel van een CI/CD-pijplijn. U kunt geautomatiseerde tests uitvoeren op notebooks om te controleren of ze werken zoals verwacht.
- Bibliotheken: beheer de bibliotheekafhankelijkheden die nodig zijn om de geïmplementeerde code uit te voeren. Gebruik versiebeheer voor bibliotheken en neem deze op in geautomatiseerde tests en validatie.
- Werkstromen: Databricks-taken bestaan uit taken waarmee u geautomatiseerde taken kunt plannen en uitvoeren met behulp van notebooks of Spark-taken.
- Gegevenspijplijnen: U kunt ook gegevenspijplijnen opnemen in CI/CD-automatisering, met behulp van Delta Live Tables, het framework in Databricks voor het declareren van gegevenspijplijnen.
- Infrastructuurconfiguratie omvat definities en inrichtingsgegevens voor clusters, werkruimten en opslag voor doelomgevingen. Infrastructuurwijzigingen kunnen worden gevalideerd en getest als onderdeel van een CI/CD-pijplijn, zodat ze consistent en foutloos zijn.
Stappen voor CI/CD in Azure Databricks
Een typische stroom voor een Azure Databricks CI/CD-pijplijn omvat de volgende stappen:
- Store: Sla uw Azure Databricks-code en -notebooks op in een versiebeheersysteem zoals Git. Zo kunt u wijzigingen in de loop van de tijd bijhouden en samenwerken met andere teamleden. Zie CI/CD-technieken met Git- en Databricks Git-mappen (opslagplaatsen) en bundel Git-instellingen.
- Code: Code- en eenheidstests ontwikkelen in een Azure Databricks-notebook in de werkruimte of lokaal met behulp van een externe IDE. Azure Databricks biedt een Visual Studio Code-extensie waarmee u eenvoudig wijzigingen in Azure Databricks-werkruimten kunt ontwikkelen en implementeren.
- Build: Gebruik instellingen voor Databricks Asset Bundles om automatisch bepaalde artefacten te bouwen tijdens implementaties. Zie artefacten. Daarnaast heeft Pylint uitgebreid met de Pylint-invoegtoepassing databricks Labs om coderingsstandaarden af te dwingen en fouten in uw Databricks-notebooks en toepassingscode te detecteren.
- Implementeren: Implementeer wijzigingen in de Azure Databricks-werkruimte met behulp van Databricks Asset Bundles in combinatie met hulpprogramma's zoals Azure DevOps, Jenkins of GitHub Actions. Zie de implementatiemodi voor Databricks Asset Bundle.
- Test: Ontwikkel en voer geautomatiseerde tests uit om uw codewijzigingen te valideren met behulp van hulpprogramma's zoals pytest. Als u uw integraties met werkruimte-API's wilt testen, kunt u met de Pytest-invoegtoepassing van Databricks Labs werkruimteobjecten maken en ze opschonen nadat de tests zijn voltooid.
- Uitvoeren: Gebruik de Databricks CLI in combinatie met Databricks Asset Bundles om uitvoeringen in uw Azure Databricks-werkruimten te automatiseren. Zie Een taak of pijplijn uitvoeren.
- Monitor: Bewaak de prestaties van uw code en werkstromen in Azure Databricks met behulp van hulpprogramma's zoals Azure Monitor of Datadog. Dit helpt u bij het identificeren en oplossen van eventuele problemen die zich voordoen in uw productieomgeving.
- Herhalen: Maak kleine, frequente iteraties om uw data engineering- of data science-project te verbeteren en bij te werken. Kleine wijzigingen zijn gemakkelijker terug te draaien dan grote wijzigingen.
Verwante koppelingen
Zie de volgende documentatie over CI/CD en hulpprogramma's voor gegevenspijplijnen voor meer informatie over het beheren van de levenscyclus van Azure Databricks-assets en -gegevens.
Gebied | Gebruik deze hulpprogramma's als u wilt... |
---|---|
Databricks Asset Bundles | Programmatisch Azure Databricks-taken, Delta Live Tables-pijplijnen en MLOps-stacks definiëren, implementeren en uitvoeren met behulp van aanbevolen procedures en werkstromen voor CI/CD. |
Databricks Terraform-provider | De Databricks-infrastructuur en -resources inrichten en beheren met behulp van Terraform. |
CI/CD-werkstromen met Git- en Databricks Git-mappen | Gebruik GitHub- en Databricks Git-mappen voor broncodebeheer en CI/CD-werkstromen. |
Verifiëren met Azure DevOps in Databricks | Verifiëren met Azure DevOps. |
Een Microsoft Entra-service-principal gebruiken om toegang tot Azure Databricks Git-mappen te verifiëren | Gebruik een MS Entra-service-principal om toegang tot Databricks Git-mappen te verifiëren. |
Continue integratie en levering op Azure Databricks met behulp van Azure DevOps | Ontwikkel een CI/CD-pijplijn voor Azure Databricks die gebruikmaakt van Azure DevOps. |
Continue integratie en levering met behulp van GitHub Actions | Ontwikkel een CI/CD-werkstroom op GitHub die gebruikmaakt van GitHub Actions die zijn ontwikkeld voor Azure Databricks. |
CI/CD met Jenkins in Azure Databricks | Ontwikkel een CI/CD-pijplijn voor Azure Databricks die gebruikmaakt van Jenkins. |
Azure Databricks-taken organiseren met Apache Airflow | Een gegevenspijplijn beheren en plannen die gebruikmaakt van Apache Airflow. |
Service-principals voor CI/CD | Gebruik service-principals in plaats van gebruikers met CI/CD-systemen. |