Bewerken

Delen via


Een moderne analysearchitectuur maken met behulp van Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Oplossingsideeën

In dit artikel wordt een oplossingsidee beschreven. Uw cloudarchitect kan deze richtlijnen gebruiken om de belangrijkste onderdelen te visualiseren voor een typische implementatie van deze architectuur. Gebruik dit artikel als uitgangspunt om een goed ontworpen oplossing te ontwerpen die overeenkomt met de specifieke vereisten van uw workload.

Deze oplossing bevat een overzicht van de belangrijkste principes en onderdelen van moderne gegevensarchitecturen. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services, zoals Azure Data Lake Storage, Microsoft Fabric en Power BI.

Apache en Apache® Spark™ zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Architectuur

architectuurdiagram dat laat zien hoe een moderne gegevensarchitectuur gegevens verzamelt, verwerkt, analyseert en visualiseert.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Azure Databricks neemt onbewerkte streaminggegevens van Azure Event Hubs op met behulp van Delta Live Tables.

  2. Fabric Data Factory laadt onbewerkte batchgegevens in Data Lake Storage.

  3. Voor gegevensopslag:

    • Data Lake Storage bevat alle typen gegevens, waaronder gestructureerde, ongestructureerde en gedeeltelijk gestructureerde gegevens. Ook worden batch- en streaminggegevens opgeslagen.

    • Delta Lake vormt de gecureerde laag van de data lake. De verfijnde gegevens worden opgeslagen in een opensource-indeling.

    • Azure Databricks werkt goed met een medalsight-architectuur die gegevens in lagen ordent:

      • Bronslaag: bevat onbewerkte gegevens.
      • Zilveren laag: Bevat opgeschoonde, gefilterde gegevens.
      • Gouden laag: slaat geaggregeerde gegevens op die nuttig zijn voor zakelijke analyses.
  4. Het analytische platform neemt gegevens op uit de verschillende batch- en streamingbronnen. Gegevenswetenschappers gebruiken deze gegevens voor taken zoals:

    • Gegevensvoorbereiding.
    • Gegevensverkenning.
    • Modelvoorbereiding.
    • Modeltraining.

    MLflow beheert parameters, metrische gegevens en modeltracking in uitvoeringen van data science-code. De coderingsmogelijkheden zijn flexibel:

    • Code kan zich in SQL, Python, R en Scala bevindt.
    • Code kan gebruikmaken van populaire opensource-bibliotheken en -frameworks, zoals Koalas, Pandas en scikit-learn, die vooraf zijn geïnstalleerd en geoptimaliseerd.
    • Gebruikers kunnen optimaliseren voor prestaties en kosten met behulp van rekenopties met één knooppunt en meerdere knooppunten.
  5. Machine learning-modellen zijn beschikbaar in de volgende indelingen:

    • Azure Databricks slaat informatie op over modellen in het MLflow-modelregister. Het register maakt modellen beschikbaar via batch-, streaming- en REST-API's.
    • De oplossing kan ook modellen implementeren in Azure Machine Learning-webservices of Azure Kubernetes Service (AKS).
  6. Services die met de gegevens werken, maken verbinding met één onderliggende gegevensbron om consistentie te garanderen. U kunt bijvoorbeeld SQL-query's uitvoeren op de data lake met behulp van Azure Databricks SQL-warehouses. Met deze service kunt u:

    • Biedt een queryeditor en catalogus, de querygeschiedenis, basisdashboarding en waarschuwingen.
    • Maakt gebruik van geïntegreerde beveiliging met machtigingen op rijniveau en machtigingen op kolomniveau.
    • Maakt gebruik van een Door Photon aangedreven Delta Engine om de prestatieste verbeteren.
  7. U kunt gouden gegevenssets spiegelen uit Azure Databricks Unity Catalog in Fabric. Gebruik Azure Databricks-spiegeling in Fabric om eenvoudig te integreren zonder dat u gegevens hoeft te verplaatsen of te repliceren.

  8. Power BI genereert analytische en historische rapporten en dashboards van het geïntegreerde gegevensplatform. Deze service gebruikt de volgende functies wanneer deze werkt met Azure Databricks:

    • Een ingebouwde Azure Databricks-connector voor het visualiseren van de onderliggende gegevens.
    • Geoptimaliseerde Java Database Connectivity- en Open Database Connectivity-stuurprogramma's.
    • U kunt Direct Lake gebruiken met Azure Databricks-spiegeling in Fabric om uw semantische Power BI-modellen te laden voor query's met betere prestaties.
  9. De oplossing maakt gebruik van Unity Catalog en Azure-services voor samenwerking, prestaties, betrouwbaarheid, governance en beveiliging:

    • Azure Databricks Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Azure Databricks-werkruimten.

    • Microsoft Purview biedt services voor gegevensdetectie, classificatie van gevoelige gegevens en governance-inzichten in de gegevensomgeving.

    • Azure DevOps biedt continue integratie en continue implementatie (CI/CD) en andere geïntegreerde functies voor versiebeheer.

    • Met Azure Key Vault kunt u geheimen, sleutels en certificaten veilig beheren.

    • Microsoft Entra ID en het inrichten van SCIM (System for Cross-domain Identity Management) bieden eenmalige aanmelding voor Azure Databricks-gebruikers en -groepen. Azure Databricks biedt ondersteuning voor geautomatiseerde inrichting van gebruikers met Microsoft Entra ID voor:

      • Nieuwe gebruikers en groepen maken.
      • Wijs elke gebruiker een toegangsniveau toe.
      • Gebruikers verwijderen en hen toegang weigeren.
    • Azure Monitor verzamelt en analyseert telemetriegegevens van Azure-resources. Door proactief problemen te identificeren, maximaliseert deze service de prestaties en betrouwbaarheid.

    • Microsoft Cost Management biedt financiële governanceservices voor Azure-workloads.

Onderdelen

Deze oplossing maakt gebruik van de volgende onderdelen.

Kernonderdelen

  • Azure Databricks- is een gegevensanalyseplatform dat Spark-clusters gebruikt om grote gegevensstromen te verwerken. Er worden ongestructureerde gegevens opgeschoond en getransformeerd en gecombineerd met gestructureerde gegevens. Het kan ook machine learning-modellen trainen en implementeren. In deze architectuur fungeert Azure Databricks als het centrale hulpprogramma voor gegevensopname, verwerking en bediening. Het biedt een uniforme omgeving voor het beheren van de volledige levenscyclus van gegevens.

  • Azure Databricks SQL Warehouses zijn rekenresources die u kunt gebruiken om gegevens op Azure Databricks op te vragen en te verkennen. In deze architectuur kunt u SQL-eindpunten gebruiken om rechtstreeks verbinding te maken met uw gegevens vanuit Power BI.

  • Azure Databricks Delta Live Tables is een declaratief framework voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking. In deze architectuur kunt u met Delta Live Tables transformaties definiëren die moeten worden uitgevoerd op uw gegevens. Het helpt u ook bij het beheren van taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling in Azure Databricks.

  • Microsoft Fabric is een end-to-end analyse- en gegevensplatform voor organisaties die een uniforme oplossing nodig hebben. Het platform biedt services zoals Data Engineering, Data Factory, Data Science, Real-Time Intelligence, Data Warehouse en Databases. Deze architectuur spiegelt Unity Catalog-tabellen in Fabric en maakt gebruik van Direct Lake in Power BI voor betere prestaties.

  • Data Factory in Microsoft Fabric is een modern platform voor gegevensintegratie dat u kunt gebruiken voor het opnemen, voorbereiden en transformeren van gegevens uit een uitgebreide set gegevensbronnen in Fabric. Deze architectuur maakt gebruik van ingebouwde connectors voor verschillende gegevensbronnen voor snelle opname in Data Lake Storage of OneLake. Azure Databricks haalt de batchgegevens later op en transformeert deze verder.

  • Event Hubs is een volledig beheerd big data-streamingplatform. Als een platform als een service biedt het mogelijkheden voor gebeurtenisopname. Deze architectuur maakt gebruik van Event Hubs voor het streamen van gegevens. Azure Databricks kan verbinding maken met deze gegevens en deze verwerken met behulp van Spark Streaming of Delta Live Tables.

  • Data Lake Storage is een schaalbare en veilige Data Lake voor analyses met hoge prestaties. Het verwerkt meerdere petabytes aan gegevens en ondersteunt honderden gigabits aan doorvoer. Data Lake Storage kan gestructureerde, gedeeltelijk gestructureerde en ongestructureerde gegevens opslaan. Deze architectuur maakt gebruik van Data Lake Storage om zowel batch- als streaminggegevens op te slaan.

  • Machine Learning is een cloudomgeving waarmee u predictive analytics-oplossingen kunt bouwen, implementeren en beheren. Met behulp van deze modellen kunt u gedrag, resultaten en trends voorspellen. In deze architectuur gebruikt Machine Learning gegevens die Azure Databricks transformeert voor het trainen en uitstellen van modellen.

  • AKS is een maximaal beschikbare, veilige en volledig beheerde Kubernetes-service. Met AKS kunt u eenvoudig containertoepassingen implementeren en beheren. In deze architectuur host AKS machine learning-modellen in een containeromgeving voor schaalbare deductie.

  • Delta Lake is een opslaglaag die gebruikmaakt van een geopende bestandsindeling. Deze laag wordt uitgevoerd op cloudopslagoplossingen zoals Data Lake Storage. Delta Lake ondersteunt gegevensversiebeheer, terugdraaien en transacties voor het bijwerken, verwijderen en samenvoegen van gegevens. In deze architectuur werkt Delta Lake als de primaire bestandsindeling voor het schrijven en lezen van gegevens uit Data Lake Storage.

  • MLflow- is een opensource-platform voor het beheren van de levenscyclus van machine learning. De onderdelen bewaken machine learning-modellen tijdens de training en bewerking. In deze architectuur, vergelijkbaar met Machine Learning, kunt u MLflow in Azure Databricks gebruiken om uw machine learning-levenscyclus te beheren. Modellen trainen en afleiden met behulp van de Unity Catalog-gegevens die u hebt getransformeerd in Azure Databricks.

Rapportage en beheer van onderdelen

  • Azure Databricks Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Azure Databricks-werkruimten. In deze architectuur werkt Unity Catalog als het primaire hulpprogramma in Azure Databricks voor het beheren en beveiligen van gegevenstoegang.

  • Power BI is een verzameling softwareservices en apps. Deze services maken en delen rapporten waarmee niet-gerelateerde gegevensbronnen worden verbonden en gevisualiseerd. Samen met Azure Databricks kan Power BI hoofdoorzaakbepaling en onbewerkte gegevensanalyse bieden. Deze architectuur maakt gebruik van Power BI om dashboards en rapporten te maken die inzicht bieden in de gegevens die door Azure Databricks en Fabric worden verwerkt.

  • Microsoft Purview beheert on-premises, multicloud- en SaaS-gegevens (Software as a Service). Deze governanceservice onderhoudt gegevenslandschapskaarten. De functies omvatten geautomatiseerde gegevensdetectie, classificatie van gevoelige gegevens en gegevensherkomst. Deze architectuur maakt gebruik van Microsoft Purview om gegevens te scannen en bij te houden die zijn opgenomen in Unity Catalog, Fabric, Power BI en Data Lake Storage.

  • Azure DevOps is een DevOps-indelingsplatform. Deze SaaS biedt hulpprogramma's en omgevingen voor het bouwen, implementeren en samenwerken aan toepassingen. Deze architectuur maakt gebruik van Azure DevOps om de implementatie van de Azure-infrastructuur te automatiseren. U kunt GitHub ook gebruiken voor automatisering en versiebeheer van Azure Databricks-code voor betere samenwerking, wijzigingen bijhouden en integratie met CI/CD-pijplijnen.

  • Key Vault de toegang tot geheimen, zoals tokens, wachtwoorden en API-sleutels, opslaat en beheert. Key Vault maakt en beheert ook versleutelingssleutels en beheert beveiligingscertificaten. Deze architectuur maakt gebruik van Key Vault voor het opslaan van handtekeningen voor gedeelde toegang vanuit Data Lake Storage. Deze sleutels worden vervolgens gebruikt in Azure Databricks en andere services voor verificatie.

  • Microsoft Entra ID biedt cloudservices voor identiteits- en toegangsbeheer. Deze functies bieden gebruikers een manier om zich aan te melden en toegang te krijgen tot resources. Deze architectuur maakt gebruik van Microsoft Entra-id om gebruikers en services in Azure te verifiëren en autoriseren.

  • SCIM- kunt u inrichten voor het Azure Databricks-account met behulp van Microsoft Entra-id. Deze architectuur maakt gebruik van SCIM voor het beheren van gebruikers die toegang hebben tot Azure Databricks-werkruimten.

  • Azure Monitor- verzamelt en analyseert gegevens in omgevingen en Azure-resources. Deze gegevens omvatten app-telemetrie, zoals metrische prestatiegegevens en activiteitenlogboeken. Deze architectuur maakt gebruik van Azure Monitor voor het bewaken van de status van rekenresources in Azure Databricks en Machine Learning en andere onderdelen die logboeken naar Azure Monitor verzenden.

  • Cost Management- helpt u bij het beheren van clouduitgaven. Door budgetten en aanbevelingen te gebruiken, organiseert deze service uitgaven en laat u zien hoe u de kosten kunt verlagen. Deze architectuur maakt gebruik van Cost Management om de kosten van de hele oplossing te bewaken en te beheren.

Scenariodetails

Moderne gegevensarchitecturen:

  • Gegevens, analyses en AI-workloads samenvoegen.
  • Efficiënt en betrouwbaar worden uitgevoerd op elke schaal.
  • Geef inzichten via analysedashboards, operationele rapporten of geavanceerde analyses.

Deze oplossing geeft een overzicht van een moderne gegevensarchitectuur die deze doelstellingen bereikt. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services. Samen bieden deze services een oplossing die:

  • Eenvoudig: Geïntegreerde analyses, gegevenswetenschap en machine learning vereenvoudigen de gegevensarchitectuur.
  • Open: De oplossing ondersteunt opensource-code, open standaarden en open frameworks. Het werkt ook met populaire geïntegreerde ontwikkelomgevingen (IDE's), bibliotheken en programmeertalen. Via systeemeigen connectors en API's werkt de oplossing ook met een breed scala aan andere services.
  • Samenwerking: Data engineers, data scientists en analisten werken samen met deze oplossing. Ze kunnen samenwerkende notebooks, IDE's, dashboards en andere hulpprogramma's gebruiken om algemene onderliggende gegevens te openen en te analyseren.

Potentiële gebruikscases

Het systeem dat Swiss Re Group heeft gebouwd voor zijn Property & Casualty Herverzekeringsafdeling inspireerde deze oplossing. Naast de verzekeringssector kan elk gebied dat werkt met big data of machine learning ook profiteren van deze oplossing. Voorbeelden zijn:

  • De energiesector.
  • Detailhandel en e-commerce.
  • Bankwezen en financiën.
  • Geneeskunde en gezondheidszorg.

Volgende stappen

Zie de volgende handleidingen en architecturen voor meer informatie over gerelateerde oplossingen.