Oplossingsideeën
In dit artikel wordt een oplossingsidee beschreven. Uw cloudarchitect kan deze richtlijnen gebruiken om de belangrijkste onderdelen te visualiseren voor een typische implementatie van deze architectuur. Gebruik dit artikel als uitgangspunt om een goed ontworpen oplossing te ontwerpen die overeenkomt met de specifieke vereisten van uw workload.
Deze oplossing bevat een overzicht van de moderne gegevensarchitectuur. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services, zoals Azure Data Lake Storage Gen2, Microsoft Fabric en Power BI.
Apache en Apache® Spark™ zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
Azure Databricks neemt onbewerkte streaminggegevens van Azure Event Hubs op met behulp van Delta Live Tables.
Fabric Data Factory laadt onbewerkte batchgegevens in Data Lake Storage Gen2.
Voor gegevensopslag:
Data Lake Storage Gen2 bevat gegevens van alle typen, zoals gestructureerd, ongestructureerd en semi-gestructureerd. Ook worden batch- en streaminggegevens opgeslagen.
Delta Lake vormt de gecureerde laag van de data lake. De verfijnde gegevens worden opgeslagen in een opensource-indeling.
Azure Databricks werkt goed met een medalsight-architectuur die gegevens in lagen ordent:
- Brons: bevat onbewerkte gegevens.
- Zilver: Bevat opgeschoonde, gefilterde gegevens.
- Goud: slaat geaggregeerde gegevens op die nuttig zijn voor zakelijke analyses.
Het analytische platform neemt gegevens op uit de verschillende batch- en streamingbronnen. Gegevenswetenschappers gebruiken deze gegevens voor deze taken:
- Gegevensvoorbereiding.
- Gegevensverkenning.
- Modelvoorbereiding.
- Modeltraining.
MLflow beheert parameters, metrische gegevens en modeltracking in uitvoeringen van data science-code. De coderingsmogelijkheden zijn flexibel:
- Code kan zich in SQL, Python, R en Scala bevindt.
- Code kan gebruikmaken van populaire opensource-bibliotheken en -frameworks, zoals Koalas, Pandas en scikit-learn, die vooraf zijn geïnstalleerd en geoptimaliseerd.
- Beoefenaars kunnen optimaliseren voor prestaties en kosten met rekenopties met één knooppunt en meerdere knooppunten.
Machine learning-modellen zijn beschikbaar in verschillende indelingen:
- Azure Databricks slaat informatie op over modellen in het MLflow-modelregister. Het register maakt modellen beschikbaar via batch-, streaming- en REST-API's.
- De oplossing kan ook modellen implementeren in Azure Machine Learning-webservices of Azure Kubernetes Service (AKS).
Services die met de gegevens werken, maken verbinding met één onderliggende gegevensbron om consistentie te garanderen. Gebruikers kunnen bijvoorbeeld SQL-query's uitvoeren op de data lake met Azure Databricks SQL Warehouses. Met deze service kunt u:
- Biedt een queryeditor en catalogus, de querygeschiedenis, basisdashboarding en waarschuwingen.
- Maakt gebruik van geïntegreerde beveiliging met machtigingen op rij- en kolomniveau.
- Maakt gebruik van een Door Photon aangedreven Delta Engine om de prestaties te versnellen.
Gebruikers kunnen gouden gegevenssets spiegelen uit Databricks Unity Catalog in Fabric. Databricks-spiegeling in Fabric gebruikers eenvoudig kunnen integreren zonder gegevensverplaatsing of gegevensreplicatie.
Power BI genereert analytische en historische rapporten en dashboards van het geïntegreerde gegevensplatform. Deze service gebruikt deze functies bij het werken met Azure Databricks:
- Een ingebouwde Azure Databricks-connector voor het visualiseren van de onderliggende gegevens.
- Geoptimaliseerde stuurprogramma's voor Java Database Connectivity (JDBC) en ODBC (Open Database Connectivity).
- Met Databricks-spiegeling in Fabric kunt u gebruikmaken van Direct Lake- om uw PBI-semantische modellen te laden voor query's met betere prestaties.
De oplossing maakt gebruik van Unity Catalog en Azure-services voor samenwerking, prestaties, betrouwbaarheid, governance en beveiliging:
Databricks Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Azure Databricks-werkruimten.
Microsoft Purview biedt services voor gegevensdetectie, classificatie van gevoelige gegevens en governance-inzichten in de gegevensomgeving.
Azure DevOps biedt continue integratie en continue implementatie (CI/CD) en andere geïntegreerde functies voor versiebeheer.
Azure Key Vault beheert veilig geheimen, sleutels en certificaten.
Microsoft Entra ID en SCIM-inrichting bieden eenmalige aanmelding (SSO) voor Azure Databricks-gebruikers en -groepen. Azure Databricks biedt ondersteuning voor geautomatiseerde inrichting van gebruikers met Microsoft Entra ID voor deze taken:
- Nieuwe gebruikers en groepen maken.
- Elke gebruiker een toegangsniveau toewijzen.
- Gebruikers verwijderen en hen toegang weigeren.
Azure Monitor verzamelt en analyseert telemetriegegevens van Azure-resources. Door proactief problemen te identificeren, maximaliseert deze service de prestaties en betrouwbaarheid.
Microsoft Cost Management biedt financiële governanceservices voor Azure-workloads.
Onderdelen
De oplossing maakt gebruik van de volgende onderdelen.
Kernonderdelen
Azure Databricks- is een gegevensanalyseplatform dat Spark-clusters gebruikt om grote gegevensstromen te verwerken. Het schoont en transformeert ongestructureerde gegevens, combineert deze met gestructureerde gegevens en kan machine learning-modellen trainen en implementeren. In deze architectuur fungeert Databricks als het centrale hulpprogramma voor het opnemen, verwerken en leveren van gegevens, wat een uniforme omgeving biedt voor het beheren van de volledige levenscyclus van gegevens.
Azure Databricks SQL Warehouse zijn rekenresources waarmee u gegevens op Databricks kunt doorzoeken en verkennen. In deze architectuur kunt u GEBRUIKMAKEN van SQL-eindpunten om rechtstreeks vanuit Power BI verbinding te maken met uw gegevens.
Azure Databricks Delta Live Tables is een declaratief framework voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking. In deze architectuur helpt Delta Live Tables u bij het definiëren van transformaties die moeten worden uitgevoerd op uw gegevens en het beheren van taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling binnen Databricks.
Microsoft Fabric- is een end-to-end analyse- en gegevensplatform dat is ontworpen voor ondernemingen die een uniforme oplossing nodig hebben. Het platform biedt services zoals Data Engineering, Data Factory, Data Science, Real-Time Analytics, Data Warehouse en Databases. In deze architectuur spiegelen we Unity Catalog-tabellen in Fabric en gebruiken we Direct Lake in Power BI voor betere prestaties.
Data Factory in Microsoft Fabric biedt u een moderne ervaring voor gegevensintegratie voor het opnemen, voorbereiden en transformeren van gegevens uit een uitgebreide set gegevensbronnen in Fabric. In deze architectuur maken we gebruik van ingebouwde connectors voor verschillende gegevensbronnen voor snelle opname in ADLS of OneLake, waar Databricks de batchgegevens later ophaalt en verder transformeert.
Event Hubs is een volledig beheerd big data-streamingplatform. PaaS (Platform as a Service) biedt mogelijkheden voor gebeurtenisopname. In deze architectuur wordt Event Hubs gebruikt voor het streamen van gegevens, waarmee Databricks verbinding kan maken en verwerken met behulp van Spark Streaming of Delta Live Tables.
Data Lake Storage Gen2 is een schaalbare en veilige Data Lake voor krachtige analyses. Het verwerkt meerdere petabytes aan gegevens en ondersteunt honderden gigabits aan doorvoer. ADLS kan gestructureerde, semi-gestructureerde en ongestructureerde gegevens opslaan. In deze architectuur gebruiken we ADLS om zowel batch- als streaminggegevens op te slaan.
Machine Learning is een cloudomgeving waarmee u predictive analytics-oplossingen kunt bouwen, implementeren en beheren. Met deze modellen kunt u gedrag, resultaten en trends voorspellen. In deze architectuur kan AML gebruikmaken van gegevens die zijn getransformeerd door Databricks voor het trainen en uitstellen van modellen.
AKS is een maximaal beschikbare, veilige en volledig beheerde Kubernetes-service. Met AKS kunt u eenvoudig containertoepassingen implementeren en beheren. In deze architectuur wordt AKS gebruikt voor het hosten van machine learning-modellen in een containeromgeving voor schaalbare deductie.
Delta Lake is een opslaglaag die gebruikmaakt van een geopende bestandsindeling. Deze laag wordt uitgevoerd op cloudopslag, zoals Data Lake Storage Gen2. Delta Lake ondersteunt gegevensversiebeheer, terugdraaien en transacties voor het bijwerken, verwijderen en samenvoegen van gegevens. In deze architectuur werkt Delta als de primaire bestandsindeling voor het schrijven en lezen van gegevens uit ADLS.
MLflow- is een opensource-platform voor het beheren van de levenscyclus van machine learning. De onderdelen bewaken machine learning-modellen tijdens de training en uitvoering. In deze architectuur, vergelijkbaar met AML, kunt u MLflow in Databricks gebruiken om uw ML-levenscyclus te beheren, inclusief training en uitstel met behulp van de Unity Catalog-gegevens die u zojuist hebt getransformeerd in Databricks.
Rapportage en beheer van onderdelen
Databricks Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Azure Databricks-werkruimten. In deze architectuur werkt Unity Catalog als het primaire hulpprogramma binnen Databricks voor het beheren en beveiligen van gegevenstoegang.
Power BI is een verzameling softwareservices en apps. Deze services maken en delen rapporten waarmee niet-gerelateerde gegevensbronnen worden verbonden en gevisualiseerd. Samen met Azure Databricks kan Power BI hoofdoorzaakbepaling en onbewerkte gegevensanalyse bieden. In deze architectuur wordt Power BI gebruikt voor het maken van dashboards en rapporten die inzicht bieden in de gegevens die worden verwerkt door Databricks en Fabric.
Microsoft Purview beheert on-premises, multicloud- en SaaS-gegevens (Software as a Service). Deze governanceservice onderhoudt gegevenslandschapskaarten. Functies zijn geautomatiseerde gegevensdetectie, classificatie van gevoelige gegevens en gegevensherkomst. In deze architectuur wordt Purview gebruikt om gegevens te scannen en bij te houden die zijn opgenomen in Unity Catalog, Fabric, Power BI en ADLS.
Azure DevOps is een DevOps-indelingsplatform. Deze SaaS biedt hulpprogramma's en omgevingen voor het bouwen, implementeren en samenwerken aan toepassingen. In deze architectuur wordt Azure DevOps gebruikt voor het automatiseren van de implementatie van de Azure-infrastructuur. Daarnaast kunt u GitHub gebruiken voor automatisering en versiebeheer van Databricks-code, voor betere samenwerking, het bijhouden van wijzigingen en integratie met CI/CD-pijplijnen.
Azure Key Vault slaat de toegang tot geheimen, zoals tokens, wachtwoorden en API-sleutels, op en beheert deze. Key Vault maakt en beheert ook versleutelingssleutels en beheert beveiligingscertificaten. In deze architecure wordt AKV gebruikt om SAS-sleutels van ADLS op te slaan. Deze sleutels worden vervolgens gebruikt in Databricks en andere services voor verificatie.
Microsoft Entra ID biedt cloudservices voor identiteits- en toegangsbeheer. Deze functies bieden gebruikers een manier om zich aan te melden en toegang te krijgen tot resources. In deze architecure wordt Entra Id gebruikt voor het verifiëren en autoriseren van gebruikers en services in Azure.
SCIM- kunt u inrichten voor het Azure Databricks-account met behulp van Microsoft Entra-id. In deze architectuur wordt deze gebruikt voor het beheren van gebruikers die toegang hebben tot Databricks-werkruimten.
Azure Monitor verzamelt en analyseert gegevens over omgevingen en Azure-resources. Deze gegevens omvatten app-telemetrie, zoals metrische prestatiegegevens en activiteitenlogboeken. In deze architectuur wordt Azure Monitor gebruikt voor het bewaken van de status van rekenresources in Databricks en Azure Machine Learning, evenals andere onderdelen die logboeken naar Azure Monitor verzenden.
Microsoft Cost Management beheert clouduitgaven. Door budgetten en aanbevelingen te gebruiken, organiseert deze service uitgaven en laat zien hoe u de kosten kunt verlagen. In deze architectuur wordt Microsoft Cost Management gebruikt voor het bewaken en beheren van de kosten van de hele oplossing.
Scenariodetails
Moderne gegevensarchitecturen voldoen aan deze criteria:
- Gegevens, analyses en AI-workloads samenvoegen.
- Efficiënt en betrouwbaar worden uitgevoerd op elke schaal.
- Geef inzichten via analysedashboards, operationele rapporten of geavanceerde analyses.
Deze oplossing geeft een overzicht van een moderne gegevensarchitectuur die deze doelstellingen bereikt. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services. Samen bieden deze services een oplossing met deze kwaliteiten:
- Eenvoudig: Geïntegreerde analyses, gegevenswetenschap en machine learning vereenvoudigen de gegevensarchitectuur.
- Open: De oplossing ondersteunt opensource-code, open standaarden en open frameworks. Het werkt ook met populaire geïntegreerde ontwikkelomgevingen (IDE's), bibliotheken en programmeertalen. Via systeemeigen connectors en API's werkt de oplossing ook met een breed scala aan andere services.
- Samenwerking: Data engineers, data scientists en analisten werken samen met deze oplossing. Ze kunnen samenwerkende notebooks, IDE's, dashboards en andere hulpprogramma's gebruiken om algemene onderliggende gegevens te openen en te analyseren.
Potentiële gebruikscases
Het systeem dat Swiss Re Group heeft gebouwd voor zijn Property & Casualty Herverzekeringsafdeling inspireerde deze oplossing. Naast de verzekeringsindustrie kan elk gebied dat werkt met big data of machine learning ook profiteren van deze oplossing. Voorbeelden zijn:
- De energiesector
- Retail e-commerce
- Bankwezen en financiën
- Geneeskunde en gezondheidszorg
Volgende stappen
- Zelfstudie: Een end-to-end gegevenspijplijn bouwen in Databricks-
- Zelfstudie: Uw eerste Delta Live-tabellen uitvoeren
Verwante resources
Zie deze informatie voor meer informatie over gerelateerde oplossingen:
Verwante architectuurhandleidingen
- Azure Databricks bewaken met Azure Monitor
- Machine Learning-producten van Microsoft vergelijken
- Een technologie voor natuurlijke taalverwerking kiezen
- Een technologie voor stroomverwerking kiezen