Lakehouse-referentiearchitecturen downloaden
In dit artikel worden architectuurrichtlijnen voor lakehouse beschreven in termen van gegevensbron, opname, transformatie, query's en verwerking, serveren, analyse/uitvoer en opslag.
Elke referentiearchitectuur heeft een downloadbare PDF-indeling van 11 x 17 (A3).
Algemene referentiearchitectuur
Download: Algemene lakehouse-referentiearchitectuur voor Databricks (PDF)
Organisatie van de referentiearchitecturen
De referentiearchitectuur is gestructureerd langs de zwembanen Source, Ingest, Transform, Query en Process, Serve, Analysis en Storage:
Bron
De architectuur maakt onderscheid tussen semi-gestructureerde en ongestructureerde gegevens (sensoren en IoT, media, bestanden/logboeken) en gestructureerde gegevens (RDBMS, bedrijfstoepassingen). SQL-bronnen (RDBMS) kunnen ook worden geïntegreerd in lakehouse en Unity Catalog zonder ETL via lakehouse-federatie. Daarnaast kunnen gegevens worden geladen van andere cloudproviders.
Inslikken
Gegevens kunnen via batch of streaming in het lakehouse worden opgenomen:
- Bestanden die in de cloudopslag worden geleverd, kunnen rechtstreeks worden geladen met behulp van het Databricks Auto Loader.
- Voor batchopname van gegevens uit bedrijfstoepassingen naar Delta Lake is Databricks Lakehouse afhankelijk van partneropnamehulpprogramma's met specifieke adapters voor deze systemen van record.
- Streaminggebeurtenissen kunnen rechtstreeks vanuit gebeurtenisstreamingsystemen, zoals Kafka, worden opgenomen met behulp van Databricks Structured Streaming. Streamingbronnen kunnen sensoren, IoT of processen voor het vastleggen van gegevens wijzigen zijn.
Storage
Gegevens worden doorgaans opgeslagen in het cloudopslagsysteem, waarbij de ETL-pijplijnen de medalsight-architectuur gebruiken om gegevens op een gecureerde manier op te slaan als Delta-bestanden/-tabellen.
Transformeren en query's uitvoeren en verwerken
Databricks Lakehouse gebruikt de engines Apache Spark en Photon voor alle transformaties en query's.
Vanwege de eenvoud is het declaratieve framework DLT (Delta Live Tables) een goede keuze voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking.
Het Databricks Data Intelligence Platform, mogelijk gemaakt door Apache Spark en Photon, ondersteunt beide typen workloads: SQL-query's via SQL-magazijnen en SQL-, Python- en Scala-workloads via werkruimteclusters.
Voor data science (ML Modeling en Gen AI) biedt het Databricks AI- en Machine Learning-platform gespecialiseerde ML-runtimes voor AutoML en voor het coderen van ML-taken. Alle data science- en MLOps-werkstromen worden het beste ondersteund door MLflow.
Dienen
Voor DWH- en BI-gebruiksvoorbeelden biedt Databricks Lakehouse Databricks SQL, het datawarehouse mogelijk gemaakt door SQL-warehouses en serverloze SQL-warehouses.
Voor machine learning is het leveren van modellen een schaalbaar, realtime model op bedrijfsniveau dat wordt gehost in het Databricks-besturingsvlak.
Operationele databases: externe systemen, zoals operationele databases, kunnen worden gebruikt voor het opslaan en leveren van eindproducten aan gebruikerstoepassingen.
Samenwerking: zakelijke partners krijgen veilige toegang tot de gegevens die ze nodig hebben via Delta Sharing. Op basis van Delta Sharing is Databricks Marketplace een open forum voor het uitwisselen van gegevensproducten.
Analyse
De laatste zakelijke toepassingen bevinden zich in deze zwembaan. Voorbeelden zijn aangepaste clients zoals AI-toepassingen die zijn verbonden met Mosaic AI Model Serving voor realtime deductie of toepassingen die toegang hebben tot gegevens die vanuit lakehouse naar een operationele database worden gepusht.
Voor BI-use cases gebruiken analisten doorgaans BI-hulpprogramma's voor toegang tot het datawarehouse. SQL-ontwikkelaars kunnen bovendien de Databricks SQL Editor (niet weergegeven in het diagram) gebruiken voor query's en dashboarding.
Het Data Intelligence Platform biedt ook dashboards voor het bouwen van gegevensvisualisaties en het delen van inzichten.
Mogelijkheden voor uw workloads
Daarnaast wordt databricks lakehouse geleverd met beheermogelijkheden die ondersteuning bieden voor alle workloads:
Gegevens en AI-governance
Het centrale data- en AI-beheersysteem in het Databricks Data Intelligence Platform is Unity Catalog. Unity Catalog biedt één locatie voor het beheren van beleidsregels voor gegevenstoegang die van toepassing zijn op alle werkruimten en ondersteunt alle assets die zijn gemaakt of gebruikt in lakehouse, zoals tabellen, volumes, functies (functiearchief) en modellen (modelregister). Unity Catalog kan ook worden gebruikt om runtimegegevensherkomst vast te leggen voor query's die worden uitgevoerd op Databricks.
Met Databricks Lakehouse-bewaking kunt u de kwaliteit van de gegevens in alle tabellen in uw account bewaken. Het kan ook de prestaties van machine learning-modellen en eindpunten voor modelverdiening bijhouden.
Voor waarneembaarheid zijn systeemtabellen een door Databricks gehoste analytische opslag van de operationele gegevens van uw account. Systeemtabellen kunnen worden gebruikt voor historische waarneembaarheid in uw account.
Data intelligence-engine
Met het Databricks Data Intelligence Platform kan uw hele organisatie gegevens en AI gebruiken. Het wordt mogelijk gemaakt door DatabricksIQ en combineert generatieve AI met de eenwordingsvoordelen van een lakehouse om inzicht te hebben in de unieke semantiek van uw gegevens.
De Databricks Assistant is beschikbaar in Databricks-notebooks, SQL-editor en bestandseditor als contextbewuste AI-assistent voor ontwikkelaars.
Orchestration
Databricks-taken organiseren pijplijnen voor gegevensverwerking, machine learning en analyse op het Databricks Data Intelligence Platform. Met Delta Live Tables kunt u betrouwbare en onderhoudbare ETL-pijplijnen bouwen met declaratieve syntaxis.
De data intelligence platform-referentiearchitectuur in Azure
De Azure Databricks-referentiearchitectuur is afgeleid van de algemene referentiearchitectuur door Azure-specifieke services toe te voegen voor de elementen Bron, Opname, Server, Analyse/Uitvoer en Opslag.
Download: Referentiearchitectuur voor databricks lakehouse in Azure
De Azure-referentiearchitectuur toont de volgende Azure-specifieke services voor opname, opslag, server en analyse/uitvoer:
- Azure Synapse en SQL Server als bronsystemen voor Lakehouse Federation
- Azure IoT Hub en Azure Event Hubs voor streamingopname
- Azure Data Factory voor batchopname
- Azure Data Lake Storage Gen 2 (ADLS) als objectopslag
- Azure SQL DB en Azure Cosmos DB als operationele databases
- Azure Purview als de bedrijfscatalogus waarnaar UC schema- en herkomstgegevens exporteert
- Power BI als bi-hulpprogramma
Notitie
- Deze weergave van de referentiearchitectuur is alleen gericht op Azure-services en databricks lakehouse. Het Lakehouse op Databricks is een open platform dat kan worden geïntegreerd met een groot ecosysteem van partnerhulpprogramma's.
- De weergegeven cloudproviderservices zijn niet volledig. Ze zijn geselecteerd om het concept te illustreren.
Use case: Batch ETL
Downloaden: Batch ETL-referentiearchitectuur voor Azure Databricks
Hulpprogramma's voor opnemen gebruiken bronspecifieke adapters om gegevens uit de bron te lezen en deze vervolgens op te slaan in de cloudopslag van waaruit Auto Loader het kan lezen of Databricks rechtstreeks aanroepen (bijvoorbeeld met partneropnamehulpprogramma's die zijn geïntegreerd in databricks lakehouse). Als u de gegevens wilt laden, voert de Databricks ETL en de verwerkingsengine , via DLT, de query's uit. Werkstromen voor één of meerdere taken kunnen worden ingedeeld door Databricks-taken en worden beheerd door Unity Catalog (toegangsbeheer, controle, herkomst, enzovoort). Als operationele systemen met lage latentie toegang nodig hebben tot specifieke gouden tabellen, kunnen ze worden geëxporteerd naar een operationele database, zoals een RDBMS- of sleutelwaardearchief aan het einde van de ETL-pijplijn.
Use case: Streaming and change data capture (CDC)
Downloaden: Gestructureerde Spark-streamingarchitectuur voor Azure Databricks
De Databricks ETL-engine maakt gebruik van Spark Structured Streaming om te lezen uit gebeurteniswachtrijen, zoals Apache Kafka of Azure Event Hub. De downstreamstappen volgen de benadering van de bovenstaande Batch-use-case.
Cdc (Real-time change data capture) gebruikt doorgaans een gebeurteniswachtrij om de geëxtraheerde gebeurtenissen op te slaan. Van daaruit volgt de use case de streaming use case.
Als CDC wordt uitgevoerd in batch waarbij de geëxtraheerde records eerst worden opgeslagen in cloudopslag, kan Databricks Autoloader ze lezen en volgt de use-case Batch ETL.
Use case: Machine Learning en AI
Downloaden: Machine learning- en AI-referentiearchitectuur voor Azure Databricks
Voor machine learning biedt het Databricks Data Intelligence Platform Mozaïek AI, dat wordt geleverd met geavanceerde machine- en deep learning-bibliotheken. Het biedt mogelijkheden zoals Feature Store en modelregister (beide geïntegreerd in Unity Catalog), functies met weinig code met AutoML en MLflow-integratie in de levenscyclus van data science.
Alle gegevenswetenschapgerelateerde assets (tabellen, functies en modellen) worden beheerd door Unity Catalog en gegevenswetenschappers kunnen Databricks-taken gebruiken om hun taken te organiseren.
Voor het implementeren van modellen op een schaalbare en hoogwaardige manier, gebruikt u de MLOps-mogelijkheden om de modellen te publiceren in modelverdiening.
Use case: Augmented Generation ophalen (Gen AI)
Downloaden: Gen AI RAG-referentiearchitectuur voor Azure Databricks
Voor generatieve AI-gebruiksvoorbeelden wordt Mozaïek AI geleverd met geavanceerde bibliotheken en specifieke Gen AI-mogelijkheden van prompt engineering tot het verfijnen van bestaande modellen en een volledig nieuwe training. In de bovenstaande architectuur ziet u een voorbeeld van hoe vectorzoekopdrachten kunnen worden geïntegreerd om een RAG-toepassing te maken (augmented generation ophalen).
Voor het implementeren van modellen op een schaalbare en hoogwaardige manier, gebruikt u de MLOps-mogelijkheden om de modellen te publiceren in modelverdiening.
Use-case: BI- en SQL-analyses
Download: REFERENTIEarchitectuur voor BI- en SQL-analyse voor Azure Databricks
Voor BI-use cases kunnen bedrijfsanalisten dashboards, de Databricks SQL-editor of specifieke BI-hulpprogramma's zoals Tableau of Power BI gebruiken. In alle gevallen is de engine Databricks SQL (serverloos of niet-serverloos) en worden gegevensdetectie, verkenning en toegangsbeheer geleverd door Unity Catalog.
Use case: Lakehouse federation
Download: Naslagarchitectuur voor Federatie van Lakehouse voor Azure Databricks
Met Lakehouse-federatie kunnen sql-databases voor externe gegevens (zoals MySQL, Postgres, SQL Server of Azure Synapse) worden geïntegreerd met Databricks.
Alle workloads (AI, DWH en BI) kunnen hiervan profiteren zonder dat u eerst de gegevens in objectopslag hoeft te ETL te gebruiken. De externe broncatalogus wordt toegewezen aan de Unity-catalogus en gedetailleerd toegangsbeheer kan worden toegepast op toegang via het Databricks-platform.
Use case: Enterprise data sharing
Downloaden: Referentiearchitectuur voor het delen van ondernemingsgegevens voor Azure Databricks
Gegevens delen op bedrijfsniveau wordt geleverd door Delta Sharing. Het biedt directe toegang tot gegevens in het objectarchief dat wordt beveiligd door Unity Catalog en Databricks Marketplace is een open forum voor het uitwisselen van gegevensproducten.