Delen via


Het bereik van het Lakehouse-platform

Een modern data- en AI-platformframework

Als u het bereik van het Databricks Data Intelligence Platform wilt bespreken, is het handig om eerst een basisframework te definiëren voor het moderne gegevens- en AI-platform:

Framework voor cloudgegevensanalyse

Overzicht van het lakehouse-bereik

Het Databricks Data Intelligence Platform omvat het volledige moderne gegevensplatformframework. Het is gebouwd op de lakehouse-architectuur en wordt mogelijk gemaakt door een data intelligence-engine die inzicht heeft in de unieke kwaliteiten van uw gegevens. Het is een open en uniforme basis voor ETL-, ML/AI- en DWH/BI-workloads en heeft Unity Catalog als centrale oplossing voor gegevens en AI-governance.

Persona's van het platformframework

Het framework behandelt de primaire leden van het gegevensteam (persona's) die met de toepassingen in het framework werken:

  • Data engineers bieden gegevenswetenschappers en bedrijfsanalisten nauwkeurige en reproduceerbare gegevens voor tijdige besluitvorming en realtime inzichten. Ze implementeren zeer consistente en betrouwbare ETL-processen om het vertrouwen van gebruikers in gegevens te vergroten. Ze zorgen ervoor dat gegevens goed zijn geïntegreerd met de verschillende pijlers van het bedrijf en doorgaans de best practices voor software-engineering volgen.
  • Gegevenswetenschappers combineren analytische expertise en bedrijfskennis om gegevens te transformeren in strategische inzichten en voorspellende modellen. Ze zijn bedreven in het vertalen van zakelijke uitdagingen in gegevensgestuurde oplossingen, hetzij door middel van retrospectief analytische inzichten of vooruitziende voorspellende modellering. Door gebruik te maken van gegevensmodellering en machine learning-technieken, ontwerpen, ontwikkelen en implementeren ze modellen die patronen, trends en prognoses van gegevens onthullen. Ze fungeren als een brug, zetten complexe gegevensverhalen om in begrijpelijke verhalen, zodat zakelijke belanghebbenden niet alleen begrijpen, maar ook kunnen reageren op de gegevensgestuurde aanbevelingen, op hun beurt een gegevensgerichte benadering van probleemoplossing binnen een organisatie stimuleren.
  • ML-engineers (machine learning-engineers) leiden tot de praktische toepassing van data science in producten en oplossingen door machine learning-modellen te bouwen, te implementeren en te onderhouden. Hun primaire focus is gericht op het technische aspect van modelontwikkeling en -implementatie. ML-technici zorgen voor de robuustheid, betrouwbaarheid en schaalbaarheid van machine learning-systemen in liveomgevingen, waarbij uitdagingen worden aangepakt met betrekking tot gegevenskwaliteit, infrastructuur en prestaties. Door AI- en ML-modellen te integreren in operationele bedrijfsprocessen en gebruikersgerichte producten, vergemakkelijken ze het gebruik van gegevenswetenschap bij het oplossen van zakelijke uitdagingen, waardoor modellen niet alleen in onderzoek blijven, maar tastbare bedrijfswaarde stimuleren.
  • Bedrijfsanalisten stellen belanghebbenden en bedrijfsteams in staat met bruikbare gegevens. Ze interpreteren vaak gegevens en maken rapporten of andere documentatie voor leiderschap met behulp van standaard BI-hulpprogramma's. Ze zijn doorgaans het contactpunt voor niet-technische zakelijke en operationele collega's voor snelle analysevragen.
  • Zakelijke partners zijn belangrijke belanghebbenden in een steeds meer genetwerkte bedrijfswereld. Ze worden gedefinieerd als een bedrijf of personen met wie een bedrijf een formele relatie heeft om een gemeenschappelijk doel te bereiken en kunnen leveranciers, leveranciers, distributeurs en andere partners van derden omvatten. Het delen van gegevens is een belangrijk aspect van zakelijke partnerschappen, omdat het de overdracht en uitwisseling van gegevens mogelijk maakt om samenwerking en besluitvorming op basis van gegevens te verbeteren.

Domeinen van het platformframework

Het platform bestaat uit meerdere domeinen:

  • Opslag: In de cloud worden gegevens voornamelijk opgeslagen in schaalbare, efficiënte en flexibele objectopslag op cloudproviders.

  • Governance: Mogelijkheden voor gegevensbeheer, zoals toegangsbeheer, controle, metagegevensbeheer, tracering van herkomst en bewaking voor alle gegevens en AI-assets.

  • AI-engine: De AI-engine biedt generatieve AI-mogelijkheden voor het hele platform.

  • Opnemen en transformeren: de mogelijkheden voor ETL-workloads.

  • Geavanceerde analyses, ML en AI: alle mogelijkheden rond machine learning, AI, Generatieve AI en streaming-analyses.

  • Datawarehouse: het domein dat DWH- en BI-use cases ondersteunt.

  • Indeling: Centraal werkstroombeheer van gegevensverwerking, machine learning en analysepijplijnen.

  • ETL & DS-hulpprogramma's: de front-endhulpprogramma's die data engineers, gegevenswetenschappers en ML-engineers voornamelijk gebruiken voor werk.

  • BI-hulpprogramma's: de front-endhulpprogramma's die BI-analisten voornamelijk gebruiken voor werk.

  • Samenwerking: Mogelijkheden voor het delen van gegevens tussen twee of meer partijen.

Het bereik van het Databricks-platform

Het Databricks Data Intelligence Platform en de bijbehorende onderdelen kunnen op de volgende manier worden toegewezen aan het framework:

Bereik van het lakehouse

Download: Bereik van de Lakehouse - Databricks-onderdelen

Gegevensworkloads in Azure Databricks

Het belangrijkste is dat het Databricks Data Intelligence Platform alle relevante workloads voor het gegevensdomein in één platform omvat, met Apache Spark/Photon als de engine:

  • Opnemen en transformeren

    Voor gegevensopname verwerkt Auto Loader incrementeel en automatisch bestanden die in geplande of continue taken in cloudopslag binnenkomen, zonder dat u statusgegevens hoeft te beheren. Zodra de gegevens zijn opgenomen, moeten onbewerkte gegevens worden getransformeerd, zodat deze klaar zijn voor BI en ML/AI. Databricks biedt krachtige ETL-mogelijkheden voor data engineers, gegevenswetenschappers en analisten.

    Met Delta Live Tables (DLT) kunnen ETL-taken op declaratieve wijze worden geschreven, waardoor het hele implementatieproces wordt vereenvoudigd. Gegevenskwaliteit kan worden verbeterd door gegevens verwachtingen te definiëren.

  • Geavanceerde analyses, ML en AI

    Het platform bevat Databricks Mosaic AI, een set volledig geïntegreerde machine learning- en AI-hulpprogramma's voor klassieke machine en deep learning, evenals generatieve AI- en grote taalmodellen (LLM's). Het omvat de hele werkstroom van het voorbereiden van gegevens tot het bouwen van machine learning - en deep learning-modellen , tot Mozaïek AI Model Serving.

    Spark Structured Streaming en DLT maken realtime analyses mogelijk.

  • Datawarehouse

    Het Databricks Data Intelligence Platform heeft ook een volledige datawarehouseoplossing met Databricks SQL, centraal beheerd door Unity Catalog met fijnmazig toegangsbeheer.

Overzicht van Azure Databricks-functiegebieden

Dit is een toewijzing van de Databricks Data Intelligence Platform-functies aan de andere lagen van het framework, van onder naar boven:

  • Cloudopslag

    Alle gegevens voor lakehouse worden opgeslagen in de objectopslag van de cloudprovider. Databricks ondersteunt drie cloudproviders: AWS, Azure en GCP. Bestanden in verschillende gestructureerde en semi-gestructureerde indelingen (bijvoorbeeld Parquet, CSV, JSON en Avro) en ongestructureerde indelingen (zoals afbeeldingen en documenten) worden opgenomen en getransformeerd met batch- of streamingprocessen.

    Delta Lake is de aanbevolen gegevensindeling voor lakehouse (bestandstransacties, betrouwbaarheid, consistentie, updates, enzovoort) en is volledig open source om vergrendeling te voorkomen. En Met Delta Universal Format (UniForm) kunt u Delta-tabellen lezen met Iceberg reader-clients.

    Er worden geen eigen gegevensindelingen gebruikt in het Databricks Data Intelligence Platform.

  • Gegevensbeheer

    Op de opslaglaag biedt Unity Catalog een breed scala aan mogelijkheden voor gegevensbeheer, waaronder metagegevensbeheer in de metastore, toegangsbeheer, controle, gegevensdetectie, gegevensherkomst.

    Lakehouse-bewaking biedt standaard metrische gegevens over kwaliteit voor gegevens en AI-assets en automatisch gegenereerde dashboards om deze metrische gegevens te visualiseren.

    Externe SQL-bronnen kunnen worden geïntegreerd in lakehouse en Unity Catalog via lakehouse-federatie.

  • AI-engine

    Het Data Intelligence Platform is gebaseerd op de lakehouse-architectuur en is verbeterd door de data intelligence-engine DatabricksIQ. DatabricksIQ combineert generatieve AI met de eenwordingsvoordelen van de lakehouse-architectuur om inzicht te hebben in de unieke semantiek van uw gegevens. Intelligent Search en de Databricks Assistant zijn voorbeelden van AI-services die het werken met het platform voor elke gebruiker vereenvoudigen.

  • Orchestration

    Met Databricks-taken kunt u diverse workloads uitvoeren voor de volledige gegevens- en AI-levenscyclus in elke cloud. Hiermee kunt u taken en Delta Live Tables organiseren voor SQL, Spark, notebooks, DBT, ML-modellen en meer.

  • ETL & DS-hulpprogramma's

    In de verbruikslaag werken gegevenstechnici en ML-technici doorgaans met het platform met behulp van IDE's. Gegevenswetenschappers geven vaak de voorkeur aan notebooks en gebruiken de ML & AI-runtimes, en het machine learning-werkstroomsysteem MLflow om experimenten bij te houden en de levenscyclus van het model te beheren.

  • BI-hulpprogramma's

    Bedrijfsanalisten gebruiken doorgaans hun favoriete BI-hulpprogramma voor toegang tot het Databricks-datawarehouse. Databricks SQL kan worden opgevraagd door verschillende analyse- en BI-hulpprogramma's, BI en visualisatie bekijken

    Daarnaast biedt het platform standaard hulpprogramma's voor query's en analyses:

    • Dashboards voor het slepen en neerzetten van gegevensvisualisaties en het delen van inzichten.
    • SQL-editor voor SQL-analisten voor het analyseren van gegevens.
  • Samenwerking

    Delta Sharing is een open protocol dat door Databricks is ontwikkeld voor het veilig delen van gegevens met andere organisaties, ongeacht de computerplatforms die ze gebruiken.

    Databricks Marketplace is een open forum voor het uitwisselen van gegevensproducten. Het maakt gebruik van Delta Sharing om gegevensproviders de hulpmiddelen te bieden om gegevensproducten veilig te delen en gegevensgebruikers de kracht te bieden om hun toegang tot de gegevens- en gegevensservices die ze nodig hebben te verkennen en uit te breiden.