Aanbevolen procedures voor interoperabiliteit en bruikbaarheid
In dit artikel worden aanbevolen procedures voor interoperabiliteit en bruikbaarheid beschreven, georganiseerd op basis van architectuurprincipes die in de volgende secties worden vermeld.
1. Standaarden voor integratie definiëren
Standaard- en herbruikbare integratiepatronen gebruiken voor externe integratie
Integratiestandaarden zijn belangrijk omdat ze richtlijnen bieden voor de manier waarop gegevens moeten worden weergegeven, uitgewisseld en verwerkt in verschillende systemen en toepassingen. Deze standaarden helpen ervoor te zorgen dat gegevens compatibel, van hoge kwaliteit en interoperabel zijn voor verschillende bronnen en bestemmingen.
Databricks Lakehouse wordt geleverd met een uitgebreide REST API waarmee u bijna alle aspecten van het platform programmatisch kunt beheren. De REST API-server wordt uitgevoerd in het besturingsvlak en biedt een geïntegreerd eindpunt voor het beheren van het Azure Databricks-platform.
De REST API biedt het laagste integratieniveau dat altijd kan worden gebruikt. De voorkeursmethode voor integratie met Azure Databricks is echter het gebruik van abstracties op een hoger niveau, zoals de Databricks SDK's of CLI-hulpprogramma's. CLI-hulpprogramma's zijn gebaseerd op shells en bieden eenvoudige integratie van het Databricks-platform in CI/CD- en MLOps-werkstromen.
Geoptimaliseerde connectors gebruiken om gegevensbronnen op te nemen in lakehouse
Azure Databricks biedt verschillende manieren om u te helpen bij het opnemen van gegevens in Delta Lake.
Databricks biedt geoptimaliseerde connectors voor stream messaging-services zoals Apache Kafka voor bijna realtime gegevensopname van gegevens.
Databricks biedt ingebouwde integraties met veel cloudeigen gegevenssystemen en uitbreidbare JDBC-ondersteuning om verbinding te maken met andere gegevenssystemen.
Eén optie voor het integreren van gegevensbronnen zonder ETL is Lakehouse Federation. Lakehouse Federation is het queryfederatieplatform voor Databricks. De termenqueryfederatie beschrijft een verzameling functies waarmee gebruikers en systemen query's kunnen uitvoeren op meerdere gegevensbronnen zonder dat alle gegevens naar een geïntegreerd systeem hoeven te worden gemigreerd. Databricks maakt gebruik van Unity Catalog voor het beheren van queryfederatie. De hulpprogramma's voor gegevensbeheer en gegevensherkomst van Unity Catalog zorgen ervoor dat gegevenstoegang wordt beheerd en gecontroleerd voor alle federatieve query's die worden uitgevoerd door gebruikers in uw Databricks-werkruimten.
Notitie
Elke query in het Databricks-platform dat gebruikmaakt van een Lakehouse Federation-bron, wordt naar die bron verzonden. Zorg ervoor dat het bronsysteem de belasting kan verwerken. Houd er ook rekening mee dat als het bronsysteem wordt geïmplementeerd in een andere cloudregio of cloud, er kosten voor uitgaand verkeer zijn voor elke query.
Overweeg de toegang tot onderliggende databases via gerealiseerde weergaven te offloaden om hoge/gelijktijdige belastingen op operationele databases te voorkomen en de kosten voor uitgaand verkeer te verlagen.
Gecertificeerde partnerhulpprogramma's gebruiken
Organisaties hebben verschillende behoeften en er kan geen enkel hulpprogramma aan ze voldoen. Met Partner Connect kunt u verkennen en eenvoudig integreren met onze partners, die betrekking hebben op alle aspecten van lakehouse: gegevensopname, voorbereiding en transformatie, BI en visualisatie, machine learning, gegevenskwaliteit en meer. Met Partner Connect kunt u proefaccounts maken met geselecteerde Databricks-technologiepartners en uw Azure Databricks-werkruimte verbinden met partneroplossingen vanuit de Gebruikersinterface van Azure Databricks. Probeer partneroplossingen met behulp van uw gegevens in Databricks Lakehouse en gebruik vervolgens de oplossingen die het beste voldoen aan uw bedrijfsbehoeften.
De complexiteit van data engineering-pijplijnen verminderen
Door te investeren in het verminderen van de complexiteit van pijplijnen voor data engineering, is schaalbaarheid, flexibiliteit en flexibiliteit mogelijk om sneller uit te breiden en te innoveren. Vereenvoudigde pijplijnen maken het eenvoudiger om alle operationele behoeften van een data engineering-pijplijn te beheren en aan te passen: taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling.
Delta Live Tables is een framework voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking. U definieert de transformaties die u wilt uitvoeren op uw gegevens en Delta Live Tables verwerkt taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling. Zie Wat is Delta Live Tables?
Auto Loader verwerkt stapsgewijs en efficiënt nieuwe gegevensbestanden wanneer ze binnenkomen in de cloudopslag. Het kan op betrouwbare wijze gegevensbestanden lezen uit cloudopslag. Een belangrijk aspect van zowel Delta Live Tables als Auto Loader is hun declaratieve aard: zonder hen moet er complexe pijplijnen worden gebouwd die verschillende cloudservices, zoals een meldingsservice en een wachtrijservice, kunnen integreren om cloudbestanden betrouwbaar te lezen op basis van gebeurtenissen en batch- en streamingbronnen betrouwbaar te combineren.
AutoLoader en Delta Live Tables verminderen systeemafhankelijkheden en complexiteit en verbeteren de interoperabiliteit met de cloudopslag en tussen verschillende paradigma's, zoals batch en streaming. Als neveneffect verhoogt de eenvoud van de pijplijnen de bruikbaarheid van het platform.
Infrastructuur als code (IaC) gebruiken voor implementaties en onderhoud
HashiCorp Terraform is een populair opensource-hulpprogramma voor het maken van een veilige en voorspelbare cloudinfrastructuur tussen verschillende cloudproviders. Zie Operational Excellence: Infrastructuur gebruiken als code voor implementaties en onderhoud
2. Open interfaces en open gegevensindelingen gebruiken
Open gegevensindelingen gebruiken
Als u een open gegevensindeling gebruikt, gelden er geen beperkingen voor het gebruik ervan. Dit is belangrijk omdat hiermee belemmeringen worden weggenomen voor het openen en gebruiken van de gegevens voor analyse en het stimuleren van zakelijke inzichten. Open indelingen, zoals die zijn gebouwd op Apache Spark, voegen ook functies toe die de prestaties verbeteren met ondersteuning voor ACID-transacties, geïntegreerde streaming en batchgegevensverwerking. Bovendien is open source communitygestuurd, wat betekent dat de community voortdurend werkt aan het verbeteren van bestaande functies en het toevoegen van nieuwe functies, waardoor gebruikers het meeste uit hun projecten kunnen halen.
De primaire gegevensindeling die wordt gebruikt in het Data Intelligence Platform is Delta Lake, een volledig geopende gegevensindeling die veel voordelen biedt, van betrouwbaarheidsfuncties tot prestatieverbeteringen. Zie Een gegevensindeling gebruiken die ACID-transacties en aanbevolen procedures voor prestatie-efficiëntie ondersteunt.
Vanwege de open natuur wordt Delta Lake geleverd met een groot ecosysteem. Tientallen hulpprogramma's en toepassingen van derden ondersteunen Delta Lake.
Om de interoperabiliteit verder te verbeteren, kunt u met de Delta Universal Format (UniForm) Delta-tabellen lezen met iceberglezerclients. UniForm genereert automatisch IJsberg-metagegevens asynchroon, zonder de gegevens te herschrijven, zodat Iceberg-clients Delta-tabellen kunnen lezen alsof ze Iceberg-tabellen zijn. Eén kopie van de gegevensbestanden dient beide indelingen.
Beveiligde gegevens en AI-delen inschakelen voor alle gegevensassets
Het delen van gegevens en AI-assets kan leiden tot betere samenwerking en besluitvorming. Bij het delen van gegevens is het echter belangrijk om controle te houden, uw gegevens te beveiligen en te zorgen voor naleving van de relevante wet- en regelgeving voor het delen van gegevens.
Delta Sharing is een open protocol dat door Databricks is ontwikkeld voor het veilig delen van gegevens met andere organisaties, ongeacht de computerplatforms die ze gebruiken. Als u gegevens wilt delen met gebruikers buiten uw Databricks-werkruimte, ongeacht of ze Databricks gebruiken, kunt u Delta Sharing gebruiken om uw gegevens veilig te delen. Als u gegevens wilt delen met gebruikers met een Databricks-werkruimte die is ingeschakeld voor Unity Catalog, kunt u Databricks-to-Databricks Delta Sharing gebruiken.
In beide gevallen kunt u tabellen, weergaven, volumes, modellen en notebooks delen.
Gebruik het open Delta Sharing-protocol voor het delen van gegevens met partners.
Delta Sharing biedt een open oplossing voor het veilig delen van livegegevens van uw lakehouse naar elk computingplatform. Ontvangers hoeven zich niet op het Databricks-platform, in dezelfde cloud of in een cloud te bevinden. Delta Sharing integreert systeemeigen met Unity Catalog, waardoor organisaties gedeelde gegevens en AI-assets centraal kunnen beheren en controleren in de hele onderneming en met vertrouwen gegevens en AI-assets kunnen delen die voldoen aan beveiligings- en nalevingsvereisten.
Gegevensproviders kunnen livegegevens en AI-modellen delen vanaf waar ze zijn opgeslagen in het gegevensplatform zonder deze naar een ander systeem te repliceren of te verplaatsen. Deze aanpak vermindert de operationele kosten voor het delen van gegevens en AI, omdat gegevensproviders niet meerdere keren gegevens hoeven te repliceren in clouds, geografische gebieden of gegevensplatformen naar elk van hun gegevensgebruikers.
Databricks-to-Databricks Delta Sharing tussen Databricks-gebruikers gebruiken.
Als u gegevens wilt delen met gebruikers die geen toegang hebben tot uw Unity Catalog-metastore, kunt u Databricks-to-Databricks Delta Sharing gebruiken, zolang de ontvangers toegang hebben tot een Databricks-werkruimte die is ingeschakeld voor Unity Catalog. Met het delen van Databricks naar Databricks kunt u gegevens delen met gebruikers in andere Databricks-accounts, in cloudregio's en tussen cloudproviders. Het is een uitstekende manier om gegevens veilig te delen in verschillende Unity Catalog-metastores in uw eigen Databricks-account.
Open standaarden gebruiken voor het beheer van de ML-levenscyclus
Net als bij het gebruik van een opensource-gegevensindeling heeft het gebruik van open standaarden voor uw AI-werkstromen vergelijkbare voordelen als het gaat om flexibiliteit, flexibiliteit, kosten en beveiliging.
MLflow is een opensource-platform voor het beheren van de ML- en AI-levenscyclus. Databricks biedt een volledig beheerde en gehoste versie van MLflow, geïntegreerd met bedrijfsbeveiligingsfuncties, hoge beschikbaarheid en andere Databricks-werkruimtefuncties, zoals experimenten en het uitvoeren van beheer en het bijhouden van notebookrevisies.
De primaire onderdelen zijn het bijhouden van experimenten om ML- en Deep Learning-modellen automatisch te registreren en bij te houden, modellen als een standaardindeling voor het verpakken van machine learning-modellen, een modelregister dat is geïntegreerd met Unity Catalog en het schaalbare, hoogwaardige model.
3. De implementatie van nieuwe use-case vereenvoudigen
Een selfservice-ervaring bieden op het platform
Er zijn verschillende voordelen van een platform waar gebruikers autonomie hebben om de hulpprogramma's en mogelijkheden te gebruiken, afhankelijk van hun behoeften. Door te investeren in het maken van een selfserviceplatform kunt u eenvoudig schalen om meer gebruikers te bedienen en grotere efficiëntie te bereiken door de noodzaak van menselijke betrokkenheid om gebruikers in te richten, problemen op te lossen en toegangsaanvragen te verwerken.
Het Databricks Data Intelligence Platform heeft alle mogelijkheden die nodig zijn om een selfservice-ervaring te bieden. Hoewel er mogelijk een verplichte goedkeuringsstap is, is het raadzaam om de installatie volledig te automatiseren wanneer een bedrijfseenheid toegang tot het lakehouse aanvraagt. Automatisch hun nieuwe omgeving inrichten, gebruikers synchroniseren en eenmalige aanmelding gebruiken voor verificatie, toegangsbeheer bieden voor gedeelde gegevens en afzonderlijke objectarchieven voor hun eigen gegevens, enzovoort. Samen met een centrale gegevenscatalogus van semantisch consistente en bedrijfsklare gegevenssets kunnen nieuwe bedrijfseenheden snel en veilig toegang krijgen tot lakehouse-mogelijkheden en de gegevens die ze nodig hebben.
Serverloze rekenkracht gebruiken
Voor serverloze berekeningen op het Azure Databricks-platform wordt de rekenlaag uitgevoerd in het Databricks-account van de klant. Cloudbeheerders hoeven geen complexe cloudomgevingen meer te beheren waarvoor quota moeten worden aangepast, netwerkresources moeten worden gemaakt en onderhouden en verbinding moeten worden gemaakt met factureringsbronnen. Gebruikers profiteren van bijna nul opstartlatentie van clusters en verbeterde gelijktijdigheid van query's.
Vooraf gedefinieerde rekensjablonen gebruiken
Vooraf gedefinieerde sjablonen helpen bepalen hoe rekenresources kunnen worden gebruikt of gemaakt door gebruikers: beperk het maken van gebruikersclusters tot voorgeschreven instellingen of een bepaald aantal, vereenvoudig de gebruikersinterface of beheer de kosten door de maximumkosten per cluster te beperken.
Het Data Intelligence Platform doet dit op twee manieren:
- Geef gedeelde clusters op als directe omgevingen voor gebruikers. Gebruik op deze clusters automatisch schalen naar een zeer minimaal aantal knooppunten om hoge inactieve kosten te voorkomen.
- Voor een gestandaardiseerde omgeving gebruikt u rekenbeleid om de clustergrootte of -functies te beperken of clusters met T-shirtformaat (S, M, L) te definiëren.
AI-mogelijkheden gebruiken om de productiviteit te verhogen
Naast het verhogen van de productiviteit kunnen AI-hulpprogramma's ook helpen patronen in fouten te identificeren en aanvullende inzichten te bieden op basis van de invoer. Over het algemeen kan het integreren van deze hulpprogramma's in het ontwikkelingsproces fouten aanzienlijk verminderen en besluitvorming vergemakkelijken, wat leidt tot een snellere releasetijd.
Databricks IQ, de ai-kennisengine, vormt het hart van het Data Intelligence Platform. Het maakt gebruik van metagegevens van Unity Catalog om inzicht te hebben in uw tabellen, kolommen, beschrijvingen en populaire gegevensassets in uw organisatie om persoonlijke antwoorden te geven. Het maakt verschillende functies mogelijk die de productiviteit verbeteren bij het werken met het platform, zoals:
- Met Databricks Assistant kunt u gegevens doorzoeken via een gespreksinterface, waardoor u productiever bent in Databricks. Beschrijf uw taak in het Engels en laat de wizard SQL-query's genereren, complexe code uitleggen en fouten automatisch oplossen.
- Door AI gegenereerde opmerkingen voor elke tabel- of tabelkolom die door Unity Catalog wordt beheerd, versnelt het proces voor metagegevensbeheer. AI-modellen zijn echter niet altijd nauwkeurig en opmerkingen moeten worden gecontroleerd voordat ze worden opgeslagen. Databricks raadt de menselijke beoordeling van door AI gegenereerde opmerkingen ten zeerste aan om te controleren op onnauwkeurigheden.
4. Zorg voor gegevensconsistentie en bruikbaarheid
Herbruikbare gegevens als producten aanbieden die het bedrijf kan vertrouwen
Organisaties die ai en gegevensgestuurd willen worden, moeten hun interne teams vaak voorzien van betrouwbare gegevens van hoge kwaliteit. Een benadering voor het prioriteren van kwaliteit en bruikbaarheid is het toepassen van productdenken op uw gepubliceerde gegevensassets door goed gedefinieerde 'gegevensproducten' te maken. Het bouwen van dergelijke gegevensproducten zorgt ervoor dat organisaties standaarden en een vertrouwde basis voor zakelijke waarheid vaststellen voor hun gegevens en AI-doelen. Gegevensproducten leveren uiteindelijk waarde wanneer gebruikers en toepassingen de juiste gegevens hebben, op het juiste moment, met de juiste kwaliteit, in de juiste indeling. Hoewel deze waarde traditioneel is gerealiseerd in de vorm van efficiëntere bewerkingen door lagere kosten, snellere processen en minder risico's, kunnen moderne gegevensproducten ook de weg maken voor nieuwe aanbiedingen met toegevoegde waarde en mogelijkheden voor het delen van gegevens binnen het branche- of partnerecosysteem van een organisatie.
Zie het blogbericht Over het bouwen van hoogwaardige en vertrouwde gegevensproducten met Databricks.
Gegevensproducten semantisch consistent publiceren in de hele onderneming
Een data lake bevat doorgaans gegevens uit meerdere bronsystemen. Deze systemen kunnen verschillende namen hebben voor hetzelfde concept (bijvoorbeeld klant versus account) of dezelfde id gebruiken om naar verschillende concepten te verwijzen. Zodat zakelijke gebruikers deze gegevenssets eenvoudig op een zinvolle manier kunnen combineren, moeten de gegevens homogeen worden gemaakt voor alle bronnen om semantisch consistent te zijn. Bovendien moeten enkele gegevens die waardevol zijn voor analyse, interne bedrijfsregels, zoals omzetherkenning, correct worden toegepast. Om ervoor te zorgen dat alle gebruikers de correct geïnterpreteerde gegevens gebruiken, moeten gegevenssets met deze regels beschikbaar worden gesteld en gepubliceerd naar Unity Catalog. Toegang tot de brongegevens moet worden beperkt tot teams die het juiste gebruik begrijpen.
Een centrale catalogus bieden voor detectie en herkomst
Een centrale catalogus voor detectie en herkomst helpt gegevensgebruikers toegang te krijgen tot gegevens uit meerdere bronnen in de hele onderneming, waardoor operationele overhead voor het centrale governanceteam wordt verminderd.
In Unity Catalog beheren beheerders en gegevensstewards gebruikers en hun toegang tot gegevens centraal in alle werkruimten in een Azure Databricks-account. Gebruikers in verschillende werkruimten kunnen dezelfde gegevens delen en, afhankelijk van de gebruikersbevoegdheden die centraal zijn verleend in Unity Catalog, toegang hebben tot gegevens.
Voor gegevensdetectie ondersteunt de Unity Catalog gebruikers met mogelijkheden zoals:
- Catalog Explorer is de primaire gebruikersinterface voor veel Unity Catalog-functies. U kunt Catalog Explorer gebruiken om schemadetails weer te geven, voorbeeldgegevens te bekijken en tabeldetails en eigenschappen weer te geven. Beheerders kunnen eigenaren weergeven en wijzigen, en beheerders en eigenaren van gegevensobjecten kunnen machtigingen verlenen en intrekken. U kunt ook Databricks Search gebruiken, waarmee gebruikers eenvoudig en naadloos gegevensassets kunnen vinden (zoals tabellen, kolommen, weergaven, dashboards, modellen enzovoort). Gebruikers worden resultaten weergegeven die relevant zijn voor hun zoekaanvragen en waartoe ze toegang hebben.
- Gegevensherkomst in alle query's worden uitgevoerd op een Azure Databricks-cluster of SQL Warehouse. Herkomst wordt ondersteund voor alle talen en wordt vastgelegd op kolomniveau. Herkomstgegevens omvatten notebooks, taken en dashboards met betrekking tot de query. Herkomst kan bijna in realtime worden gevisualiseerd in Catalog Explorer en worden opgehaald met de Azure Databricks REST API.
Om ondernemingen in staat te stellen hun gebruikers een holistische weergave van alle gegevens op alle gegevensplatforms te bieden, biedt Unity Catalog integratie met zakelijke gegevenscatalogussen (ook wel de 'catalogus van catalogi' genoemd).