Delen via


Interoperabiliteit en bruikbaarheid voor data lakehouse

In dit artikel worden architectuurprincipes van de interoperabiliteits- en bruikbaarheidspijler besproken, die verwijst naar de interactie van lakehouse met gebruikers en andere systemen. Een van de fundamentele ideeën van het lakehouse is om een geweldige gebruikerservaring te bieden voor alle persona's die ermee werken en om te kunnen communiceren met een breed ecosysteem van externe systemen.

  • Interoperabiliteit is de mogelijkheid van een systeem om met andere systemen te werken en te integreren. Het impliceert interactie tussen verschillende onderdelen en producten, mogelijk van meerdere leveranciers, en tussen eerdere en toekomstige versies van hetzelfde product.
  • Bruikbaarheid is de meting van hoe goed een systeem gebruikers in staat stelt taken veilig, effectief en efficiënt uit te voeren.

Diagram van de interoperabiliteit en bruikbaarheid van lakehouse-architectuur voor Databricks.

Door de principes van deze pijler te volgen, kunt u het volgende doen:

  • Een consistente en gezamenlijke gebruikerservaring bereiken.
  • Maak gebruik van synergieën in clouds.
  • Vereenvoudig de integratie van en naar het lakehouse.
  • Verlaag de kosten voor training en activering.

En uiteindelijk leiden tot een snellere time-to-value.

Beginselen van interoperabiliteit en bruikbaarheid

  1. Standaarden voor integratie definiëren

    Integratie heeft verschillende aspecten en kan op veel verschillende manieren worden uitgevoerd. Om te voorkomen dat hulpprogramma's en benaderingen worden verspreid, moeten best practices worden gedefinieerd en moet een lijst met goed ondersteunde en voorkeurshulpprogramma's en connectors worden verstrekt.

    Een van de belangrijkste architectuurprincipes is modulariteit en losse koppeling in plaats van nauwe integratie. Dit vermindert afhankelijkheden tussen onderdelen en workloads, helpt bijwerkingen te elimineren en maakt onafhankelijke ontwikkeling op verschillende tijdschalen mogelijk. Gebruik gegevenssets en hun schema als contract. Scheid werkbelastingen zoals taken voor het wrangling van gegevens (zoals het laden en transformeren van gegevens in een data lake) van taken die waarde toevoegen (bijvoorbeeld rapportage, dashboards en engineering van data science-functies). Definieer een centrale gegevenscatalogus met richtlijnen voor gegevensindelingen, gegevenskwaliteit en gegevenslevenscyclus.

  2. Open interfaces en open gegevensindelingen gebruiken

    Vaak worden oplossingen ontwikkeld waarbij gegevens alleen toegankelijk zijn via een specifiek systeem. Dit kan leiden tot de vergrendeling van de leverancier, maar het kan ook een enorm kostenstuurprogramma worden als gegevenstoegang via dat systeem onderhevig is aan licentiekosten. Het gebruik van open gegevensindelingen en interfaces helpt dit te voorkomen. Ze vereenvoudigen ook de integratie met bestaande systemen en openen een ecosysteem van partners die hun hulpprogramma's al hebben geïntegreerd met het lakehouse.

    Als u opensource-ecosystemen zoals Python of R gebruikt voor gegevenswetenschap of Spark of ANSI SQL voor gegevenstoegang en toegangsrechtenbeheer, hebt u een eenvoudigere tijd om personeel voor projecten te vinden. Het vereenvoudigt ook potentiële migraties van en naar een platform.

  3. Implementatie van nieuwe use-case vereenvoudigen

    Om optimaal gebruik te maken van de gegevens in de Data Lake, moeten gebruikers eenvoudig hun gebruiksvoorbeelden op het platform kunnen implementeren. Dit begint met lean processen rond platformtoegang en gegevensbeheer. Selfservicetoegang tot het platform helpt bijvoorbeeld te voorkomen dat een centraal team een knelpunt wordt. Gedeelde omgevingen en vooraf gedefinieerde blauwdrukken voor het implementeren van nieuwe omgevingen zorgen ervoor dat het platform snel beschikbaar is voor elke zakelijke gebruiker.

  4. Gegevensconsistentie en bruikbaarheid garanderen

    Twee belangrijke activiteiten op een gegevensplatform zijn het publiceren van gegevens en het verbruik van gegevens. Vanuit publicatieperspectief moeten gegevens worden aangeboden als een product. Uitgevers moeten een gedefinieerde levenscyclus volgen met consumenten in gedachten en de gegevens moeten duidelijk worden gedefinieerd met beheerde schema's, beschrijvingen, enzovoort.

    Het is ook belangrijk om semantisch consistente gegevens te bieden, zodat consumenten verschillende gegevenssets gemakkelijk kunnen begrijpen en correct kunnen combineren. Bovendien moeten alle gegevens gemakkelijk kunnen worden gedetecteerd en toegankelijk zijn voor consumenten via een centrale catalogus met correct gecureerde metagegevens en gegevensherkomst.

Volgende: Best practices voor interoperabiliteit en bruikbaarheid

Zie best practices voor interoperabiliteit en bruikbaarheid.