Dela via


Metodtips för samverkan och användbarhet

Den här artikeln beskriver metodtips för samverkan och användbarhet, ordnade efter arkitekturprinciper som anges i följande avsnitt.

1. Definiera standarder för integrering

Använda standard- och återanvändbara integrationsmönster för extern integrering

Integreringsstandarder är viktiga eftersom de ger riktlinjer för hur data ska representeras, utbytas och bearbetas mellan olika system och program. Dessa standarder hjälper till att säkerställa att data är kompatibla, av hög kvalitet och kompatibla mellan olika källor och destinationer.

Databricks Lakehouse levereras med ett omfattande REST API som gör att du programmatiskt kan hantera nästan alla aspekter av plattformen. REST API-servern körs i kontrollplanet och tillhandahåller en enhetlig slutpunkt för hantering av Azure Databricks-plattformen.

REST-API:et ger den lägsta integreringsnivån som alltid kan användas. Det bästa sättet att integrera med Azure Databricks är dock att använda abstraktioner på högre nivå, till exempel Databricks SDK:er eller CLI-verktyg. CLI-verktyg är skalbaserade och möjliggör enkel integrering av Databricks-plattformen i CI/CD- och MLOps-arbetsflöden.

Använda optimerade anslutningsappar för att mata in datakällor i lakehouse

Azure Databricks erbjuder en mängd olika sätt att hjälpa dig att mata in data i Delta Lake.

  • Databricks tillhandahåller optimerade anslutningsappar för strömmande meddelandetjänster , till exempel Apache Kafka för datainmatning i nära realtid.

  • Databricks tillhandahåller inbyggda integreringar till många molnbaserade datasystem och utökningsbart JDBC-stöd för att ansluta till andra datasystem.

  • Ett alternativ för att integrera datakällor utan ETL är Lakehouse Federation. Lakehouse Federation är frågefederationsplattformen för Databricks. Termen frågefederation beskriver en samling funktioner som gör att användare och system kan köra frågor mot flera datakällor utan att behöva migrera alla data till ett enhetligt system. Databricks använder Unity Catalog för att hantera frågefederation. Unity Catalogs verktyg för datastyrning, och datahärledning säkerställer att dataåtkomst hanteras och granskas för alla federerade frågor som körs av användare i dina arbetsytor på Databricks.

    Kommentar

    Alla frågor i Databricks-plattformen som använder en Lakehouse Federation-källa skickas till den källan. Kontrollera att källsystemet kan hantera belastningen. Tänk också på att om källsystemet distribueras i en annan molnregion eller ett annat moln, finns det en utgående kostnad för varje fråga.

    Överväg att avlasta åtkomst till underliggande databaser via materialiserade vyer för att undvika hög/samtidig belastning på driftdatabaser och minska utgående kostnader.

Använda certifierade partnerverktyg

Organisationer har olika behov och inget enskilt verktyg kan uppfylla dem alla. Med Partner Connect kan du utforska och enkelt integrera med våra partner, som täcker alla aspekter av lakehouse: datainmatning, förberedelse och omvandling, BI och visualisering, maskininlärning, datakvalitet med mera. Med Partner Connect kan du skapa utvärderingskonton med valda Databricks-teknikpartner och ansluta din Azure Databricks-arbetsyta till partnerlösningar från Azure Databricks-användargränssnittet. Prova partnerlösningar med dina data i Databricks Lakehouse och anta sedan de lösningar som bäst uppfyller dina affärsbehov.

Minska komplexiteten i datateknikpipelines

Genom att investera i att minska komplexiteten i datateknikpipelines kan skalbarhet, flexibilitet och flexibilitet utökas och förnyas snabbare. Förenklade pipelines gör det enklare att hantera och anpassa alla driftbehov i en datateknikpipeline: uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering.

Delta Live Tables är ett ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines. Du definierar de transformeringar som du vill utföra på dina data, och Delta Live Tables hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. Se Vad är Delta Live Tables?.

Automatisk inläsning bearbetar inkrementellt och effektivt nya datafiler när de tas emot i molnlagringen. Den kan läsa datafiler från molnlagring på ett tillförlitligt sätt. En viktig aspekt av både Delta Live Tables och Auto Loader är deras deklarativa karaktär: Utan dem måste man skapa komplexa pipelines som integrerar olika molntjänster – till exempel en meddelandetjänst och en kötjänst – för att på ett tillförlitligt sätt läsa molnfiler baserat på händelser och på ett tillförlitligt sätt kombinera batch- och strömningskällor.

Auto Loader och Delta Live Tables minskar systemberoenden och komplexiteten och förbättrar avsevärt samverkan med molnlagringen och mellan olika paradigm som batch och strömning. Som en bieffekt ökar enkelheten i pipelines plattformens användbarhet.

Använda infrastruktur som kod (IaC) för distributioner och underhåll

HashiCorp Terraform är ett populärt verktyg med öppen källkod för att skapa säker och förutsägbar molninfrastruktur mellan flera molnleverantörer. Se Operational Excellence: Använda infrastruktur som kod för distributioner och underhåll

2. Använda öppna gränssnitt och öppna dataformat

Använda öppna dataformat

Att använda ett öppet dataformat innebär att det inte finns några begränsningar för dess användning. Detta är viktigt eftersom det tar bort hinder för att komma åt och använda data för analys och driva affärsinsikter. Öppna format, till exempel de som bygger på Apache Spark, lägger också till funktioner som ökar prestandan med stöd för ACID-transaktioner, enhetlig strömning och batchdatabearbetning. Dessutom är öppen källkod community-driven, vilket innebär att communityn ständigt arbetar med att förbättra befintliga funktioner och lägga till nya, vilket gör det lättare för användarna att få ut mesta möjliga av sina projekt.

Det primära dataformatet som används i Data Intelligence Platform är Delta Lake, ett helt öppet dataformat som erbjuder många fördelar, från tillförlitlighetsfunktioner till prestandaförbättringar, se Använda ett dataformat som stöder ACID-transaktioner och bästa praxis för prestandaeffektivitet.

På grund av sin öppna natur levereras Delta Lake med ett stort ekosystem. Dussintals verktyg och program från tredje part stöder Delta Lake.

För att ytterligare förbättra samverkan kan du med Delta Universal Format (UniForm) läsa Delta-tabeller med Iceberg-läsarklienter. UniForm genererar automatiskt Iceberg-metadata asynkront, utan att skriva om data, så att Iceberg-klienter kan läsa Delta-tabeller som om de vore Isbergstabeller. En enda kopia av datafilerna hanterar båda formaten.

Aktivera säker data- och AI-delning för alla datatillgångar

Att dela data och AI-tillgångar kan leda till bättre samarbete och beslutsfattande. Men när du delar data är det viktigt att behålla kontrollen, skydda dina data och säkerställa efterlevnad av relevanta lagar och föreskrifter för datadelning.

Deltadelning är ett öppet protokoll som utvecklats av Databricks för säker delning av data med andra organisationer, oavsett vilka beräkningsplattformar de använder. Om du vill dela data med användare utanför din Databricks-arbetsyta, oavsett om de använder Databricks, kan du använda öppna Deltadelning för att dela dina data på ett säkert sätt. Om du vill dela data med användare som har en Databricks-arbetsyta som är aktiverad för Unity Catalog kan du använda Databricks-till-Databricks Delta Sharing.

I båda fallen kan du dela tabeller, vyer, volymer, modelleroch notebooks.

  • Använd det öppna deltadelningsprotokollet för att dela data med partner.

    Deltadelning är en öppen lösning för säker delning av livedata från ditt lakehouse till alla databehandlingsplattformar. Mottagarna behöver inte finnas på Databricks-plattformen, i samma moln eller i något moln alls. Deltadelning integreras inbyggt med Unity Catalog, vilket gör det möjligt för organisationer att centralt hantera och granska och revidera delade data och AI-tillgångar i hela företaget och dela data och AI-tillgångar som uppfyller säkerhets- och regelefterlevnadskraven.

    Dataleverantörer kan dela livedata och AI-modeller där de lagras i dataplattformen utan att replikera eller flytta dem till ett annat system. Den här metoden minskar driftskostnaderna för data- och AI-delning eftersom dataleverantörer inte behöver replikera data flera gånger i moln, geografiska områden eller dataplattformar till var och en av sina datakonsumenter.

  • Använd Databricks-till-Databricks Delta-delning mellan Databricks-användare.

    Om du vill dela data med användare som inte har åtkomst till ditt Unity Catalog-metaarkiv kan du använda Databricks-to-Databricks Delta Sharing, så länge mottagarna har åtkomst till en Databricks-arbetsyta som är aktiverad för Unity Catalog. Med databricks-till-Databricks-delning kan du dela data med användare i andra Databricks-konton, i molnregioner och mellan molnleverantörer. Det är ett bra sätt att på ett säkert sätt dela data över olika Unity Catalog-metaarkiv i ditt eget Databricks-konto.

Använda öppna standarder för ml-livscykelhantering

Precis som med ett öppen källkod dataformat har användning av öppna standarder för dina AI-arbetsflöden liknande fördelar när det gäller flexibilitet, flexibilitet, kostnad och säkerhet.

MLflow är en öppen källkod plattform för att hantera ML- och AI-livscykeln. Databricks erbjuder en fullständigt hanterad och värdbaserad version av MLflow, integrerad med företagssäkerhetsfunktioner, hög tillgänglighet och andra Databricks-arbetsytefunktioner som experiment- och körningshantering och granskningsspårning av notebook-filer.

De primära komponenterna är experimentspårning för att automatiskt logga och spåra ML- och djupinlärningsmodeller, modeller som standardformat för att paketera maskininlärningsmodeller, ett modellregister integrerat med Unity Catalog och den skalbara modellen i företagsklass som betjänar.

3. Förenkla implementeringen av nya användningsfall

Tillhandahålla en självbetjäningsupplevelse på hela plattformen

Det finns flera fördelar med en plattform där användarna har självständighet att använda verktygen och funktionerna beroende på deras behov. Genom att investera i att skapa en självbetjäningsplattform blir det enkelt att skala för att betjäna fler användare och öka effektiviteten genom att minimera behovet av mänskligt engagemang för att etablera användare, lösa problem och bearbeta åtkomstbegäranden.

Databricks Data Intelligence Platform har alla funktioner som behövs för att tillhandahålla en självbetjäningsupplevelse. Även om det kan finnas ett obligatoriskt godkännandesteg är bästa praxis att automatisera konfigurationen fullt ut när en affärsenhet begär åtkomst till lakehouse. Etablera automatiskt sin nya miljö, synkronisera användare och använda enkel inloggning för autentisering, ge åtkomstkontroll till delade data och separata objektlager för sina egna data och så vidare. Tillsammans med en central datakatalog med semantiskt konsekventa och affärsklara datamängder kan nya affärsenheter snabbt och säkert komma åt lakehouse-funktioner och de data de behöver.

Använda serverlös beräkning

För serverlös beräkning på Azure Databricks-plattformen körs beräkningslagret i kundens Databricks-konto. Molnadministratörer behöver inte längre hantera komplexa molnmiljöer som kräver justering av kvoter, skapande och underhåll av nätverksresurser och anslutning till faktureringskällor. Användare drar nytta av nästan noll svarstid för klusterstart och förbättrad samtidighet i frågor.

Använda fördefinierade beräkningsmallar

Fördefinierade mallar hjälper till att styra hur beräkningsresurser kan användas eller skapas av användare: Begränsa skapandet av användarkluster till föreskrivna inställningar eller ett visst nummer, förenkla användargränssnittet eller kontrollera kostnaderna genom att begränsa den maximala kostnaden per kluster.

Data Intelligence Platform gör detta på två sätt:

  • Ange delade kluster som omedelbara miljöer för användare. I dessa kluster använder du automatisk skalning ned till ett mycket minimalt antal noder för att undvika höga inaktiva kostnader.
  • För en standardiserad miljö använder du beräkningsprinciper för att begränsa klusterstorlek eller funktioner eller för att definiera kluster i t-shirtstorlek (S, M, L).

Använda AI-funktioner för att öka produktiviteten

Förutom att öka produktiviteten kan AI-verktyg också hjälpa till att identifiera mönster i fel och ge ytterligare insikter baserat på indata. Att införliva dessa verktyg i utvecklingsprocessen kan på det hela taget avsevärt minska felen och underlätta beslutsfattandet, vilket leder till snabbare lanseringstid.

Databricks IQ, den AI-drivna kunskapsmotorn, är kärnan i Data Intelligence Platform. Den använder Unity Catalog-metadata för att förstå dina tabeller, kolumner, beskrivningar och populära datatillgångar i organisationen för att leverera anpassade svar. Det möjliggör flera funktioner som förbättrar produktiviteten när du arbetar med plattformen, till exempel:

  • Med Databricks Assistant kan du köra frågor mot data via ett konversationsgränssnitt, vilket gör dig mer produktiv i Databricks. Beskriv din uppgift på engelska och låt guiden generera SQL-frågor, förklara komplex kod och åtgärda fel automatiskt.
  • AI-genererade kommentarer för tabell- eller tabellkolumner som hanteras av Unity Catalog påskyndar metadatahanteringsprocessen. AI-modeller är dock inte alltid korrekta och kommentarer måste granskas innan de sparas. Databricks rekommenderar starkt mänsklig granskning av AI-genererade kommentarer för att söka efter felaktigheter.

4. Säkerställa datakonsekvens och användbarhet

Erbjuda återanvändbara data som produkter som företaget kan lita på

Organisationer som vill bli AI- och datadrivna behöver ofta förse sina interna team med högkvalitativa och tillförlitliga data. En metod för att prioritera kvalitet och användbarhet är att tillämpa produkttänkande på dina publicerade datatillgångar genom att skapa väldefinierade "dataprodukter". Genom att skapa sådana dataprodukter säkerställs att organisationer upprättar standarder och en betrodd grund för affärssanning för sina data- och AI-mål. Dataprodukter levererar slutligen värde när användare och program har rätt data, vid rätt tidpunkt, med rätt kvalitet, i rätt format. Även om detta värde traditionellt har realiserats i form av effektivare åtgärder genom lägre kostnader, snabbare processer och minskad risk, kan moderna dataprodukter också bana väg för nya mervärdeserbjudanden och möjligheter till datadelning inom en organisations bransch eller partnerekosystem.

Se blogginlägget Skapa högkvalitativa och betrodda dataprodukter med Databricks.

Publicera dataprodukter semantiskt konsekventa i hela företaget

En datasjö innehåller vanligtvis data från flera källsystem. Dessa system kan ha olika namn för samma begrepp (t.ex. kund jämfört med konto) eller använda samma identifierare för att referera till olika begrepp. För att företagsanvändare enkelt ska kunna kombinera dessa datauppsättningar på ett meningsfullt sätt måste data göras homogena mellan alla källor för att vara semantiskt konsekventa. För att vissa data ska vara värdefulla för analys måste dessutom interna affärsregler, till exempel intäktsredovisning, tillämpas korrekt. För att säkerställa att alla användare använder korrekt tolkade data måste datauppsättningar med dessa regler göras tillgängliga och publiceras i Unity Catalog. Åtkomst till källdata måste begränsas till team som förstår rätt användning.

Ange en central katalog för identifiering och ursprung

En central katalog för identifiering och ursprung hjälper datakonsumenter att komma åt data från flera källor i företaget, vilket minskar driftkostnaderna för det centrala styrningsteamet.

I Unity Catalog hanterar administratörer och dataförvaltare användare och deras åtkomst till data centralt på alla arbetsytor i ett Azure Databricks-konto. Användare på olika arbetsytor kan dela samma data och kan, beroende på de användarbehörigheter som ges centralt i Unity Catalog, komma åt data tillsammans.

För dataidentifiering stöder Unity Catalog användare med funktioner som:

  • Catalog Explorer är det primära användargränssnittet för många Unity Catalog-funktioner. Du kan använda Katalogutforskaren för att visa schemainformation, förhandsgranska exempeldata och visa tabellinformation och egenskaper. Administratörer kan visa och ändra ägare, och administratörer och ägare av dataobjekt kan bevilja och återkalla behörigheter. Du kan också använda Databricks Search, som gör det möjligt för användare att enkelt och smidigt hitta datatillgångar (till exempel tabeller, kolumner, vyer, instrumentpaneler, modeller och så vidare). Användare visas resultat som är relevanta för deras sökförfrågningar och som de har åtkomst till.
  • Dataursprung över alla frågor körs i ett Azure Databricks-kluster eller SQL-lager. Linjäritetsstöd finns för alla språk och fångas ner till kolumnnivån. Härkomstdata omfattar notebook-filer, jobb och instrumentpaneler som är relaterade till frågan. Ursprung kan visualiseras i Katalogutforskaren nästan i realtid och hämtas med Azure Databricks REST API.

För att göra det möjligt för företag att ge sina användare en holistisk vy över alla dataplattformar tillhandahåller Unity Catalog integrering med företagsdatakataloger (kallas ibland "katalogkatalogen").