Føj en lakehouse-destination til en eventstream
I denne artikel kan du se, hvordan du føjer et lakehouse som destination til en eventstream i Microsoft Fabric-hændelsesstrømme. Hvis du vil have optimeret streamingydeevne og forespørgsler i realtid, kan du overveje at streame data til et Eventhouse med føje Eventhouse-destinationen til en eventstream og derefter aktivere Eventhouse OneLake-tilgængelighed.
Bemærk
Forbedrede funktioner aktiveres som standard, når du opretter eventstreams nu. Hvis du har hændelsesstreams, der er oprettet ved hjælp af standardfunktioner, fungerer disse hændelsesstreams fortsat. Du kan stadig redigere og bruge dem som normalt. Vi anbefaler, at du opretter en ny hændelsesstream for at erstatte standardhændelsesstreams, så du kan drage fordel af yderligere funktioner og fordele ved forbedrede hændelsesstreams.
Vigtigt
Der er skemahåndhævelse til skrivning af data til en lakehouse-destinationstabel. Alle nye skrivninger til tabellen skal være kompatible med måltabellens skema på skrivetidspunktet, så datakvaliteten sikres.
Når output skrives til en ny deltatabel, oprettes tabelskemaet på baggrund af den første post. Alle poster i outputdataene projekteres på skemaet i den eksisterende tabel.
Hvis de indgående data indeholder kolonner, der ikke findes i det eksisterende tabelskema, medtages de ekstra kolonner ikke i de data, der skrives til tabellen. Hvis de indgående data mangler kolonner, der findes i det eksisterende tabelskema, skriver de manglende kolonner på samme måde til tabellen, hvor værdierne er angivet til null.
Forudsætninger
- Adgang til et arbejdsområde i Fabric-kapacitetslicenstilstand (eller) prøvelicenstilstand med bidragydertilladelser eller højere tilladelser.
- Adgang til det arbejdsområde, hvor dit lakehouse er placeret med tilladelsen Bidragyder eller højere.
Bemærk
Det maksimale antal kilder og destinationer for én hændelsesstream er 11.
Tilføj et lakehouse som destination
Hvis du vil føje en lakehouse-destination til en standardhændelsesstrøm eller en afledt hændelsesstrøm, skal du følge disse trin.
I tilstanden Edit for your eventstream skal du vælge Tilføj destination på båndet og vælge Lakehouse på rullelisten.
Forbind lakehousenoden til din streamnode eller -operator.
Udfyld følgende oplysninger på konfigurationsskærmen i Lakehouse :
- Angiv et destinationsnavn.
- Vælg det arbejdsområde , der indeholder dit lakehouse.
- Vælg et eksisterende Lakehouse fra det arbejdsområde, du har angivet.
- Vælg en eksisterende Delta-tabel, eller opret en ny for at modtage data.
- Vælg det inputdataformat , der sendes til din lakehouse. De understøttede dataformater er JSON, Avro og CSV (med header).
Vælg Avanceret.
To indtagelsestilstande er tilgængelige for en lakehouse-destination. På baggrund af dit scenarie skal du konfigurere disse tilstande for at optimere, hvordan Fabric-hændelsesstrømme skriver til lakehouse.
Minimumrækker er det mindste antal rækker, som lakehouse-indfødningerne i en enkelt fil. Minimum er 1 række, og maksimum er 2 millioner rækker pr. fil. Jo mindre det mindste antal rækker er, jo flere filer opretter lakehouse'et under indtagelse.
Den maksimale varighed er den maksimale varighed, som lakehouse'et tager at indtage en enkelt fil. Minimum er 1 minut og maksimum 2 timer. Jo længere varigheden er, jo flere rækker indtages i en fil.
Vælg Gem.
Hvis du vil implementere destinationen for det nytilkomne lakehouse, skal du vælge Publicer.
Når du har fuldført disse trin, er lakehouse-destinationen tilgængelig til visualisering i livevisning. I ruden Detaljer kan du vælge tabellen Optimer i genvejen til notesbogen for at starte et Apache Spark-job i en notesbog, som konsoliderer de små streamingfiler i mål lakehouse-tabellen.
Relateret indhold
Du kan få mere at vide om, hvordan du føjer andre destinationer til en eventstream, i følgende artikler:
Forudsætninger
Før du starter, skal du fuldføre følgende forudsætninger:
- Adgang til et arbejdsområde i Fabric-kapacitetslicenstilstand (eller) prøvelicenstilstand med bidragydertilladelser eller højere tilladelser.
- Få adgang til et arbejdsområde med bidragydertilladelser eller nyere, hvor dit lakehouse er placeret.
Bemærk
Det maksimale antal kilder og destinationer for én hændelsesstream er 11.
Tilføj et lakehouse som destination
Hvis du har oprettet et lakehouse i dit arbejdsområde, skal du følge disse trin for at føje lakehouse til din eventstream som en destination:
Vælg Ny destination på båndet eller "+" på hovededitorens lærred, og vælg derefter Lakehouse. Konfigurationsskærmen for Lakehouse-destinationen vises.
Angiv et navn til destinationen for eventstreamen, og udfyld oplysningerne om dit lakehouse.
Lakehouse: Vælg et eksisterende lakehouse fra det angivne arbejdsområde.
Deltatabel: Vælg en eksisterende deltatabel, eller opret en ny for at modtage data.
Bemærk
Når du skriver data i lakehouse-tabellen, gennemtvinges skemaet. Det betyder, at alle nye skrivninger til en tabel skal være kompatible med måltabellens skema på skrivetidspunktet, så datakvaliteten sikres.
Alle poster i outputdataene projekteres på skemaet i den eksisterende tabel. Når du skriver outputtet til en ny deltatabel, oprettes tabelskemaet på baggrund af den første post. Hvis de indgående data har en ekstra kolonne sammenlignet med det eksisterende tabelskema, skrives der til tabellen uden at medtage den ekstra kolonne. Omvendt, hvis de indgående data mangler en kolonne sammenlignet med det eksisterende tabelskema, skrives der til tabellen, hvor kolonnens værdi er angivet til null.
Inputdataformat: Vælg formatet for de data (inputdata), der sendes til dit lakehouse.
Bemærk
De understøttede dataformater for inputhændelser er JSON, Avro og CSV (med header).
Hændelsesbehandling: Du kan bruge editoren til behandling af hændelser til at angive, hvordan dataene skal behandles, før du sender dem til dit lakehouse. Vælg Åbn hændelsesbehandler for at åbne redigeringsprogrammet til hændelsesbehandling. Hvis du vil vide mere om behandling i realtid ved hjælp af hændelsesbehandleren, skal du se Behandl hændelsesdata med hændelsesbehandlereditor. Når du er færdig med editoren, skal du vælge Udført for at vende tilbage til konfigurationsskærmen for Lakehouse-destinationen .
To indtagelsestilstande er tilgængelige for en lakehouse-destination. Vælg en af disse tilstande for at optimere, hvordan funktionen Fabric-hændelsesstrømme skriver til lakehouse baseret på dit scenarie.
Rækker pr. fil – det mindste antal rækker, som Lakehouse indtager i en enkelt fil. Jo mindre det mindste antal rækker er, jo flere filer opretter Lakehouse under indtagelse. Minimum er 1 række. Maksimum er 2.000.000 rækker pr. fil.
Duration – den maksimale varighed, som Lakehouse ville tage for at indtage en enkelt fil. Jo længere varigheden er, indtages flere rækker i en fil. Minimum er 1 minut, og maksimum er 2 timer.
Vælg Tilføj for at tilføje lakehouse-destinationen.
Genvej til tabeloptimering, der er tilgængelig i lakehouse-destinationen. Denne løsning gør det nemmere for dig at starte et Spark-job i en notesbog, som konsoliderer disse små streamingfiler i lakehouse-måltabellen.
Der vises en lakehouse-destination på lærredet med en roterende statusindikator. Systemet tager et par minutter at ændre status til Aktiv.
Administrer en destination
Rediger/fjern: Du kan redigere eller fjerne en eventstream-destination enten via navigationsruden eller lærredet.
Når du vælger Rediger, åbnes redigeringsruden i højre side af hovededitoren. Du kan ændre konfigurationen, som du ønsker, herunder hændelsestransformationslogikken via hændelsesbehandlereditoren.
Relateret indhold
Du kan få mere at vide om, hvordan du føjer andre destinationer til en eventstream, i følgende artikler: