Utforska Microsoft Fabric Lakehouse

Slutförd

Ett lakehouse presenteras som en databas och bygger på en datasjö med hjälp av Delta-formattabeller. Lakehouses kombinerar SQL-baserade analysfunktioner i ett relationsdatalager och flexibiliteten och skalbarheten hos en datasjö. Lakehouses lagrar alla dataformat och kan användas med olika analysverktyg och programmeringsspråk. Som molnbaserade lösningar kan sjöhus skalas automatiskt och ge hög tillgänglighet och haveriberedskap.

Diagram över ett sjöhus som visar mappstrukturen för en datasjö och relationsfunktionerna i ett informationslager.

Några fördelar med ett sjöhus är:

  • Lakehouses använder Spark- och SQL-motorer för att bearbeta storskaliga data och stödja maskininlärning eller förutsägelsemodelleringsanalys.
  • Lakehouse-data är ordnade i ett schema-on-read-format, vilket innebär att du definierar schemat efter behov i stället för att ha ett fördefinierat schema.
  • Lakehouses stöder ACID-transaktioner (atomicitet, konsekvens, isolering, hållbarhet) via Delta Lake-formaterade tabeller för datakonsekvens och integritet.
  • Lakehouses är en enda plats där datatekniker, dataforskare och dataanalytiker kan komma åt och använda data.

Ett lakehouse är ett bra alternativ om du vill ha en skalbar analyslösning som upprätthåller datakonsekvens. Det är viktigt att utvärdera dina specifika krav för att avgöra vilken lösning som passar bäst.

Läsa in data i ett sjöhus

Infrastruktursjöhus är ett centralt element för din analyslösning. Du kan följa ETL-processen (extrahera, transformera, läsa in) för att mata in och transformera data innan du läser in till lakehouse.

Du kan mata in data i många vanliga format från olika källor, inklusive lokala filer, databaser eller API:er. Du kan också skapa genvägar för infrastrukturresurser till data i externa källor, till exempel Azure Data Lake Store Gen2 eller OneLake. Använd Lakehouse Explorer för att bläddra bland filer, mappar, genvägar och tabeller och visa deras innehåll i Fabric-plattformen.

Inmatade data kan transformeras och sedan läsas in med hjälp av antingen Apache Spark med notebook-filer eller Dataflöden Gen2. Använd Data Factory-pipelines för att orkestrera dina olika ETL-aktiviteter och landa förberedda data i ditt lakehouse.

Kommentar

Dataflöden Gen2 baseras på Power Query – ett välbekant verktyg för dataanalytiker som använder Excel eller Power BI som tillhandahåller visuell representation av transformeringar som ett alternativ till traditionell programmering.

Du kan använda ditt sjöhus av många skäl, bland annat:

  • Analysera med SQL.
  • Träna maskininlärningsmodeller.
  • Utföra analys på realtidsdata.
  • Utveckla rapporter i Power BI.

Säkra ett sjöhus

Lakehouse-åtkomst hanteras antingen via arbetsytan eller delning på objektnivå. Arbetsyteroller bör användas för medarbetare eftersom dessa roller ger åtkomst till alla objekt på arbetsytan. Delning på objektnivå används bäst för att bevilja åtkomst för skrivskyddade behov, till exempel analys eller Power BI-rapportutveckling.

Infrastruktur lakehouses stöder även funktioner för datastyrning, inklusive känslighetsetiketter, och kan utökas med hjälp av Microsoft Purview med din Fabric-klientorganisation.

Kommentar

Mer information finns i dokumentationen om säkerhet i Microsoft Fabric .