Arbeta med Microsoft Fabric Lakehouses
Nu när du förstår kärnfunktionerna i ett Microsoft Fabric Lakehouse ska vi utforska hur du arbetar med en.
Skapa och utforska ett sjöhus
När du skapar ett nytt lakehouse har du tre olika dataobjekt som skapas automatiskt på din arbetsyta.
- Lakehouse innehåller genvägar, mappar, filer och tabeller.
- Semantisk modell (standard) tillhandahåller en enkel datakälla för Power BI-rapportutvecklare.
- SQL-analysslutpunkten tillåter skrivskyddad åtkomst för att köra frågor mot data med SQL.
Du kan arbeta med data i lakehouse i två lägen:
- lakehouse gör att du kan lägga till och interagera med tabeller, filer och mappar i lakehouse.
- Med SQL-analysslutpunkten kan du använda SQL för att fråga tabellerna i lakehouse och hantera dess relationssemantiska modell.
Mata in data i ett sjöhus
Att mata in data i lakehouse är det första steget i ETL-processen. Använd någon av följande metoder för att föra in data i ditt sjöhus.
- Ladda upp: Ladda upp lokala filer.
- Dataflöden Gen2: Importera och transformera data med Power Query.
- Notebook-filer: Använd Apache Spark för att mata in, transformera och läsa in data.
- Data Factory-pipelines: Använd aktiviteten Kopiera data.
Dessa data kan sedan läsas in direkt i filer eller tabeller. Tänk på datainläsningsmönstret när du matar in data för att avgöra om du ska läsa in alla rådata som filer innan du bearbetar eller använder mellanlagringstabeller.
Spark-jobbdefinitioner kan också användas för att skicka batch-/direktuppspelningsjobb till Spark-kluster. Genom att ladda upp binära filer från kompileringsutdata från olika språk (till exempel .jar från Java) kan du tillämpa olika transformeringslogik på data som finns i ett sjöhus. Förutom den binära filen kan du ytterligare anpassa jobbets beteende genom att ladda upp fler bibliotek och kommandoradsargument.
Kommentar
Mer information finns i dokumentationen skapa en Apache Spark-jobbdefinition .
Komma åt data med genvägar
Ett annat sätt att komma åt och använda data i Fabric är att använda genvägar. Med genvägar kan du integrera data i lakehouse samtidigt som de lagras i extern lagring.
Genvägar är användbara när du behöver källdata som finns i ett annat lagringskonto eller till och med en annan molnleverantör. I ditt lakehouse kan du skapa genvägar som pekar på olika lagringskonton och andra infrastrukturobjekt som informationslager, KQL-databaser och andra sjöhus.
Källdatabehörigheter och autentiseringsuppgifter hanteras alla av OneLake. När du kommer åt data via en genväg till en annan OneLake-plats används identiteten för den anropande användaren för att auktorisera åtkomst till data i målsökvägen för genvägen. Användaren måste ha behörigheter på målplatsen för att kunna läsa data.
Genvägar kan skapas i både lakehouses och KQL-databaser och visas som en mapp i sjön. På så sätt kan Spark, SQL, Realtidsinformation och Analysis Services använda genvägar när du frågar efter data.
Kommentar
Mer information om hur du använder genvägar finns i Dokumentation om OneLake-genvägar i Microsoft Fabric-dokumentationen.