Microsoft Fabric-terminologi
Lär dig definitionerna av termer som används i Microsoft Fabric, inklusive termer som är specifika för Fabric Data Warehouse, Fabric Dataingenjör ing, Fabric Datavetenskap, Realtidsinformation, Data Factory och Power BI.
Allmänna villkor
Kapacitet: Kapacitet är en dedikerad uppsättning resurser som är tillgänglig vid en viss tidpunkt som ska användas. Kapacitet definierar möjligheten för en resurs att utföra en aktivitet eller att producera utdata. Olika objekt förbrukar olika kapacitet vid en viss tidpunkt. Fabric erbjuder kapacitet via Fabric SKU och Trials. Mer information finns i Vad är kapacitet?
Upplevelse: En samling funktioner som är riktade till en specifik funktion. Infrastrukturupplevelserna omfattar Fabric Data Warehouse, Fabric Dataingenjör ing, Fabric Datavetenskap, Realtidsinformation, Data Factory och Power BI.
Objekt: Ett objekt en uppsättning funktioner i en upplevelse. Användare kan skapa, redigera och ta bort dem. Varje objekttyp har olika funktioner. Till exempel innehåller Dataingenjör ing-upplevelsen definitionsobjekten lakehouse, notebook och Spark.
Klientorganisation: En klientorganisation är en enda instans av Infrastrukturresurser för en organisation och är i linje med ett Microsoft Entra-ID.
Arbetsyta: En arbetsyta är en samling objekt som sammanför olika funktioner i en enda miljö som är utformad för samarbete. Den fungerar som en container som använder kapacitet för det arbete som körs och tillhandahåller kontroller för vem som kan komma åt objekten i den. På en arbetsyta kan användarna till exempel skapa rapporter, notebook-filer, semantiska modeller osv. Mer information finns i artikeln Arbetsytor .
Infrastrukturresurser Dataingenjör
Lakehouse: Ett lakehouse är en samling filer, mappar och tabeller som representerar en databas över en datasjö som används av Apache Spark-motorn och SQL-motorn för bearbetning av stordata. Ett lakehouse innehåller förbättrade funktioner för ACID-transaktioner när du använder deltaformaterade tabeller med öppen källkod. Lakehouse-objektet finns i en unik arbetsytemapp i Microsoft OneLake. Den innehåller filer i olika format (strukturerade och ostrukturerade) ordnade i mappar och undermappar. Mer information finns i Vad är ett sjöhus?
Notebook: A Fabric Notebook är ett interaktivt programmeringsverktyg med flera språk med omfattande funktioner. Bland annat redigering av kod och markdown, körning och övervakning av ett Spark-jobb, visning och visualisering av resultat samt samarbete med teamet. Det hjälper datatekniker och dataforskare att utforska och bearbeta data och skapa maskininlärningsexperiment med både kod- och lågkodsupplevelse. Det kan enkelt omvandlas till en pipelineaktivitet för orkestrering.
Spark-program: Ett Apache Spark-program är ett program som skrivits av en användare med något av Sparks API-språk (Scala, Python, Spark SQL eller Java) eller Microsoft-tillagda språk (.NET med C# eller F#). När ett program körs delas det upp i ett eller flera Spark-jobb som körs parallellt för att bearbeta data snabbare. Mer information finns i Övervakning av Spark-program.
Apache Spark-jobb: Ett Spark-jobb är en del av ett Spark-program som körs parallellt med andra jobb i programmet. Ett jobb består av flera aktiviteter. Mer information finns i Spark-jobbövervakning.
Apache Spark-jobbdefinition: En Spark-jobbdefinition är en uppsättning parametrar som anges av användaren och anger hur ett Spark-program ska köras. Det gör att du kan skicka batch- eller direktuppspelningsjobb till Spark-klustret. Mer information finns i Vad är en Apache Spark-jobbdefinition?
V-order: En skrivoptimering till parquet-filformatet som möjliggör snabb läsning och ger kostnadseffektivitet och bättre prestanda. Alla Fabric-motorer skriver v-ordnade parquet-filer som standard.
Data Factory
Anslutningsprogram: Data Factory erbjuder en omfattande uppsättning anslutningsappar som gör att du kan ansluta till olika typer av datalager. När du är ansluten kan du transformera data. Mer information finns i anslutningsappar.
Datapipeline: I Data Factory används en datapipeline för att samordna dataflytt och transformering. Dessa pipelines skiljer sig från distributionspipelines i Infrastrukturresurser. Mer information finns i Pipelines i Översikt över Data Factory.
Dataflöde Gen2: Dataflöden ger ett lågkodsgränssnitt för att mata in data från hundratals datakällor och transformera dina data. Dataflöden i infrastrukturresurser kallas Dataflöde Gen2. Dataflöde Gen1 finns i Power BI. Dataflöde Gen2 erbjuder extra funktioner jämfört med dataflöden i Azure Data Factory eller Power BI. Du kan inte uppgradera från Gen1 till Gen2. Mer information finns i Dataflöden i översikten över Data Factory.
Utlösare: En automatiseringsfunktion i Data Factory som initierar pipelines baserat på specifika villkor, till exempel scheman eller datatillgänglighet.
Infrastrukturresurser Datavetenskap
Data Wrangler: Data Wrangler är ett notebook-baserat verktyg som ger användarna en uppslukande upplevelse för att utföra undersökande dataanalys. Funktionen kombinerar en rutnätsliknande datavisning med dynamisk sammanfattningsstatistik och en uppsättning vanliga datarensningsåtgärder, alla tillgängliga med några valda ikoner. Varje åtgärd genererar kod som kan sparas tillbaka till notebook-filen som ett återanvändbart skript.
Experiment: Ett maskininlärningsexperiment är den primära enheten för organisation och kontroll för alla relaterade maskininlärningskörningar. Mer information finns i Maskininlärningsexperiment i Microsoft Fabric.
Modell: En maskininlärningsmodell är en fil som tränats att identifiera vissa typer av mönster. Du tränar en modell över en uppsättning data och ger den en algoritm som den använder för att resonera över och lära sig av den datauppsättningen. Mer information finns i Maskininlärningsmodell.
Kör: En körning motsvarar en enda körning av modellkod. I MLflow baseras spårningen på experiment och körningar.
Infrastrukturdatalager
SQL-analysslutpunkt: Varje Lakehouse har en SQL-analysslutpunkt som gör att en användare kan köra frågor mot deltatabelldata med TSQL över TDS. Mer information finns i SQL-analysslutpunkten.
Fabric Data Warehouse: Fabric Data Warehouse fungerar som ett traditionellt informationslager och stöder de fullständiga transaktionella T-SQL-funktioner som du kan förvänta dig från ett företags informationslager. Mer information finns i Fabric Data Warehouse.
Realtidsinformation
Aktivator: Activator är ett verktyg med låg kod som gör att du kan skapa aviseringar, utlösare och åtgärder för dina data. Aktivator används för att skapa aviseringar i dina dataströmmar. Mer information finns i Aktivator.
Eventhouse: Eventhouses är en lösning för hantering och analys av stora mängder data, särskilt i scenarier som kräver analys och utforskning i realtid. De är utformade för att effektivt hantera dataströmmar i realtid, vilket gör att organisationer kan mata in, bearbeta och analysera data nästan i realtid. En enda arbetsyta kan innehålla flera Eventhouses, ett eventhouse kan innehålla flera KQL-databaser och varje databas kan innehålla flera tabeller. Mer information finns i Översikt över Eventhouse.
Eventstream: Funktionen Microsoft Fabric eventstreams tillhandahåller en central plats i Fabric-plattformen för att samla in, transformera och dirigera realtidshändelser till mål utan kod. En händelseström består av olika strömmande datakällor, inmatningsmål och en händelseprocessor när omvandlingen behövs. Mer information finns i Microsoft Fabric eventstreams.
KQL-databas: KQL-databasen innehåller data i ett format som du kan köra KQL-frågor mot. KQL-databaser är objekt under ett Eventhouse. Mer information finns i KQL-databasen.
KQL-frågeuppsättning: KQL-frågeuppsättningen är det objekt som används för att köra frågor, visa resultat och ändra frågeresultat på data från datautforskarens databas. Frågeuppsättningen innehåller databaser och tabeller, frågorna och resultaten. Med KQL Queryset kan du spara frågor för framtida användning eller exportera och dela frågor med andra. Mer information finns i Frågedata i KQL-frågeuppsättningen
Realtidshubb
- Realtidshubben: Realtidshubben är den enda platsen för alla data i rörelse i hela organisationen. Varje Microsoft Fabric-klientorganisation etableras automatiskt med hubben. Mer information finns i Översikt över realtidshubben.
OneLake
- Genväg: Genvägar är inbäddade referenser i OneLake som pekar på andra filarkivplatser. De ger ett sätt att ansluta till befintliga data utan att behöva kopiera dem direkt. Mer information finns i OneLake-genvägar.