Terminologie Microsoft Fabric
Seznamte se s definicemi termínů používaných v Microsoft Fabric, včetně termínů specifických pro Datový sklad Fabric, Datoví technici Fabric, Fabric Datová Věda, Inteligentní funkce v reálném čase, Data Factory a Power BI.
Obecné výrazy
Kapacita: Kapacita je vyhrazená sada prostředků, které jsou k dispozici v daném okamžiku, které se mají použít. Kapacita definuje schopnost prostředku provádět aktivitu nebo vytvářet výstup. Různé položky spotřebovávají v určitém okamžiku jinou kapacitu. Prostředky infrastruktury nabízejí kapacitu prostřednictvím skladové položky Fabric a zkušební verze. Další informace najdete v tématu Co je kapacita?
Zkušenosti: Kolekce funkcí cílených na konkrétní funkce. Prostředí prostředků infrastruktury zahrnují datový sklad prostředků infrastruktury, Datoví technici prostředků infrastruktury, Datová Věda prostředků infrastruktury, inteligenci v reálném čase, datovou továrnu a Power BI.
Položka: Položka, která je sadou funkcí v rámci prostředí. Uživatelé můžou vytvářet, upravovat a odstraňovat. Každý typ položky poskytuje různé možnosti. Prostředí Datoví technici zahrnuje například položky definice úlohy Lakehouse, poznámkového bloku a Sparku.
Tenant: Tenant je jedna instance prostředků infrastruktury pro organizaci a je v souladu s ID Microsoft Entra.
Pracovní prostor: Pracovní prostor je kolekce položek, která spojuje různé funkce v jednom prostředí navrženém pro spolupráci. Funguje jako kontejner, který používá kapacitu pro práci, která se provádí, a poskytuje ovládací prvky pro to, kdo má přístup k položkám v něm. Například v pracovním prostoru uživatelé vytvářejí sestavy, poznámkové bloky, sémantické modely atd. Další informace najdete v článku Pracovní prostory .
Datoví technici prostředků infrastruktury
Lakehouse: Lakehouse je kolekce souborů, složek a tabulek, které představují databázi přes datové jezero používané modulem Apache Spark a modulem SQL pro zpracování velkých objemů dat. Lakehouse zahrnuje vylepšené funkce pro transakce ACID při použití opensourcových tabulek s formátem Delta. Položka lakehouse je hostovaná v rámci jedinečné složky pracovního prostoru v Microsoft OneLake. Obsahuje soubory v různých formátech (strukturovaných a nestrukturovaných) uspořádaných do složek a podsložek. Další informace najdete v tématu Co je jezero?
Poznámkový blok: Poznámkový blok Fabric je multijazyčný interaktivní programovací nástroj s bohatými funkcemi. Patří sem vytváření kódu a markdownu, spouštění a monitorování úlohy Sparku, zobrazení a vizualizace výsledků a spolupráce s týmem. Pomáhá datovým inženýrům a datovým vědcům zkoumat a zpracovávat data a vytvářet experimenty strojového učení s kódem i prostředím s nízkým kódem. Dá se snadno transformovat na aktivitu kanálu pro orchestraci.
Aplikace Spark: Aplikace Apache Spark je program napsaný uživatelem pomocí jednoho z jazyků rozhraní API Sparku (Scala, Python, Spark SQL nebo Java) nebo jazyků s přidanými Microsoftem (.NET s C# nebo F#). Když se aplikace spustí, rozdělí se do jedné nebo několika úloh Sparku, které běží paralelně a zpracovávají data rychleji. Další informace najdete v tématu Monitorování aplikací Spark.
Úloha Apache Spark: Úloha Sparku je součástí aplikace Spark, která běží paralelně s jinými úlohami v aplikaci. Úloha se skládá z více úkolů. Další informace najdete v tématu Monitorování úloh Sparku.
Definice úlohy Apache Spark: Definice úlohy Sparku je sada parametrů nastavená uživatelem, která označuje, jak se má aplikace Spark spustit. Umožňuje odesílat dávkové nebo streamované úlohy do clusteru Spark. Další informace najdete v tématu Co je definice úlohy Apache Spark?
V-order: Optimalizace zápisu do formátu souboru parquet, která umožňuje rychlé čtení a poskytuje nákladovou efektivitu a lepší výkon. Všechny moduly Fabric ve výchozím nastavení zapisují soubory parquet v objednaných v.
Data Factory
Konektor: Data Factory nabízí bohatou sadu konektorů, které umožňují připojení k různým typům úložišť dat. Po připojení můžete data transformovat. Další informace najdete v konektorech.
Datový kanál: Ve službě Data Factory se datový kanál používá k orchestraci přesunu a transformace dat. Tyto kanály se liší od kanálů nasazení v prostředcích infrastruktury. Další informace najdete v tématu Kanály v přehledu služby Data Factory.
Tok dat Gen2: Toky dat poskytují rozhraní s nízkým kódem pro příjem dat ze stovek zdrojů dat a transformaci dat. Toky dat v prostředcích infrastruktury se označují jako Tok dat Gen2. Tok dat Gen1 existuje v Power BI. Tok dat Gen2 nabízí další funkce v porovnání s toky dat ve službě Azure Data Factory nebo Power BI. Z Gen1 na Gen2 nejde upgradovat. Další informace najdete v tématu Toky dat v přehledu služby Data Factory.
Trigger: Funkce automatizace ve službě Data Factory, která inicializuje kanály na základě konkrétních podmínek, jako jsou plány nebo dostupnost dat.
Datová Věda prostředků infrastruktury
Data Wrangler: Data Wrangler je nástroj založený na poznámkových blocích, který uživatelům poskytuje imerzivní prostředí pro provádění průzkumné analýzy dat. Tato funkce kombinuje zobrazení dat podobné mřížce s dynamickými souhrnnými statistikami a sadou běžných operací čištění dat, které jsou k dispozici s několika vybranými ikonami. Každá operace generuje kód, který lze uložit zpět do poznámkového bloku jako opakovaně použitelný skript.
Experiment: Experiment strojového učení je primární jednotkou organizace a řízením pro všechna související spuštění strojového učení. Další informace najdete v tématu Experimenty strojového učení v Microsoft Fabric.
Model: Model strojového učení je soubor natrénovaný tak, aby rozpoznal určité typy vzorů. Model vytrénujete přes sadu dat a poskytnete mu algoritmus, který používá k odůvodnění a učení se z této datové sady. Další informace najdete v tématu Model strojového učení.
Spuštění: Spuštění odpovídá jedinému spuštění kódu modelu. V MLflow je sledování založené na experimentech a spuštěních.
Datový sklad prostředků infrastruktury
Koncový bod analýzy SQL: Každý lakehouse má koncový bod analýzy SQL, který uživateli umožňuje dotazovat rozdílová data tabulek pomocí TSQL přes TDS. Další informace najdete v tématu Koncový bod analýzy SQL.
Datový sklad prostředků infrastruktury: Datový sklad prostředků infrastruktury funguje jako tradiční datový sklad a podporuje úplné transakční funkce T-SQL, které byste očekávali od podnikového datového skladu. Další informace najdete v tématu Datový sklad prostředků infrastruktury.
Analýza v reálném čase
Aktivátor: Aktivátor je nástroj bez kódu, který umožňuje vytvářet výstrahy, triggery a akce s vašimi daty. Aktivátor se používá k vytváření upozornění na datové streamy. Další informace naleznete v tématu Aktivace.
Eventhouse: Eventhouses poskytují řešení pro zpracování a analýzu velkých objemů dat, zejména ve scénářích vyžadujících analýzu a zkoumání v reálném čase. Jsou navržené tak, aby efektivně zpracovávaly datové proudy v reálném čase, což organizacím umožňuje ingestovat, zpracovávat a analyzovat data téměř v reálném čase. Jeden pracovní prostor může obsahovat více událostí, eventhouse může obsahovat více databází KQL a každá databáze může obsahovat více tabulek. Další informace najdete v tématu Přehled eventhouse.
Eventstream: Funkce EventStreams Microsoft Fabric poskytuje centralizované místo na platformě Fabric pro zachycení, transformaci a směrování událostí v reálném čase do cílů s prostředím bez kódu. Eventstream se skládá z různých streamovaných zdrojů dat, cílů příjmu dat a procesoru událostí v případě potřeby transformace. Další informace naleznete v tématu Microsoft Fabric eventstreams.
Databáze KQL: Databáze KQL obsahuje data ve formátu, na který můžete spouštět dotazy KQL. Databáze KQL jsou položky v rámci eventhouse. Další informace najdete v tématu Databáze KQL.
Sada dotazů KQL: Sada dotazů KQL je položka použitá ke spouštění dotazů, zobrazení výsledků a manipulaci s výsledky dotazů na data z databáze Průzkumníka dat. Sada dotazů zahrnuje databáze a tabulky, dotazy a výsledky. Sada dotazů KQL umožňuje ukládat dotazy pro budoucí použití nebo exportovat a sdílet dotazy s ostatními. Další informace naleznete v tématu Dotazování dat v KQL Queryset
Centrum v reálném čase
- Centrum v reálném čase: Centrum v reálném čase je jediné místo pro všechny přenosy dat v celé organizaci. Každý tenant Microsoft Fabric se automaticky zřídí s centrem. Další informace najdete v tématu Přehled centra v reálném čase.
OneLake
- Zkratka: Klávesové zkratky jsou vložené odkazy do OneLake, které odkazují na jiná umístění úložiště souborů. Poskytují způsob, jak se připojit k existujícím datům, aniž by je museli přímo kopírovat. Další informace najdete v tématu Klávesové zkratky OneLake.