Terminologie Microsoft Fabric
Seznamte se s definicemi termínů používaných v Microsoft Fabric, včetně termínů specifických pro Fabric Data Warehouse, Fabric Data Engineering, Fabric Data Science, Real-Time Intelligence, Data Factory a Power BI.
Obecné termíny
Kapacita: Kapacita je vyhrazená sada prostředků, které jsou k dispozici v daném okamžiku k použití. Kapacita definuje schopnost prostředku provádět aktivitu nebo vytvářet výstup. Různé položky spotřebovávají v určitém okamžiku jinou kapacitu. Fabric nabízí kapacitu prostřednictvím SKU Fabric a zkušebních verzí. Další informace najdete v tématu Co je kapacita?
Zkušenosti: soubor schopností zaměřených na konkrétní funkčnost. Prostředí Fabric zahrnují Datový sklad Fabric, Datové inženýrství Fabric, Datovou vědu Fabric, Real-Time Intelligence, Data Factory a Power BI.
Položka : je soubor funkcí v rámci prostředí. Uživatelé můžou vytvářet, upravovat a odstraňovat. Každý typ položky poskytuje různé možnosti. Prostředí přípravy dat například zahrnuje položky definice úlohy Lakehouse, poznámkového bloku a Sparku.
Tenant: Tenant je jedna instance služby Fabric pro organizaci a je v souladu s Microsoft Entra ID.
Pracovní prostor: Pracovní prostor je kolekce položek, která spojuje různé funkce v jednom prostředí navrženém pro spolupráci. Funguje jako kontejner, který používá kapacitu pro práci, která se provádí, a poskytuje ovládací prvky pro to, kdo má přístup k položkám v něm. Například v pracovních prostorech uživatelé vytvářejí sestavy, poznámkové bloky, sémantické modely atd. Další informace naleznete v článku Pracovní prostory.
Inženýrství datové struktury
Lakehouse: A lakehouse je kolekce souborů, složek a tabulek, které představují databázi přes datové jezero používané modulem Apache Spark a modulem SQL pro zpracování velkých objemů dat. Lakehouse zahrnuje vylepšené funkce pro transakce typu ACID při použití open-source tabulek s formátem Delta. Položka lakehouse je hostovaná v rámci jedinečné složky pracovního prostoru v Microsoft OneLake. Obsahuje soubory v různých formátech (strukturovaných a nestrukturovaných) uspořádaných do složek a podsložek. Další informace najdete v tématu Co je jezero?
Notebook : Fabricový notebook je multijazyčný interaktivní programovací nástroj s bohatými funkcemi. Patří sem vytváření kódu a markdownu, spouštění a monitorování úlohy Sparku, zobrazení a vizualizace výsledků a spolupráce s týmem. Pomáhá datovým inženýrům a datovým vědcům zkoumat a zpracovávat data a vytvářet experimenty strojového učení s kódem i prostředím s nízkým kódem. Dá se snadno transformovat na aktivitu pipeline pro orchestraci.
aplikace Spark: aplikace Apache Spark je program napsaný uživatelem pomocí jednoho z jazyků rozhraní API Sparku (Scala, Python, Spark SQL nebo Java) nebo jazyků přidaných Microsoftem (.NET s C# nebo F#). Když se aplikace spustí, rozdělí se do jedné nebo několika úloh Sparku, které běží paralelně a zpracovávají data rychleji. Další informace najdete v tématu monitorování aplikací Spark.
úlohy Apache Spark: úloha Sparku je součástí aplikace Spark, která běží paralelně s jinými úlohami v aplikaci. Úloha se skládá z více úkolů. Další informace najdete v tématu monitorování úloh Sparku.
Definice úlohy Apache Spark: Definice úlohy Apache Spark je sada parametrů nastavených uživatelem, která určuje, jak by měla být spuštěna aplikace Spark. Umožňuje odesílat dávkové nebo streamované úlohy do clusteru Spark. Další informace najdete v tématu Co je definice úlohy Apache Spark?
V-order: Optimalizace zápisu do formátu Parquet, která umožňuje rychlé čtení a poskytuje nákladovou efektivitu a lepší výkon. Ve výchozím nastavení všechny enginy Fabric zapisují parquetové soubory podle v-řazení.
Data Factory
Connector: Data Factory nabízí bohatou sadu konektorů, které umožňují připojení k různým typům úložišť dat. Po připojení můžete data transformovat. Další informace ohledně konektorůnajdete zde.
datový kanál: Ve službě Data Factory se datový kanál používá k orchestraci přesunu a transformace dat. Tyto potrubí se liší od nasazovacích potrubí ve Fabric. Další informace najdete v tématu Pipelines v přehledu služby Data Factory.
Tok dat Gen2: Toky dat poskytují rozhraní s nízkou potřebou psaní kódu pro příjem dat ze stovek zdrojů dat a jejich transformaci. Tok dat ve Fabricu se označuje jako Tok dat Gen2. Datový tok Gen1 existuje v Power BI. Tok dat Gen2 nabízí další funkce v porovnání s toky dat ve službě Azure Data Factory nebo Power BI. Z Gen1 na Gen2 nejde upgradovat. Další informace najdete v tématu Toky dat v přehledu služby Data Factory.
trigger : funkce automatizace ve službě Data Factory, která spouští kanály na základě konkrétních podmínek, jako jsou plány nebo dostupnost dat.
Datové vědy sítě
Data Wrangler: Data Wrangler je nástroj založený na poznámkových blocích, který uživatelům poskytuje imerzivní prostředí pro provádění průzkumné analýzy dat. Tato funkce kombinuje zobrazení dat podobné mřížce s dynamickými souhrnnými statistikami a sadou běžných operací čištění dat, které jsou k dispozici s několika vybranými ikonami. Každá operace generuje kód, který lze uložit zpět do poznámkového bloku jako opakovaně použitelný skript.
Experiment: Experiment strojového učení je primární jednotkou organizace a kontroly všech souvisejících běhů strojového učení. Další informace najdete v tématu experimenty strojového učení v Microsoft Fabric.
model : model strojového učení je soubor natrénovaný tak, aby rozpoznal určité typy vzorů. Model vytrénujete přes sadu dat a poskytnete mu algoritmus, který používá k odůvodnění a učení se z této datové sady. Další informace najdete v tématu modelu strojového učení .
Spuštění: spuštění odpovídá jedinému spuštění kódu modelu. V MLflowje sledování založené na experimentech a spuštěních.
Datový sklad Fabric
koncový bod analýzy SQL: Každý lakehouse má koncový bod analýzy SQL, který uživateli umožňuje dotazovat data tabulky Delta pomocí TSQL nad TDS. Další informace naleznete v tématu koncový bod SQL Analytics .
Datový sklad Fabric: Datový sklad Fabric funguje jako tradiční datový sklad a nabízí plnou podporu transakčních schopností T-SQL, které byste od podnikového datového skladu očekávali. Další informace naleznete v datovém skladu Fabric .
Real-Time Intelligence
Aktivátor: Aktivátor je nástroj bez kódu, který umožňuje vytvářet upozornění, triggery a akce s vašimi daty. Aktivátor se používá k vytváření upozornění na datové streamy. Další informace naleznete v tématu Aktivátor.
Eventhouse: Eventhouses poskytují řešení pro zpracování a analýzu velkých objemů dat, zejména ve scénářích vyžadujících analýzu a zkoumání v reálném čase. Jsou navržené tak, aby efektivně zpracovávaly datové proudy v reálném čase, což organizacím umožňuje ingestovat, zpracovávat a analyzovat data téměř v reálném čase. Jeden pracovní prostor může obsahovat více Eventhouses, jeden Eventhouse může obsahovat více databází KQL a každá databáze může obsahovat více tabulek. Další informace najdete v tématu Přehled Eventhouse.
Eventstream: Funkce Eventstreams Microsoft Fabric umožňuje centralizované místo na platformě Fabric pro zachytávání, transformaci a směrování událostí v reálném čase do cílů bez potřeby kódu. Eventstream se skládá z různých streamovaných zdrojů dat, cílů příjmu dat a procesoru událostí v případě potřeby transformace. Další informace najdete v tématu Microsoft Fabric eventstreams.
databáze KQL: Databáze KQL uchovává data ve formátu, na který můžete spouštět dotazy KQL. Databáze KQL jsou položky v rámci Eventhouse. Další informace naleznete v databázi KQL .
KQL Queryset: Sada dotazů KQL je položka použitá ke spouštění dotazů, zobrazení výsledků a manipulaci s výsledky dotazů na data z databáze Průzkumníka dat. Sada dotazů zahrnuje databáze a tabulky, dotazy a výsledky. Sada dotazů KQL umožňuje ukládat dotazy pro budoucí použití nebo exportovat a sdílet dotazy s ostatními. Další informace najdete v tématu Dotazování dat v KQL Queryset
centrum Real-Time
- centrum Real-Time: centrum Real-Time je jediné místo pro všechny přenosy dat v celé organizaci. Každý tenant Microsoft Fabric je automaticky vybaven centrem. Další informace najdete v přehledu uzlu Real-Time.
OneLake
- Zástupce: Zkratky jsou vložené odkazy v rámci OneLake, které odkazují na jiná umístění úložiště souborů. Poskytují způsob, jak se připojit k existujícím datům, aniž by je museli přímo kopírovat. Další informace najdete v tématu klávesové zkratky OneLake.