Sdílet prostřednictvím


Interoperabilita formátů tabulek Delta Lake

V Microsoft Fabric je formát tabulky Delta Lake standardem pro analýzy. Delta Lake je opensourcová vrstva úložiště, která přináší transakce ACID (Atomicity, Consistency, Isolation, Durability) do úloh pro velké objemy dat a analýzy.

Všechna prostředí Infrastruktury generují a využívají tabulky Delta Lake, které řídí interoperabilitu a jednotné prostředí produktů. Tabulky Delta Lake vytvořené jedním výpočetním modulem, jako je Datový sklad Fabric nebo Synapse Spark, můžou využívat jakýkoli jiný modul, jako je Power BI. Při příjmu dat do prostředků infrastruktury je Fabric ve výchozím nastavení ukládá jako tabulky Delta. Externí data obsahující tabulky Delta Lake můžete snadno integrovat pomocí klávesových zkratek OneLake.

Funkce Delta Lake a prostředí Fabric

Aby bylo dosaženo interoperability, jsou všechna prostředí Infrastruktury v souladu s funkcemi Delta Lake a možnostmi infrastruktury. Některá prostředí můžou zapisovat pouze do tabulek Delta Lake, zatímco ostatní z nich můžou číst.

  • Zapisovače: Datové sklady, eventstreamy a exportované sémantické modely Power BI do OneLake
  • Čtenáři: Koncový bod analýzy SQL a sémantické modely Power BI Direct Lake
  • Zapisovače a čtenáři: Modul runtime Sparku infrastruktury, toky dat, datové kanály a databáze dotazovací jazyk Kusto (KQL)

Následující matice ukazuje klíčové funkce Delta Lake a jejich podporu pro jednotlivé funkce Fabric.

Možnosti infrastruktury Mapování sloupců založených na názvu Vektory odstranění Psaní V-order Optimalizace a údržba tabulek Zápis oddílů Čtení oddílů Liquid Clustering TIMESTAMP_NTZ Verze delta reader/writer a výchozí funkce tabulek
Export Delta Lake datového skladu No Ano Ano Ano Ne Ano No Ne Čtenář: 3
Zapisovač: 7
Vektory odstranění
Koncový bod analýzy SQL Ano Yes Není k dispozici (není k dispozici) Není k dispozici (není k dispozici) Není k dispozici (není k dispozici) Ano Ano No Není k dispozici (není k dispozici)
Fabric Spark Runtime 1.3 Ano Ano Ano Ano Ano Ano Ano Yes Čtenář: 1
Zapisovač: 2
Prostředí Fabric Spark Runtime 1.2 Ano Ano Ano Ano Ano Yes Ano, jen pro čtení Ano Čtenář: 1
Zapisovač: 2
Fabric Spark Runtime 1.1 Yes Ne Ano Ano Ano Yes Ano, jen pro čtení No Čtenář: 1
Zapisovač: 2
Datové toky Ano Ano Ano Ne Ano Yes Ano, jen pro čtení No Čtenář: 1
Zapisovač: 2
Datové kanály No No Ano No Ano, přepsat pouze Ano Ano, jen pro čtení No Čtenář: 1
Zapisovač: 2
Sémantické modely Power BI Direct Lake Ano Yes Není k dispozici (není k dispozici) Není k dispozici (není k dispozici) Není k dispozici (není k dispozici) Ano Ano No Není k dispozici (není k dispozici)
Export sémantických modelů Power BI do OneLake Ano Není k dispozici (není k dispozici) Yes Ne Ano Není k dispozici (není k dispozici) No Ne Čtenář: 2
Zapisovač: 5
Databáze KQL Ano Ano No Ne* Ano Ano No Ne Čtenář: 1
Zapisovač: 1
Eventstreams No No No No Ano Není k dispozici (není k dispozici) No Ne Čtenář: 1
Zapisovač: 2

* Databáze KQL poskytují určité možnosti údržby tabulek, jako je uchovávání. Data se odeberou na konci doby uchovávání z OneLake. Další informace naleznete v tématu Jedna logická kopie.

Poznámka:

  • Prostředky infrastruktury ve výchozím nastavení nezapisují mapování sloupců založených na názvu. Výchozí prostředí Fabric generuje tabulky, které jsou kompatibilní napříč službou. Delta Lake, vytvořené službami třetích stran, může mít nekompatibilní funkce tabulek.
  • Některá prostředí prostředků infrastruktury nemají zděděné možnosti optimalizace a údržby tabulek, jako jsou komprimace přihrádky, pořadí V a vyčištění starých neodkazovaných souborů. Pokud chcete tabulky Delta Lake udržovat optimální pro analýzy, postupujte podle technik použití funkce Údržba tabulek ke správě tabulek v Prostředcích infrastruktury pro tabulky ingestované pomocí těchto prostředí.

Aktuální omezení

Prostředky infrastruktury v současné době nepodporují tyto funkce Delta Lake:

  • Delta Lake 3.x Uniform
  • Zápis sloupců identit (proprietární funkce Databricks)
  • Delta Live Tables (proprietární funkce Databricks)
  • RLE (kódování délky spuštění) povolené v souboru kontrolního bodu