Tabulky Lakehouse a Delta Lake

Článek
03/09/2025

Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Aby bylo možné dosáhnout bezproblémového přístupu k datům napříč všemi výpočetními moduly v Microsoft Fabric, je delta Lake zvolena jako jednotný formát tabulky.

Ukládání dat v Lakehouse pomocí funkcí, jako načtení do tabulek nebo metod popsaných v možnostech pro načtení dat do Fabric Lakehouse, se všechna data ukládají ve formátu Delta.

Podrobnější úvod do formátu tabulky Delta Lake najdete na odkazech v části Další kroky.

Velké objemy dat, Apache Spark a starší formáty tabulek

Modul runtime Microsoft Fabric pro Apache Spark používá stejný základ jako modul runtime Azure Synapse Analytics pro Apache Spark, ale obsahuje klíčové rozdíly, které poskytují efektivnější chování napříč všemi moduly ve službě Microsoft Fabric. V Microsoft Fabric jsou ve výchozím nastavení zapnuté klíčové funkce výkonu. Pokročilí uživatelé Apache Sparku můžou vrátit konfigurace k předchozím hodnotám, aby lépe odpovídali konkrétním scénářům.

Microsoft Fabric Lakehouse a modul Apache Spark podporují všechny typy tabulek, spravované i nespravované; to zahrnuje zobrazení a běžné formáty tabulek Hive, které nejsou delta. Tabulky definované pomocí souborů PARQUET, CSV, AVRO, JSON a libovolného formátu souboru kompatibilního s Apache Hivem fungují podle očekávání.

Uživatelské rozhraní Průzkumníka Lakehouse se liší v závislosti na typu tabulky. Průzkumník Lakehouse v současné době vykresluje pouze objekty tabulky.

Rozdíly v konfiguraci ve službě Azure Synapse Analytics

Následující tabulka obsahuje rozdíly v konfiguraci mezi Azure Synapse Analytics a modulem Microsoft Fabric Runtime pro Apache Spark.

Konfigurace Apache Sparku	Hodnota Microsoft Fabric	Hodnota Azure Synapse Analytics	Poznámky
spark.sql.sources.default	Delta	parkety	Výchozí formát tabulky
spark.sql.parquet.vorder.default	pravda	Nein k dispozici	Zapisovač objednávek V
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	N/A	Omezení velikosti stránky slovníku pro V-Order
spark.databricks.delta.optimizeWrite.enabled	pravda	nenastaveno (nepravda)	Optimalizace zápisu

Automatické zjišťování tabulek

Průzkumník Lakehouse poskytuje stromové zobrazení objektů v položce Microsoft Fabric Lakehouse. Má klíčovou funkci zjišťování a zobrazování tabulek, které jsou popsány v úložišti metadat a v úložišti OneLake. Odkazy na tabulku se zobrazí v Tables části uživatelského rozhraní Průzkumníka Lakehouse. Automatické zjišťování platí také pro tabulky definované přes klávesové zkratky OneLake.

Tabulky nad klávesovými zkratkami

Microsoft Fabric Lakehouse podporuje tabulky definované přes klávesové zkratky OneLake, aby poskytovaly maximální kompatibilitu a nepřecházely data. Následující tabulka obsahuje osvědčené postupy scénáře pro každý typ položky při jeho použití přes klávesové zkratky.

Cíl zástupce	Kde vytvořit zkratku	Osvědčený postup
Tabulka Delta Lake	`Tables` oddíl	Pokud v cíli existuje více tabulek, vytvořte jednu klávesovou zkratku pro každou tabulku.
Složky se soubory	`Files` oddíl	Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest. Načtěte data do nativních Delta tabulek v Lakehouse pro dosažení maximálního výkonu.
Starší tabulky Apache Hive	`Files` oddíl	Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest nebo vytvořit odkaz na katalog metadat pomocí `CREATE EXTERNAL TABLE` syntaxe. Načtěte data do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu.

Načtení do tabulek

Microsoft Fabric Lakehouse poskytuje pohodlné a produktivní uživatelské rozhraní pro zjednodušení načítání dat do tabulek Delta. Funkce Načíst do tabulek umožňuje vizuálním prostředím načítat běžné formáty souborů do Delta, aby se zvýšila produktivita analýzy pro všechny uživatelské skupiny. Další informace o funkci Načtení do tabulek naleznete v referenční dokumentaci Lakehouse Načtení do tabulek.

Optimalizace tabulek Delta Lake

Udržování tabulek ve formě pro široký rozsah analytických scénářů není žádný malý výkon. Microsoft Fabric Lakehouse aktivně umožňuje důležitým parametrům minimalizovat běžné problémy spojené s tabulkami velkých objemů dat, jako jsou komprimace a malé velikosti souborů, a maximalizovat výkon dotazů. Přesto existuje mnoho scénářů, ve kterých tyto parametry potřebují změny. Článek o optimalizaci tabulek Delta Lake a V-Order popisuje některé klíčové scénáře a poskytuje podrobný průvodce, jak efektivně udržovat tabulky Delta pro dosažení maximálního výkonu.

Sdílet prostřednictvím

Tabulky Lakehouse a Delta Lake

Velké objemy dat, Apache Spark a starší formáty tabulek

Rozdíly v konfiguraci ve službě Azure Synapse Analytics

Automatické zjišťování tabulek

Tabulky nad klávesovými zkratkami

Načtení do tabulek

Optimalizace tabulek Delta Lake

Váš názor

Další materiály

Sdílet prostřednictvím

Tabulky Lakehouse a Delta Lake

Velké objemy dat, Apache Spark a starší formáty tabulek

Rozdíly v konfiguraci ve službě Azure Synapse Analytics

Automatické zjišťování tabulek

Tabulky nad klávesovými zkratkami

Načtení do tabulek

Optimalizace tabulek Delta Lake

Související obsah

Váš názor

Další materiály