Tabulky Lakehouse a Delta Lake
Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Aby bylo možné dosáhnout bezproblémového přístupu k datům napříč všemi výpočetními moduly v Microsoft Fabric, je delta Lake zvolena jako jednotný formát tabulky.
Ukládání dat v Lakehouse pomocí funkcí, jako načtení do tabulek nebo metod popsaných v možnostech pro načtení dat do Fabric Lakehouse, se všechna data ukládají ve formátu Delta.
Podrobnější úvod do formátu tabulky Delta Lake najdete na odkazech v části Další kroky.
Velké objemy dat, Apache Spark a starší formáty tabulek
Modul runtime Microsoft Fabric pro Apache Spark používá stejný základ jako modul runtime Azure Synapse Analytics pro Apache Spark, ale obsahuje klíčové rozdíly, které poskytují efektivnější chování napříč všemi moduly ve službě Microsoft Fabric. V Microsoft Fabric jsou ve výchozím nastavení zapnuté klíčové funkce výkonu. Pokročilí uživatelé Apache Sparku můžou vrátit konfigurace k předchozím hodnotám, aby lépe odpovídali konkrétním scénářům.
Microsoft Fabric Lakehouse a modul Apache Spark podporují všechny typy tabulek, spravované i nespravované; to zahrnuje zobrazení a běžné formáty tabulek Hive, které nejsou delta. Tabulky definované pomocí souborů PARQUET, CSV, AVRO, JSON a libovolného formátu souboru kompatibilního s Apache Hivem fungují podle očekávání.
Uživatelské rozhraní Průzkumníka Lakehouse se liší v závislosti na typu tabulky. Průzkumník Lakehouse v současné době vykresluje pouze objekty tabulky.
Rozdíly v konfiguraci ve službě Azure Synapse Analytics
Následující tabulka obsahuje rozdíly v konfiguraci mezi Azure Synapse Analytics a modulem Microsoft Fabric Runtime pro Apache Spark.
Konfigurace Apache Sparku | Hodnota Microsoft Fabric | Hodnota Azure Synapse Analytics | Poznámky |
---|---|---|---|
spark.sql.sources.default | Delta | parkety | Výchozí formát tabulky |
spark.sql.parquet.vorder.default | pravda | Nein k dispozici | Zapisovač objednávek V |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | N/A | Omezení velikosti stránky slovníku pro V-Order |
spark.databricks.delta.optimizeWrite.enabled | pravda | nenastaveno (nepravda) | Optimalizace zápisu |
Automatické zjišťování tabulek
Průzkumník Lakehouse poskytuje stromové zobrazení objektů v položce Microsoft Fabric Lakehouse. Má klíčovou funkci zjišťování a zobrazování tabulek, které jsou popsány v úložišti metadat a v úložišti OneLake. Odkazy na tabulku se zobrazí v Tables
části uživatelského rozhraní Průzkumníka Lakehouse. Automatické zjišťování platí také pro tabulky definované přes klávesové zkratky OneLake.
Tabulky nad klávesovými zkratkami
Microsoft Fabric Lakehouse podporuje tabulky definované přes klávesové zkratky OneLake, aby poskytovaly maximální kompatibilitu a nepřecházely data. Následující tabulka obsahuje osvědčené postupy scénáře pro každý typ položky při jeho použití přes klávesové zkratky.
Cíl zástupce | Kde vytvořit zkratku | Osvědčený postup |
---|---|---|
Tabulka Delta Lake |
Tables oddíl |
Pokud v cíli existuje více tabulek, vytvořte jednu klávesovou zkratku pro každou tabulku. |
Složky se soubory |
Files oddíl |
Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest. Načtěte data do nativních Delta tabulek v Lakehouse pro dosažení maximálního výkonu. |
Starší tabulky Apache Hive |
Files oddíl |
Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest nebo vytvořit odkaz na katalog metadat pomocí CREATE EXTERNAL TABLE syntaxe. Načtěte data do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu. |
Načtení do tabulek
Microsoft Fabric Lakehouse poskytuje pohodlné a produktivní uživatelské rozhraní pro zjednodušení načítání dat do tabulek Delta. Funkce Načíst do tabulek umožňuje vizuálním prostředím načítat běžné formáty souborů do Delta, aby se zvýšila produktivita analýzy pro všechny uživatelské skupiny. Další informace o funkci Načtení do tabulek naleznete v referenční dokumentaci Lakehouse Načtení do tabulek.
Optimalizace tabulek Delta Lake
Udržování tabulek ve formě pro široký rozsah analytických scénářů není žádný malý výkon. Microsoft Fabric Lakehouse aktivně umožňuje důležitým parametrům minimalizovat běžné problémy spojené s tabulkami velkých objemů dat, jako jsou komprimace a malé velikosti souborů, a maximalizovat výkon dotazů. Přesto existuje mnoho scénářů, ve kterých tyto parametry potřebují změny. Článek o optimalizaci tabulek Delta Lake a V-Order popisuje některé klíčové scénáře a poskytuje podrobný průvodce, jak efektivně udržovat tabulky Delta pro dosažení maximálního výkonu.