Tabulky Lakehouse a Delta Lake
Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Aby bylo možné dosáhnout bezproblémového přístupu k datům napříč všemi výpočetními moduly v Microsoft Fabric, je delta Lake zvolena jako jednotný formát tabulky.
Ukládání dat v Lakehouse pomocí funkcí, jako je načtení do tabulek nebo metod popsaných v možnostech pro načtení dat do Objektu Fabric Lakehouse, se všechna data ukládají ve formátu Delta.
Podrobnější úvod do formátu tabulky Delta Lake najdete na odkazech v části Další kroky.
Velké objemy dat, Apache Spark a starší formáty tabulek
Modul runtime Microsoft Fabric pro Apache Spark používá stejný základ jako modul runtime Azure Synapse Analytics pro Apache Spark, ale obsahuje klíčové rozdíly, které poskytují efektivnější chování napříč všemi moduly ve službě Microsoft Fabric. V Microsoft Fabric jsou ve výchozím nastavení zapnuté klíčové funkce výkonu. Pokročilí uživatelé Apache Sparku můžou vrátit konfigurace k předchozím hodnotám, aby lépe odpovídali konkrétním scénářům.
Microsoft Fabric Lakehouse a modul Apache Spark podporují všechny typy tabulek, spravované i nespravované; to zahrnuje zobrazení a běžné formáty tabulek Hive, které nejsou delta. Tabulky definované pomocí souborů PARQUET, CSV, AVRO, JSON a libovolného formátu souboru kompatibilního s Apache Hivem fungují podle očekávání.
Uživatelské rozhraní Průzkumníka Lakehouse se liší v závislosti na typu tabulky. Průzkumník Lakehouse v současné době vykresluje pouze objekty tabulky.
Rozdíly v konfiguraci ve službě Azure Synapse Analytics
Následující tabulka obsahuje rozdíly v konfiguraci mezi Azure Synapse Analytics a modulem Microsoft Fabric Runtime pro Apache Spark.
Konfigurace Apache Sparku | Hodnota Microsoft Fabric | Hodnota Azure Synapse Analytics | Notes |
---|---|---|---|
spark.sql.sources.default | Delta | parkety | Výchozí formát tabulky |
spark.sql.parquet.vorder.enabled | true | – | Zapisovač objednávky V |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | – | Omezení velikosti stránky slovníku pro V-Order |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Optimalizace zápisu |
Automatické zjišťování tabulek
Průzkumník Lakehouse poskytuje stromové zobrazení objektů v položce Microsoft Fabric Lakehouse. Má klíčovou funkci zjišťování a zobrazování tabulek, které jsou popsány v úložišti metadat a v úložišti OneLake. Odkazy na tabulku se zobrazí v Tables
části uživatelského rozhraní Průzkumníka Lakehouse. Automatické zjišťování platí také pro tabulky definované přes klávesové zkratky OneLake.
Tabulky přes klávesové zkratky
Microsoft Fabric Lakehouse podporuje tabulky definované přes klávesové zkratky OneLake, aby poskytovaly maximální kompatibilitu a nepřecházely data. Následující tabulka obsahuje osvědčené postupy scénáře pro každý typ položky při jeho použití přes klávesové zkratky.
Cíl zástupce | Kde vytvořit zástupce | Osvědčený postup |
---|---|---|
Tabulka Delta Lake | Tables oddíl |
Pokud v cíli existuje více tabulek, vytvořte jednu klávesovou zkratku pro každou tabulku. |
Složky se soubory | Files oddíl |
Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest. Načtení dat do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu |
Starší tabulky Apache Hivu | Files oddíl |
Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest nebo vytvořit odkaz na katalog metadat pomocí CREATE EXTERNAL TABLE syntaxe. Načtení dat do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu |
Načtení do tabulek
Microsoft Fabric Lakehouse poskytuje pohodlné a produktivní uživatelské rozhraní pro zjednodušení načítání dat do tabulek Delta. Funkce Načíst do tabulek umožňuje vizuálním prostředím načítat běžné formáty souborů do delta, aby se zvýšila produktivita analýzy pro všechny osoby. Další informace o funkci Načíst do tabulek najdete v podrobných informacích v referenční dokumentaci k načtení lakehouse do tabulek .
Optimalizace tabulek Delta Lake
Udržování tabulek v obrazci pro široký rozsah analytických scénářů není žádný malý výkon. Microsoft Fabric Lakehouse aktivně umožňuje důležitým parametrům minimalizovat běžné problémy spojené s tabulkami velkých objemů dat, jako jsou komprimace a malé velikosti souborů, a maximalizovat výkon dotazů. Přesto existuje mnoho scénářů, ve kterých tyto parametry potřebují změny. Článek o optimalizaci tabulek Delta Lake a pořadí V-Order popisuje některé klíčové scénáře a poskytuje podrobný průvodce, jak efektivně udržovat tabulky Delta pro maximální výkon.