Načtení do tabulky Delta Lake
Lakehouse v Microsoft Fabric poskytuje funkci pro efektivní načtení běžných typů souborů do optimalizované tabulky Delta připravené k analýze. Funkce Načíst do tabulky umožňuje uživatelům načíst jeden soubor nebo složku souborů do tabulky. Tato funkce zvyšuje produktivitu datových inženýrů tím, že jim umožní rychle použít akci kliknutí pravým tlačítkem a povolit načítání tabulek u souborů a složek. Načítání do tabulky je také prostředí bez kódu, které snižuje vstupní panel pro všechny osoby.
Přehled možností načtení do tabulky
Tady je seznam funkcí, které jsme povolili v integrovaném načítání do tabulkového prostředí, abychom našim uživatelům poskytli flexibilitu a zároveň zvýšili jejich produktivitu:
Podporované typy souborů: Tato funkce aktuálně podporuje pouze načítání typů souborů PARQUET nebo CSV. Na příponě souboru nezáleží.
Načtení jednoho souboru: Uživatelé můžou načíst jeden soubor podle svého výběru v jednom z podporovaných formátů tak, že v akci místní nabídky souboru vyberou "Načíst do tabulky Delta".
Načtení na úrovni složky: Po kliknutí na složku můžete načíst všechny soubory ve složce a její podsložky najednou tak, že vyberete Možnost Načíst do tabulky Delta. Tato funkce automaticky prochází všechny soubory a načte je do tabulky Delta. Je důležité si uvědomit, že do tabulky je možné načíst současně jenom soubory stejného typu.
Načíst do nové a existující tabulky: Uživatel se může rozhodnout, že načte soubory a složky do nové tabulky nebo existující tabulky podle svého výběru. Pokud se rozhodnou načíst do existující tabulky, můžou buď připojit nebo přepsat data v tabulce.
Možnost Zdrojový soubor CSV: U souborů CSV umožňujeme uživatelům určit, jestli zdrojový soubor obsahuje hlavičky, které by chtěli použít jako názvy sloupců. Uživatelé mohou také zadat oddělovač podle vlastního výběru, který přepíše výchozí oddělovač čárky.
Načteno jako tabulky Delta: Tabulky se vždy načítají pomocí formátu tabulky Delta Lake s povolenou optimalizací pořadí V.
Poznámka:
V současné době nelze zadat schéma tabulky prostřednictvím uživatelského rozhraní Lakehouse; Pro tento účel musíte použít poznámkový blok.
Ověřovací pokyny a pravidla
Následující standard se vztahuje na prostředí pro načtení do tabulky:
Názvy tabulek můžou obsahovat pouze alfanumerické znaky a podtržítka. Umožňuje také libovolné anglické písmeno, velká nebo malá písmena a podtržítko (
_
) s maximální délkou 256 znaků. Nejsou povoleny pomlčky (-
) ani mezery.Textové soubory bez záhlaví sloupců se nahradí standardním
col#
zápisem jako názvy sloupců tabulky.Názvy sloupců umožňují všechna anglická písmena, velká nebo malá písmena, podtržítka (
_
) a znaky v jiném jazyce, jako je čínština v UTF, délka až 128 znaků. Názvy sloupců se ověřují během akce načtení. Algoritmus Load to Delta nahrazuje zakázané hodnoty podbar (_
). Pokud se během ověřování nedosáhne žádného správného názvu sloupce, akce načtení selže.U souborů CSV nesmí být oddělovač prázdný, nesmí být delší než 8 znaků nebo nesmí obsahovat žádný z následujících znaků:
(
, ,)
,[
, ,]
,{
, , ,}
jednoduché uvozovky ('
), dvojité uvozovky ("
) a prázdné znaky.