Načtení dat z externího umístění v katalogu Unity
Důležité
Tato funkce je ve verzi Public Preview.
Tento článek se věnuje tomu, jak pomocí uživatelského rozhraní pro přidávání dat vytvořit spravovanou tabulku z dat v Azure Data Lake Storage Gen2 s využitím externího umístění katalogu Unity. Externí umístění je objekt, který kombinuje cestu cloudového úložiště s přihlašovacími údaji úložiště, které autorizuje přístup k cestě cloudového úložiště.
Než začnete
Než začnete, musíte mít následující:
- Pracovní prostor s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správakatalogu Unity .
- Oprávnění
READ FILES
k externímu umístění. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks. - Oprávnění
CREATE TABLE
pro schéma, ve kterém chcete vytvořit spravovanou tabulku, oprávněníUSE SCHEMA
pro schéma a oprávněníUSE CATALOG
pro nadřazený katalog. Další informace najdete v tématu oprávnění katalogu Unity a zabezpečitelné objekty.
Typy souborů
Následující typy souborů jsou podporovány:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Krok 1: Potvrzení přístupu k externímu umístění
Pokud chcete potvrdit přístup k externímu umístění, postupujte takto:
- Na bočním panelu pracovního prostoru Azure Databricks klikněte na Catalog.
- V Průzkumníku katalogu klepněte na Externí Data>Externí Umístění.
Krok 2: Vytvoření spravované tabulky
Pokud chcete vytvořit spravovanou tabulku, postupujte takto:
Na bočním panelu pracovního prostoru klikněte na + Nový>přidat data.
V uživatelském rozhraní pro přidání dat klikněte na Azure Data Lake Storage.
V rozevíracím seznamu vyberte externí umístění.
Vyberte složky a soubory, které chcete načíst do Azure Databricks, a potom klikněte na Náhled Tabulky.
V rozevíracích seznamech vyberte katalog a schéma.
(Volitelné) Upravte název tabulky.
(Volitelné) Chcete-li nastavit rozšířené možnosti formátu podle typu souboru, klepněte na tlačítko Rozšířené atributy, vypněte Automaticky rozpoznat typ souborua vyberte typ souboru.
Seznam možností formátu najdete v následující části.
(Volitelné) Pokud chcete upravit název sloupce, klikněte na vstupní pole v horní části sloupce.
Názvy sloupců nepodporují čárky, zpětné lomítka nebo znaky Unicode (například emoji).
(Volitelné) Pokud chcete upravit typy sloupců, klikněte na ikonu s typem.
Klikněte na Vytvořit tabulku.
Možnosti formátu typu souboru
V závislosti na typu souboru jsou k dispozici následující možnosti formátu:
Možnost Formát | Popis | Podporované typy souborů |
---|---|---|
Column delimiter |
Znak oddělovače mezi sloupci. Je povolen pouze jeden znak a zpětné lomítko není podporováno. Výchozí hodnota je čárka. |
CSV |
Escape character |
Řídicí znak, který se má použít při analýze dat. Výchozí hodnota je uvozovka. |
CSV |
First row contains the header |
Tato možnost určuje, jestli soubor obsahuje záhlaví. Ve výchozím nastavení povolena. |
CSV |
Automatically detect file type |
Automaticky rozpozná typ souboru. Výchozí hodnota je true . |
XML |
Automatically detect column types |
Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING. Ve výchozím nastavení povolena. |
- CSV – JSON - XML |
Rows span multiple lines |
Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru. Ve výchozím nastavení vypnuto. |
- CSV – JSON |
Merge the schema across multiple files |
Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. Ve výchozím nastavení povolena. |
CSV |
Allow comments |
Určuje, jestli jsou v souboru povoleny komentáře. Ve výchozím nastavení povolena. |
JSON |
Allow single quotes |
Zda jsou v souboru povoleny jednoduché uvozovky. Ve výchozím nastavení povolena. |
JSON |
Infer timestamp |
Zda se pokusit odvodit řetězce časového razítka jako TimestampType .Ve výchozím nastavení povolena. |
JSON |
Rescued data column |
Zda se mají ukládat sloupce, které neodpovídají schématu. Další informace najdete v tématu Co je sloupec zachráněných dat?. Ve výchozím nastavení povolena. |
- CSV – JSON - Avro -Parkety |
Exclude attribute |
Zda vyloučit atributy v prvcích. Výchozí hodnota je false . |
XML |
Attribute prefix |
Předpona atributů k rozlišení atributů a prvků. Výchozí hodnota je _ . |
XML |
Sloupcové datové typy
Podporují se následující datové typy sloupců. Další informace o jednotlivých datových typech naleznete v tématu Datové typy SQL.
Datový typ | Popis |
---|---|
BIGINT |
8 bajtová celočíselná čísla. |
BOOLEAN |
Booleanové hodnoty (true , false ) |
DATE |
a den, bez časového pásma. |
DECIMAL (P,S) |
Čísla s maximální přesností P a pevným měřítkem S . |
DOUBLE |
Čísla s plovoucí desetinnou čárkou s dvojitou přesností 8 bajtů |
STRING |
Hodnoty řetězce znaků. |
TIMESTAMP |
Hodnoty sestávající z hodnot polí rok, měsíc, den, hodina, minuta a sekunda s místním časovým pásmem sezení. |
Známé problémy
- Může docházet k problémům se speciálními znaky ve složitých datových typech, jako je například objekt JSON s klíčem obsahujícím zadní nebo dvojtečku.
- Některé soubory JSON můžou vyžadovat, abyste jako typ souboru ručně vybrali JSON. Chcete-li po výběru souborů ručně vybrat typ souboru, klikněte na Rozšířené atributy, vypněte Automaticky rozpoznat typ souborua pak vyberte JSON.
- U vnořených časových razítek a desetinných míst uvnitř složitých typů může docházet k problémům.