Načtení dat pomocí externího umístění katalogu Unity
Důležité
Tato funkce je ve verzi Public Preview.
Tento článek popisuje, jak pomocí uživatelského rozhraní pro přidání dat vytvořit spravovanou tabulku z dat v Azure Data Lake Storage Gen2 pomocí externího umístění katalogu Unity. Externí umístění je objekt, který kombinuje cestu cloudového úložiště s přihlašovacími údaji úložiště, které autorizuje přístup k cestě cloudového úložiště.
Než začnete
Než začnete, musíte mít následující:
- Pracovní prostor s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správa katalogu Unity.
- Oprávnění
READ FILES
k externímu umístění. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks. - Oprávnění
CREATE TABLE
ke schématu, ve kterém chcete vytvořit spravovanou tabulku,USE SCHEMA
oprávnění ke schématu aUSE CATALOG
oprávnění nadřazeného katalogu. Další informace najdete v tématu Oprávnění katalogu Unity a zabezpečitelné objekty.
Typy souborů
Následující typy souborů jsou podporovány:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Krok 1: Potvrzení přístupu k externímu umístění
Pokud chcete potvrdit přístup k externímu umístění, postupujte takto:
- Na bočním panelu pracovního prostoru Azure Databricks klikněte na Katalog.
- V Průzkumníku katalogu klikněte na externí umístění externích dat>.
Krok 2: Vytvoření spravované tabulky
Pokud chcete vytvořit spravovanou tabulku, postupujte takto:
Na bočním panelu pracovního prostoru klikněte na + Nový>přidat data.
V uživatelském rozhraní pro přidání dat klikněte na Azure Data Lake Storage.
V rozevíracím seznamu vyberte externí umístění.
Vyberte složky a soubory, které chcete načíst do Azure Databricks, a potom klikněte na tabulku Preview.
V rozevíracích seznamech vyberte katalog a schéma.
(Volitelné) Upravte název tabulky.
(Volitelné) Chcete-li nastavit rozšířené možnosti formátu podle typu souboru, klepněte na tlačítko Upřesnit atributy, vypněte možnost Automaticky rozpoznat typ souboru a pak vyberte typ souboru.
Seznam možností formátu najdete v následující části.
(Volitelné) Pokud chcete upravit název sloupce, klikněte na vstupní pole v horní části sloupce.
Názvy sloupců nepodporují čárky, zpětné lomítka nebo znaky Unicode (například emoji).
(Volitelné) Pokud chcete upravit typy sloupců, klikněte na ikonu s typem.
Klikněte na Vytvořit tabulku.
Možnosti formátu typu souboru
V závislosti na typu souboru jsou k dispozici následující možnosti formátu:
Možnost Formát | Popis | Podporované typy souborů |
---|---|---|
Column delimiter |
Znak oddělovače mezi sloupci. Je povolen pouze jeden znak a zpětné lomítko není podporováno. Výchozí hodnota je čárka. |
CSV |
Escape character |
Řídicí znak, který se má použít při analýze dat. Výchozí hodnota je uvozovka. |
CSV |
First row contains the header |
Tato možnost určuje, jestli soubor obsahuje záhlaví. Ve výchozím nastavení povolena. |
CSV |
Automatically detect file type |
Automaticky rozpozná typ souboru. Výchozí hodnota je true . |
XML |
Automatically detect column types |
Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING. Ve výchozím nastavení povolena. |
- CSV – JSON - XML |
Rows span multiple lines |
Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru. Ve výchozím nastavení vypnuto. |
- CSV – JSON |
Merge the schema across multiple files |
Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. Ve výchozím nastavení povolena. |
CSV |
Allow comments |
Určuje, jestli jsou v souboru povoleny komentáře. Ve výchozím nastavení povolena. |
JSON |
Allow single quotes |
Zda jsou v souboru povoleny jednoduché uvozovky. Ve výchozím nastavení povolena. |
JSON |
Infer timestamp |
Zda se pokusit odvodit řetězce časového razítka jako TimestampType .Ve výchozím nastavení povolena. |
JSON |
Rescued data column |
Zda se mají ukládat sloupce, které neodpovídají schématu. Další informace naleznete v tématu Co je záchranná datová sloupec?. Ve výchozím nastavení povolena. |
- CSV – JSON - Avro -Parkety |
Exclude attribute |
Zda vyloučit atributy v prvcích. Výchozí hodnota je false . |
XML |
Attribute prefix |
Předpona atributů k rozlišení atributů a prvků. Výchozí hodnota je _ . |
XML |
Datové typy sloupců
Podporují se následující datové typy sloupců. Další informace o jednotlivých datových typech naleznete v tématu Datové typy SQL.
Datový typ | Popis |
---|---|
BIGINT |
8 bajtová celočíselná čísla. |
BOOLEAN |
Logické hodnoty (true , false ) |
DATE |
a den, bez časového pásma. |
DECIMAL (P,S) |
Čísla s maximální přesností P a pevným měřítkem S . |
DOUBLE |
Čísla s plovoucí desetinnou čárkou s dvojitou přesností 8 bajtů |
STRING |
Hodnoty řetězce znaků. |
TIMESTAMP |
Hodnoty obsahující hodnoty pro rok, měsíc, den, hodinu, minutu a sekundu s místním časovým pásmem relace. |
Známé problémy
- Může docházet k problémům se speciálními znaky ve složitých datových typech, jako je například objekt JSON s klíčem obsahujícím zadní nebo dvojtečku.
- Některé soubory JSON můžou vyžadovat, abyste jako typ souboru ručně vybrali JSON. Pokud chcete po výběru souborů ručně vybrat typ souboru, klikněte na Upřesnit atributy, vypněte možnost Automaticky rozpoznat typ souboru a pak vyberte JSON.
- U vnořených časových razítek a desetinných míst uvnitř složitých typů může docházet k problémům.