Ładowanie danych przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity

Artykuł
11/07/2024

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule opisano sposób użycia interfejsu użytkownika dodawania danych w celu utworzenia zarządzanej tabeli na podstawie danych w usłudze Azure Data Lake Storage Gen2 przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity. Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze.

Zanim rozpoczniesz

Przed rozpoczęciem musisz mieć następujące elementy:

Obszar roboczy z włączonym wykazem aparatu Unity. Aby uzyskać więcej informacji, zobacz Konfigurowanie wykazu aparatu Unity i zarządzanie nim.
Uprawnienie READ FILES w lokalizacji zewnętrznej. Aby uzyskać więcej informacji, zobacz Tworzenie lokalizacji zewnętrznej w celu połączenia magazynu w chmurze z usługą Azure Databricks.
CREATE TABLE Uprawnienie do schematu, w którym chcesz utworzyć tabelę zarządzaną, USE SCHEMA uprawnienia w schemacie i USE CATALOG uprawnienie w katalogu nadrzędnym. Aby uzyskać więcej informacji, zobacz Uprawnienia wykazu aparatu Unity i zabezpieczane obiekty.

Typy plików

Następujące typy plików są obsługiwane:

CSV
TSV
JSON
XML
AVRO
Parquet

Krok 1. Potwierdzenie dostępu do lokalizacji zewnętrznej

Aby potwierdzić dostęp do lokalizacji zewnętrznej, wykonaj następujące czynności:

Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Wykaz.
W Eksploratorze wykazu kliknij pozycję Zewnętrzne lokalizacje danych>zewnętrznych.

Krok 2. Tworzenie tabeli zarządzanej

Aby utworzyć tabelę zarządzaną, wykonaj następujące czynności:

Na pasku bocznym obszaru roboczego kliknij pozycję + Nowe>dodaj dane.
W interfejsie użytkownika dodawania danych kliknij pozycję Azure Data Lake Storage.
Wybierz lokalizację zewnętrzną z listy rozwijanej.
Wybierz foldery i pliki, które chcesz załadować do usługi Azure Databricks, a następnie kliknij pozycję Tabela w wersji zapoznawczej.
Wybierz wykaz i schemat z list rozwijanych.
(Opcjonalnie) Edytuj nazwę tabeli.
(Opcjonalnie) Aby ustawić zaawansowane opcje formatowania według typu pliku, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz typ pliku.

Aby uzyskać listę opcji formatowania, zobacz następującą sekcję.
(Opcjonalnie) Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.

Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).
(Opcjonalnie) Aby edytować typy kolumn, kliknij ikonę z typem .
Kliknij pozycję Utwórz tabelę.

Opcje formatu typu pliku

Dostępne są następujące opcje formatowania w zależności od typu pliku:

Opcja formatowania	opis	Typy obsługiwanych plików
`Column delimiter`	Znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany. Wartość domyślna to przecinek.	CSV
`Escape character`	Znak ucieczki do użycia podczas analizowania danych. Wartość domyślna to cudzysłów.	CSV
`First row contains the header`	Ta opcja określa, czy plik zawiera nagłówek. Włączone domyślnie.	CSV
`Automatically detect file type`	Automatycznie wykrywaj typ pliku. Wartość domyślna to `true`.	XML
`Automatically detect column types`	Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako CIĄG. Włączone domyślnie.	- CSV - JSON -XML
`Rows span multiple lines`	Czy wartość kolumny może obejmować wiele wierszy w pliku. Wyłączone domyślnie.	- CSV - JSON
`Merge the schema across multiple files`	Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. Włączone domyślnie.	CSV
`Allow comments`	Czy komentarze są dozwolone w pliku. Włączone domyślnie.	JSON
`Allow single quotes`	Czy pojedyncze cudzysłowy są dozwolone w pliku. Włączone domyślnie.	JSON
`Infer timestamp`	Czy spróbować wywnioskować ciągi znacznika czasu jako `TimestampType`. Włączone domyślnie.	JSON
`Rescued data column`	Czy zapisać kolumny, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Włączone domyślnie.	- CSV - JSON - Avro -Parkiet
`Exclude attribute`	Czy wykluczać atrybuty w elementach. Wartość domyślna to `false`.	XML
`Attribute prefix`	Prefiks atrybutów do rozróżniania atrybutów i elementów. Wartość domyślna to `_`.	XML

Typy danych kolumn

Obsługiwane są następujące typy danych kolumn. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.

Typ danych	opis
`BIGINT`	Liczba całkowita ze znakiem 8 bajtów.
`BOOLEAN`	Wartości logiczne (`true`, `false`).
`DATE`	i dzień, bez strefy czasowej.
`DECIMAL (P,S)`	Liczby o maksymalnej precyzji `P` i stałej skali `S`.
`DOUBLE`	8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji.
`STRING`	Wartości ciągów znaków.
`TIMESTAMP`	Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji.

Znane problemy

Mogą wystąpić problemy z znakami specjalnymi w złożonych typach danych, takich jak obiekt JSON z kluczem zawierającym backtick lub dwukropek.
Niektóre pliki JSON mogą wymagać ręcznego wybrania formatu JSON dla typu pliku. Aby ręcznie wybrać typ pliku po wybraniu plików, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz pozycję JSON.
Zagnieżdżone znaczniki czasu i liczby dziesiętne wewnątrz typów złożonych mogą napotkać problemy.

Udostępnij za pośrednictwem