Ładowanie danych przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
W tym artykule opisano sposób użycia interfejsu użytkownika dodawania danych w celu utworzenia zarządzanej tabeli na podstawie danych w usłudze Azure Data Lake Storage Gen2 przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity. Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze.
Zanim rozpoczniesz
Przed rozpoczęciem musisz mieć następujące elementy:
- Obszar roboczy z włączonym wykazem aparatu Unity. Aby uzyskać więcej informacji, zobacz Konfigurowanie wykazu aparatu Unity i zarządzanie nim.
- Uprawnienie
READ FILES
w lokalizacji zewnętrznej. Aby uzyskać więcej informacji, zobacz Tworzenie lokalizacji zewnętrznej w celu połączenia magazynu w chmurze z usługą Azure Databricks. CREATE TABLE
Uprawnienie do schematu, w którym chcesz utworzyć tabelę zarządzaną,USE SCHEMA
uprawnienia w schemacie iUSE CATALOG
uprawnienie w katalogu nadrzędnym. Aby uzyskać więcej informacji, zobacz Uprawnienia wykazu aparatu Unity i zabezpieczane obiekty.
Typy plików
Następujące typy plików są obsługiwane:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Krok 1. Potwierdzenie dostępu do lokalizacji zewnętrznej
Aby potwierdzić dostęp do lokalizacji zewnętrznej, wykonaj następujące czynności:
- Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Wykaz.
- W Eksploratorze wykazu kliknij pozycję Zewnętrzne lokalizacje danych>zewnętrznych.
Krok 2. Tworzenie tabeli zarządzanej
Aby utworzyć tabelę zarządzaną, wykonaj następujące czynności:
Na pasku bocznym obszaru roboczego kliknij pozycję + Nowe>dodaj dane.
W interfejsie użytkownika dodawania danych kliknij pozycję Azure Data Lake Storage.
Wybierz lokalizację zewnętrzną z listy rozwijanej.
Wybierz foldery i pliki, które chcesz załadować do usługi Azure Databricks, a następnie kliknij pozycję Tabela w wersji zapoznawczej.
Wybierz wykaz i schemat z list rozwijanych.
(Opcjonalnie) Edytuj nazwę tabeli.
(Opcjonalnie) Aby ustawić zaawansowane opcje formatowania według typu pliku, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz typ pliku.
Aby uzyskać listę opcji formatowania, zobacz następującą sekcję.
(Opcjonalnie) Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.
Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).
(Opcjonalnie) Aby edytować typy kolumn, kliknij ikonę z typem .
Kliknij pozycję Utwórz tabelę.
Opcje formatu typu pliku
Dostępne są następujące opcje formatowania w zależności od typu pliku:
Opcja formatowania | opis | Typy obsługiwanych plików |
---|---|---|
Column delimiter |
Znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany. Wartość domyślna to przecinek. |
CSV |
Escape character |
Znak ucieczki do użycia podczas analizowania danych. Wartość domyślna to cudzysłów. |
CSV |
First row contains the header |
Ta opcja określa, czy plik zawiera nagłówek. Włączone domyślnie. |
CSV |
Automatically detect file type |
Automatycznie wykrywaj typ pliku. Wartość domyślna to true . |
XML |
Automatically detect column types |
Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako CIĄG. Włączone domyślnie. |
- CSV - JSON -XML |
Rows span multiple lines |
Czy wartość kolumny może obejmować wiele wierszy w pliku. Wyłączone domyślnie. |
- CSV - JSON |
Merge the schema across multiple files |
Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. Włączone domyślnie. |
CSV |
Allow comments |
Czy komentarze są dozwolone w pliku. Włączone domyślnie. |
JSON |
Allow single quotes |
Czy pojedyncze cudzysłowy są dozwolone w pliku. Włączone domyślnie. |
JSON |
Infer timestamp |
Czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType .Włączone domyślnie. |
JSON |
Rescued data column |
Czy zapisać kolumny, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Włączone domyślnie. |
- CSV - JSON - Avro -Parkiet |
Exclude attribute |
Czy wykluczać atrybuty w elementach. Wartość domyślna to false . |
XML |
Attribute prefix |
Prefiks atrybutów do rozróżniania atrybutów i elementów. Wartość domyślna to _ . |
XML |
Typy danych kolumn
Obsługiwane są następujące typy danych kolumn. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.
Typ danych | opis |
---|---|
BIGINT |
Liczba całkowita ze znakiem 8 bajtów. |
BOOLEAN |
Wartości logiczne (true , false ). |
DATE |
i dzień, bez strefy czasowej. |
DECIMAL (P,S) |
Liczby o maksymalnej precyzji P i stałej skali S . |
DOUBLE |
8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji. |
STRING |
Wartości ciągów znaków. |
TIMESTAMP |
Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji. |
Znane problemy
- Mogą wystąpić problemy z znakami specjalnymi w złożonych typach danych, takich jak obiekt JSON z kluczem zawierającym backtick lub dwukropek.
- Niektóre pliki JSON mogą wymagać ręcznego wybrania formatu JSON dla typu pliku. Aby ręcznie wybrać typ pliku po wybraniu plików, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz pozycję JSON.
- Zagnieżdżone znaczniki czasu i liczby dziesiętne wewnątrz typów złożonych mogą napotkać problemy.