Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików
Tworzenie lub modyfikowanie tabeli przy użyciu strony przekazywania plików umożliwia przekazywanie plików CSV, TSV lub JSON, Avro, Parquet lub plików tekstowych w celu utworzenia lub zastąpienia zarządzanej tabeli usługi Delta Lake.
Zarządzane tabele delty można tworzyć w wykazie aparatu Unity lub w magazynie metadanych Hive.
Uwaga
Ponadto możesz użyć interfejsu użytkownika dodawania danych lub funkcji COPY INTO do ładowania plików z magazynu w chmurze.
Ważne
- Musisz mieć dostęp do uruchomionego zasobu obliczeniowego i uprawnień do tworzenia tabel w schemacie docelowym.
- Administratorzy obszaru roboczego mogą wyłączyć tworzenie lub modyfikowanie tabeli przy użyciu strony przekazywania plików.
Interfejs użytkownika umożliwia utworzenie tabeli delty przez zaimportowanie małych plików CSV, TSV, JSON, Avro, Parquet lub plików tekstowych z komputera lokalnego.
- Strona Tworzenia lub modyfikowania tabeli przy użyciu przekazywania plików obsługuje przekazywanie maksymalnie 10 plików jednocześnie.
- Łączny rozmiar przekazanych plików musi wynosić mniej niż 2 gigabajty.
- Plik musi być plikiem CSV, TSV, JSON, Avro, Parquet lub plikiem tekstowym i mieć rozszerzenie ".csv", ".tsv" (lub ".tab"), ".json", ".avro", ".parquet" lub ".txt".
- Skompresowane pliki, takie jak
zip
i,tar
nie są obsługiwane.
Przekazywanie pliku
- Kliknij pozycję Nowy > Dodaj dane.
- Kliknij pozycję Utwórz lub zmodyfikuj tabelę.
- Kliknij przycisk przeglądarki plików lub przeciągnij i upuść pliki bezpośrednio w strefie upuszczania.
Uwaga
Zaimportowane pliki są przekazywane do bezpiecznej wewnętrznej lokalizacji na koncie, która jest zbierana codziennie.
Wyświetlanie podglądu, konfigurowanie i tworzenie tabeli
Dane można przekazać do obszaru przejściowego bez łączenia się z zasobami obliczeniowymi, ale musisz wybrać aktywny zasób obliczeniowy, aby wyświetlić podgląd i skonfigurować tabelę.
Podczas konfigurowania opcji przekazanej tabeli można wyświetlić podgląd 50 wierszy danych. Kliknij przyciski siatki lub listy pod nazwą pliku, aby przełączyć prezentację danych.
Usługa Azure Databricks przechowuje pliki danych dla tabel zarządzanych w lokalizacjach skonfigurowanych dla zawierającego schemat. Aby utworzyć tabelę w schemacie, potrzebne są odpowiednie uprawnienia.
Wybierz żądany schemat, w którym chcesz utworzyć tabelę, wykonując następujące czynności:
- (Tylko w przypadku obszarów roboczych z obsługą wykazu aparatu Unity) Możesz wybrać wykaz lub starsze
hive_metastore
wersje . - Wybierz schemat.
- (Opcjonalnie) Edytuj nazwę tabeli.
Uwaga
Możesz użyć listy rozwijanej, aby wybrać pozycję Zastąp istniejącą tabelę lub Utwórz nową tabelę. Operacje, które próbują utworzyć nowe tabele z konfliktami nazw, wyświetlają komunikat o błędzie.
Przed utworzeniem tabeli można skonfigurować opcje lub kolumny .
Aby utworzyć tabelę, kliknij pozycję Utwórz w dolnej części strony.
Opcje formatowania
Opcje formatowania zależą od przekazanego formatu pliku. Typowe opcje formatowania są wyświetlane na pasku nagłówka, natomiast mniej często używane opcje są dostępne w oknie dialogowym Atrybuty zaawansowane.
- W przypadku woluminów CSV dostępne są następujące opcje:
- Pierwszy wiersz zawiera nagłówek (domyślnie włączony): ta opcja określa, czy plik CSV/TSV zawiera nagłówek.
- Ogranicznik kolumn: znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany. Domyślnie jest to przecinek plików CSV.
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako
STRING
. - Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
- Scal schemat między wieloma plikami: czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. W przypadku wyłączenia schemat z jednego pliku jest używany.
- W przypadku formatu JSON dostępne są następujące opcje:
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako
STRING
. - Wiersze obejmują wiele wierszy (domyślnie włączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
- Zezwalaj na komentarze (domyślnie włączone): czy komentarze są dozwolone w pliku.
- Zezwalaj na pojedyncze cudzysłowy (domyślnie włączone): czy pojedyncze cudzysłowy są dozwolone w pliku.
- Wnioskowanie znacznika czasu (domyślnie włączone): czy spróbować wywnioskować ciągi znacznika czasu jako
TimestampType
.
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako
- W przypadku formatu JSON dostępne są następujące opcje:
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako
STRING
. - Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
- Zezwalaj na komentarze, czy komentarze są dozwolone w pliku.
- Zezwalaj na pojedyncze cudzysłowy: czy pojedyncze cudzysłowy są dozwolone w pliku.
- Wnioskowanie znacznika czasu: czy spróbować wywnioskować ciągi znacznika czasu jako
TimestampType
.
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako
Podgląd danych jest automatycznie aktualizowany podczas edytowania opcji formatu.
Uwaga
Podczas przekazywania wielu plików obowiązują następujące reguły:
- Ustawienia nagłówka dotyczą wszystkich plików. Upewnij się, że nagłówki są stale nieobecne lub obecne we wszystkich przekazanych plikach, aby uniknąć utraty danych.
- Przekazane pliki łączą się, dołączając wszystkie dane jako wiersze w tabeli docelowej. Dołączanie lub scalanie rekordów podczas przekazywania plików nie jest obsługiwane.
Nazwy i typy kolumn
Możesz edytować nazwy i typy kolumn.
Aby edytować typy, kliknij ikonę z typem .
Uwaga
Nie można edytować typów zagnieżdżonych dla
STRUCT
lubARRAY
.Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.
Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).
Typy danych kolumn są domyślnie wnioskowane dla plików CSV i JSON. Wszystkie kolumny można interpretować jako STRING
typ, wyłączając opcję Atrybuty>zaawansowane Automatycznie wykrywaj typy kolumn.
Uwaga
- Wnioskowanie schematu wykonuje najlepsze wykrywanie typów kolumn. Zmiana typów kolumn może prowadzić do rzutowania niektórych wartości,
NULL
jeśli nie można poprawnie rzutować wartości na docelowy typ danych. RzutowanieBIGINT
doDATE
kolumn lubTIMESTAMP
nie jest obsługiwane. Usługa Databricks zaleca najpierw utworzenie tabeli, a następnie przekształcenie tych kolumn przy użyciu funkcji SQL. - Aby obsługiwać nazwy kolumn tabeli ze znakami specjalnymi, strona Tworzenia lub modyfikowania tabeli przy użyciu strony przekazywania plików korzysta z mapowania kolumn.
- Aby dodać komentarze do kolumn, utwórz tabelę i przejdź do Eksploratora wykazu, w którym można dodawać komentarze.
Obsługiwane typy danych
Strona Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików obsługuje następujące typy danych. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.
Typ danych | opis |
---|---|
BIGINT |
Liczba całkowita ze znakiem 8 bajtów. |
BOOLEAN |
Wartości logiczne (true , false ). |
DATE |
Wartości składające się z wartości pól rok, miesiąc i dzień bez strefy czasowej. |
DOUBLE |
8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji. |
STRING |
Wartości ciągów znaków. |
TIMESTAMP |
Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji. |
STRUCT |
Wartości ze strukturą opisaną przez sekwencję pól. |
ARRAY |
Wartości składające się z sekwencji elementów z typemelementType . |
DECIMAL(P,S) |
Liczby o maksymalnej precyzji P i stałej skali S . |
Znane problemy
Rzutowanie BIGINT
do typów bez rzutowania, takich jak DATE
, takich jak daty w formacie "yyyy", może powodować błędy.