Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików

Artykuł
01/23/2025

Tworzenie lub modyfikowanie tabeli przy użyciu strony przekazywania plików umożliwia przekazywanie plików CSV, TSV lub JSON, Avro, Parquet lub plików tekstowych w celu utworzenia lub zastąpienia zarządzanej tabeli usługi Delta Lake.

Zarządzane tabele Delta można tworzyć w Unity Catalog lub w magazynie metadanych Hive.

Uwaga

Ponadto można użyć użyć interfejsu użytkownika dodawania danych lub COPY INTO do ładowania plików z magazynu w chmurze.

Ważne

Musisz mieć dostęp do uruchomionego zasobu obliczeniowego i uprawnień do tworzenia tabel w schemacie docelowym.
Administratorzy obszaru roboczego mogą wyłączyć tworzenie lub modyfikowanie tabeli poprzez stronę przesyłania plików.

Interfejs użytkownika umożliwia utworzenie tabeli delty przez zaimportowanie małych plików CSV, TSV, JSON, Avro, Parquet lub plików tekstowych z komputera lokalnego.

Strona Utwórz lub zmodyfikuj tabelę za pomocą przesyłania plików umożliwia przesyłanie do 10 plików jednocześnie.
Łączny rozmiar przekazanych plików musi wynosić mniej niż 2 gigabajty.
Plik musi być plikiem CSV, TSV, JSON, Avro, Parquet lub plikiem tekstowym i mieć rozszerzenie ".csv", ".tsv" (lub ".tab"), ".json", ".avro", ".parquet" lub ".txt".
Skompresowane pliki, takie jak zip i, tar nie są obsługiwane.

Przekazywanie pliku

Kliknij pozycję Nowy > Dodaj dane.
Kliknij Utwórz lub zmodyfikuj tabelę.
Kliknij przycisk przeglądarki plików lub przeciągnij i upuść pliki bezpośrednio w strefie upuszczania.

Uwaga

Zaimportowane pliki są przekazywane do bezpiecznej wewnętrznej lokalizacji na koncie, która jest zbierana codziennie.

Podgląd, konfiguracja i tworzenie tabeli

Dane można przekazać do obszaru przejściowego bez łączenia się z zasobami obliczeniowymi, ale musisz wybrać aktywny zasób obliczeniowy, aby wyświetlić podgląd i skonfigurować tabelę.

Podczas konfigurowania opcji dla tabeli, którą przesłałeś, można przeglądać 50 wierszy danych. Kliknij przyciski siatki lub listy pod nazwą pliku, aby przełączyć prezentację danych.

Usługa Azure Databricks przechowuje pliki danych dla tabel zarządzanych w lokalizacjach skonfigurowanych dla schematu zawierającego. Aby utworzyć tabelę w schemacie, potrzebne są odpowiednie uprawnienia.

Wybierz żądany schemat, w którym chcesz utworzyć tabelę, wykonując następujące czynności:

(Tylko w przypadku obszarów roboczych z włączoną obsługą wykazu Unity Catalogu) Możesz wybrać wykaz lub starsze hive_metastore.
Wybierz schemat.
(Opcjonalnie) Edytuj nazwę tabeli.

Uwaga

Możesz użyć listy rozwijanej, aby wybrać pozycję Zastąp istniejącą tabelę lub Utwórz nową tabelę. Operacje, które próbują utworzyć nowe tabele z konfliktami nazw, wyświetlają komunikat o błędzie.

Przed utworzeniem tabeli można skonfigurować opcje lub kolumny .

Aby utworzyć tabelę, kliknij Utwórz w dolnej części strony.

Opcje formatowania

Opcje formatowania zależą od przekazanego formatu pliku. Typowe opcje formatowania są wyświetlane na pasku nagłówka, natomiast mniej często używane opcje są dostępne w oknie dialogowym Atrybuty zaawansowane.

W przypadku woluminów CSV dostępne są następujące opcje:
- Pierwszy wiersz zawiera nagłówek (domyślnie włączony): ta opcja określa, czy plik CSV/TSV zawiera nagłówek.
- ogranicznik kolumny: znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany. Domyślnie jest to przecinek plików CSV.
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
- Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
- Scalić schemat między wieloma plikami: czy należy ustalić schemat między wieloma plikami i scalić schemat każdego pliku. W przypadku wyłączenia używany jest schemat z jednego pliku.
W przypadku formatu JSON dostępne są następujące opcje:
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
- Wartości w kolumnach obejmują wiele linii (domyślnie włączone): czy wartość kolumny może obejmować wiele linii w pliku.
- Zezwalaj na komentarze (domyślnie włączone): czy komentarze są dozwolone w pliku.
- Zezwalaj na pojedyncze cudzysłowy (domyślnie włączone): czy pojedyncze cudzysłowy są dozwolone w pliku.
- Wnioskowanie znacznika czasu (domyślnie włączone): czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.
W przypadku formatu JSON dostępne są następujące opcje:
- Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
- Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
- Zezwalaj na komentarze, czy komentarze są dozwolone w pliku.
- Zezwalaj na pojedyncze cudzysłowy: czy pojedyncze cudzysłowy są dozwolone w pliku.
- Wnioskowanie znacznika czasu: czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.

Podgląd danych jest automatycznie aktualizowany podczas edytowania opcji formatu.

Uwaga

Podczas przekazywania wielu plików obowiązują następujące reguły:

Ustawienia nagłówka dotyczą wszystkich plików. Upewnij się, że nagłówki są stale nieobecne lub obecne we wszystkich przekazanych plikach, aby uniknąć utraty danych.
Przesłane pliki są łączone, dodając wszystkie dane jako wiersze w tabeli docelowej. Dołączanie lub scalanie rekordów podczas przekazywania plików nie jest obsługiwane.

nazwy i typy kolumn

Możesz edytować nazwy i typy kolumn.

Aby edytować typy, kliknij ikonę z typem .

Uwaga

Nie można edytować typów zagnieżdżonych dla STRUCT lub ARRAY.
Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.

Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).

Typy danych kolumn są domyślnie wnioskowane dla plików CSV i JSON. Wszystkie kolumny można interpretować jako typ STRING, wyłączając atrybuty zaawansowane >Automatycznie wykrywaj typy kolumn.

Uwaga

Wnioskowanie schematu stara się jak najlepiej wykryć typy kolumn. Zmiana typów kolumn może prowadzić do rzutowania niektórych wartości na NULL, jeśli nie można poprawnie rzutować wartości na docelowy typ danych. Konwersja BIGINT do kolumn DATE lub TIMESTAMP nie jest obsługiwana. Usługa Databricks zaleca najpierw utworzenie tabeli, a następnie przekształcenie tych kolumn przy użyciu funkcji SQL.
Aby obsługiwać nazwy kolumn tabeli ze znakami specjalnymi, strona Tworzenie lub modyfikowanie tabeli za pomocą przesyłania plików wykorzystuje mapowanie kolumn.
Aby dodać komentarze do kolumn, utwórz tabelę i przejdź do Eksploratora wykazu, w którym można dodawać komentarze.

Obsługiwane typy danych

Strona Tworzenie lub modyfikowanie tabeli poprzez przesyłanie plików obsługuje następujące typy danych. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.

Typ danych	opis
`BIGINT`	Liczba całkowita ze znakiem 8 bajtów.
`BOOLEAN`	Wartości logiczne (`true`, `false`).
`DATE`	Wartości składające się z wartości pól rok, miesiąc i dzień bez strefy czasowej.
`DOUBLE`	8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji.
`STRING`	Wartości ciągów znaków.
`TIMESTAMP`	Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji.
`STRUCT`	Wartości ze strukturą opisaną przez sekwencję pól.
`ARRAY`	Wartości składające się z sekwencji elementów o typie `elementType`.
`DECIMAL(P,S)`	Liczby o maksymalnej precyzji `P` i stałej skali `S`.

Znane problemy

Rzutowanie BIGINT do typów bez rzutowania, takich jak DATE, takich jak daty w formacie "yyyy", może powodować błędy.

Udostępnij za pośrednictwem

Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików

Przekazywanie pliku

Podgląd, konfiguracja i tworzenie tabeli

Opcje formatowania

nazwy i typy kolumn

Obsługiwane typy danych

Znane problemy

Opinia

Dodatkowe zasoby