read_files
funkcja wartości tabeli
Dotyczy: Databricks SQL Databricks Runtime 13.3 LTS i nowsze
Odczytuje pliki w podanej lokalizacji i zwraca dane w postaci tabelarycznej.
Obsługuje odczytywanie JSON
formatów plików , BINARYFILE
TEXT
XML
PARQUET
CSV
AVRO
i .ORC
Umożliwia automatyczne wykrywanie formatu pliku i wnioskowanie o ujednoliconym schemacie we wszystkich plikach.
Składnia
read_files(path [, option_key => option_value ] [...])
Argumenty
Ta funkcja wymaga wywołania nazwanego parametru dla kluczy opcji.
path
: ASTRING
z identyfikatorem URI lokalizacji danych. Obsługuje odczyt z usługi Azure Data Lake Storage Gen2 ('abfss://'
), S3 (s3://
) i Google Cloud Storage ('gs://'
). Może zawierać globy. Aby uzyskać więcej informacji, zobacz Odnajdywanie plików.option_key
: nazwa opcji do skonfigurowania. Należy użyć backticks (') dla opcji zawierających kropki (.
).option_value
: wyrażenie stałe, aby ustawić opcję na . Akceptuje literały i funkcje skalarne.
Zwraca
Tabela składająca się z danych z plików odczytanych w danym path
obiekcie .
Odnajdywanie plików
read_files
może odczytywać pojedynczy plik lub odczytywać pliki w podanym katalogu. read_files
odnajduje wszystkie pliki w podanym katalogu rekursywnie, chyba że podano element glob , który nakazuje read_files
rekursję do określonego wzorca katalogu.
Filtrowanie katalogów lub plików przy użyciu wzorców glob
Wzorce globu mogą służyć do filtrowania katalogów i plików, jeśli podano w ścieżce.
Wzorzec | opis |
---|---|
? |
Pasuje do dowolnego pojedynczego znaku |
* |
Dopasuje zero lub więcej znaków |
[abc] |
Dopasuje pojedynczy znak z zestawu znaków {a,b,c}. |
[a-z] |
Dopasuje pojedynczy znak z zakresu znaków {a... z}. |
[^a] |
Dopasuje pojedynczy znak, który nie pochodzi z zestawu znaków lub zakresu {a}. Należy pamiętać, że ^ znak musi występować natychmiast po prawej stronie nawiasu otwierającego. |
{ab,cd} |
Dopasuje ciąg z zestawu ciągów {ab, cd}. |
{ab,c{de, fh}} |
Dopasuje ciąg z zestawu ciągów {ab, cde, cfh}. |
read_files
używa ścisłego globberu narzędzia Auto Loader podczas odnajdywania plików z globsami. Jest to konfigurowane przez useStrictGlobber
opcję . Gdy ścisły globber jest wyłączony, końcowe ukośniki (/
) są porzucane, a wzorzec gwiazdy, taki jak /*/
może rozwinąć się w odnajdywanie wielu katalogów. Zapoznaj się z poniższymi przykładami, aby zobaczyć różnicę w zachowaniu.
Wzorzec | Ścieżka pliku | Wyłączone ścisłe globber | Włączono ścisły globber |
---|---|---|---|
/a/b |
/a/b/c/file.txt |
Tak | Tak |
/a/b |
/a/b_dir/c/file.txt |
Nie | Nie |
/a/b |
/a/b.txt |
Nie | Nie |
/a/b/ |
/a/b.txt |
Nie | Nie |
/a/*/c/ |
/a/b/c/file.txt |
Tak | Tak |
/a/*/c/ |
/a/b/c/d/file.txt |
Tak | Tak |
/a/*/d/ |
/a/b/c/d/file.txt |
Tak | Nie |
/a/*/c/ |
/a/b/x/y/c/file.txt |
Tak | Nie |
/a/*/c |
/a/b/c_file.txt |
Tak | Nie |
/a/*/c/ |
/a/b/c_file.txt |
Tak | Nie |
/a/*/c |
/a/b/cookie/file.txt |
Tak | Nie |
/a/b* |
/a/b.txt |
Tak | Tak |
/a/b* |
/a/b/file.txt |
Tak | Tak |
/a/{0.txt,1.txt} |
/a/0.txt |
Tak | Tak |
/a/*/{0.txt,1.txt} |
/a/0.txt |
Nie | Nie |
/a/b/[cde-h]/i/ |
/a/b/c/i/file.txt |
Tak | Tak |
Wnioskowanie schematu
Schemat plików można jawnie udostępnić read_files
za pomocą schema
opcji . Gdy schemat nie zostanie podany, read_files
próbuje wywnioskować ujednolicony schemat między odnalezionymi plikami, co wymaga odczytania wszystkich plików, chyba że zostanie użyta LIMIT
instrukcja. Nawet w przypadku korzystania z LIMIT
zapytania większy zestaw plików niż wymagany może zostać odczytany w celu zwrócenia bardziej reprezentatywnego schematu danych. Usługa Databricks automatycznie dodaje instrukcję LIMIT
dla SELECT
zapytań w notesach i edytorze SQL, jeśli użytkownik go nie podał.
Za schemaHints
pomocą opcji można naprawić podzestawy wywnioskowanym schematu. Aby uzyskać więcej szczegółów, zobacz Zastępowanie wnioskowania schematu za pomocą wskazówek schematu .
Element A rescuedDataColumn
jest domyślnie udostępniany do ratowania wszystkich danych, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych? Możesz usunąć tę rescuedDataColumn
opcję, ustawiając opcję schemaEvolutionMode => 'none'
.
Wnioskowanie schematu partycji
read_files
może również wnioskować kolumny partycjonowania, jeśli pliki są przechowywane w katalogach podzielonych na partycje w stylu Hive, czyli /column_name=column_value/
. Jeśli element zostanie schema
podany, odnalezione kolumny partycji używają typów podanych w pliku schema
. Jeśli kolumny partycji nie są częścią podanej schema
wartości , wnioskowane kolumny partycji są ignorowane.
Jeśli kolumna istnieje zarówno w schemacie partycji, jak i w kolumnach danych, wartość odczytywana z wartości partycji jest używana zamiast wartości danych. Jeśli chcesz zignorować wartości pochodzące z katalogu i użyć kolumny danych, możesz podać listę kolumn partycji na liście rozdzielanej przecinkami z opcją partitionColumns
.
Można partitionColumns
również użyć opcji , aby poinstruować read_files
, które odnalezione kolumny mają zostać uwzględnione w końcowym schemacie wnioskowanym. Podanie pustego ciągu ignoruje wszystkie kolumny partycji.
schemaHints
Można również podać opcję zastąpienia wnioskowanego schematu dla kolumny partycji.
Formaty TEXT
i BINARYFILE
mają stały schemat, ale read_files
także próbuje wywnioskować partycjonowanie dla tych formatów, gdy jest to możliwe.
Użycie w tabelach przesyłania strumieniowego
read_files
można używać w tabelach przesyłania strumieniowego do pozyskiwania plików do usługi Delta Lake. read_files
korzysta z modułu automatycznego ładowania w przypadku użycia w zapytaniu tabeli przesyłania strumieniowego. Musisz użyć słowa kluczowego STREAM
z read_files
. Aby uzyskać więcej informacji, zobacz Co to jest moduł automatycznego ładowania?
W przypadku użycia w zapytaniu read_files
przesyłanym strumieniowo używa próbki danych do wnioskowania schematu i może rozwijać schemat w miarę przetwarzania większej ilości danych. Aby uzyskać więcej informacji, zobacz Konfigurowanie wnioskowania schematu i ewolucji w module automatycznego ładowania .
Opcje
- Opcje podstawowe
- Opcje ogólne
JSON
OpcjeCSV
OpcjeXML
OpcjePARQUET
OpcjeAVRO
OpcjeBINARYFILE
OpcjeTEXT
OpcjeORC
Opcje- Opcje przesyłania strumieniowego
Opcje podstawowe
Opcja |
---|
format Typ: String Format pliku danych w ścieżce źródłowej. Automatycznie wnioskowane, jeśli nie podano. Dozwolone wartości obejmują: - avro : plik Avro- binaryFile : plik binarny- csv : Odczytywanie plików CSV- json : plik JSON- orc : plik ORC- parquet : Odczytywanie plików Parquet przy użyciu usługi Azure Databricks- text : Pliki tekstowe- xml : Odczytywanie i zapisywanie plików XMLWartość domyślna: Brak |
inferColumnTypes Typ: Boolean Czy wywnioskować dokładne typy kolumn podczas korzystania z wnioskowania schematu. Domyślnie kolumny są wnioskowane podczas wnioskowania zestawów danych JSON i CSV. Aby uzyskać więcej informacji, zobacz wnioskowanie schematu. Należy pamiętać, że jest to przeciwieństwo domyślnego automatycznego modułu ładującego. Wartość domyślna: true |
partitionColumns Typ: String Rozdzielona przecinkami lista kolumn partycji stylu hive, które mają być wywnioskowane z struktury katalogów plików. Kolumny partycji stylu hive to pary klucz-wartość połączone znakiem równości, takim jak <base-path>/a=x/b=1/c=y/file.format . W tym przykładzie kolumny partycji to a , b i c . Domyślnie te kolumny zostaną automatycznie dodane do schematu, jeśli używasz wnioskowania schematu i udostępniasz element <base-path> do ładowania danych. Jeśli podasz schemat, moduł automatycznego ładowania oczekuje, że te kolumny zostaną uwzględnione w schemacie. Jeśli nie chcesz, aby te kolumny były częścią schematu, możesz określić "" , aby ignorować te kolumny. Ponadto możesz użyć tej opcji, jeśli chcesz, aby kolumny mogły być wywnioskowane ścieżką pliku w złożonych strukturach katalogów, podobnie jak w poniższym przykładzie:<base-path>/year=2022/week=1/file1.csv <base-path>/year=2022/month=2/day=3/file2.csv <base-path>/year=2022/month=2/day=4/file3.csv Określanie cloudFiles.partitionColumns jako year,month,day zwróci wartośćyear=2022 dla file1.csv parametru , ale kolumny month i day będą mieć wartość null .month i zostaną poprawnie przeanalizowane dla file2.csv i day file3.csv .Wartość domyślna: Brak |
schemaHints Typ: String Informacje o schemacie podane do modułu automatycznego ładowania podczas wnioskowania schematu. Aby uzyskać więcej szczegółów, zobacz wskazówki dotyczące schematu. Wartość domyślna: Brak |
useStrictGlobber Typ: Boolean Czy używać ścisłego globberu zgodnego z domyślnym zachowaniem globbingu innych źródeł plików na platformie Apache Spark. Aby uzyskać więcej informacji, zobacz Typowe wzorce ładowania danych. Dostępne w środowisku Databricks Runtime 12.2 LTS lub nowszym. Należy pamiętać, że jest to przeciwieństwo domyślnego modułu ładującego automatycznie. Wartość domyślna: true |
Opcje ogólne
Poniższe opcje mają zastosowanie do wszystkich formatów plików.
Opcja |
---|
ignoreCorruptFiles Typ: Boolean Czy ignorować uszkodzone pliki. Jeśli ma wartość true, zadania platformy Spark będą nadal działać po napotkaniu uszkodzonych plików, a zawartość, która została odczytowana, będzie nadal zwracana. Obserwowalny, jak numSkippedCorruptFiles woperationMetrics kolumna historii usługi Delta Lake. Dostępne w środowisku Databricks Runtime 11.3 LTS i nowszym.Wartość domyślna: false |
ignoreMissingFiles Typ: Boolean Czy ignorować brakujące pliki. Jeśli to prawda, zadania platformy Spark będą nadal działać po napotkaniu brakujących plików, a zawartość, która została odczytowana, będzie nadal zwracana. Dostępne w środowisku Databricks Runtime 11.3 LTS i nowszym. Wartość domyślna: false (true dla COPY INTO ) |
modifiedAfter Typ: Timestamp String , na przykład 2021-01-01 00:00:00.000000 UTC+0 Opcjonalny znacznik czasu pozyskiwania plików, które mają sygnaturę czasową modyfikacji po podanym znaczniku czasu. Wartość domyślna: Brak |
modifiedBefore Typ: Timestamp String , na przykład 2021-01-01 00:00:00.000000 UTC+0 Opcjonalny znacznik czasu pozyskiwania plików, które mają sygnaturę czasową modyfikacji przed podanym znacznikiem czasu. Wartość domyślna: Brak |
pathGlobFilter lub fileNamePattern Typ: String Potencjalny wzorzec globu umożliwiający wybór plików. Odpowiednik PATTERN w pliku COPY INTO . fileNamePattern można użyć w pliku read_files .Wartość domyślna: Brak |
recursiveFileLookup Typ: Boolean Czy pominąć wnioskowanie partycji podczas wnioskowania schematu. Nie ma to wpływu na pliki, które są ładowane. Wartość domyślna: false |
JSON
Opcje
Opcja |
---|
allowBackslashEscapingAnyCharacter Typ: Boolean Czy zezwolić na ukośniki odwrotne, aby uniknąć dowolnego znaku, który go zakończy. Jeśli nie jest włączona, tylko znaki, które są jawnie wymienione przez specyfikację JSON, mogą zostać uniknione. Wartość domyślna: false |
allowComments Typ: Boolean Czy zezwalać na używanie komentarzy w stylu Java, C i C++ ( '/' , '*' , i '//' odmian) w analizowanej zawartości, czy nie.Wartość domyślna: false |
allowNonNumericNumbers Typ: Boolean Określa, czy zezwalać na zestaw tokenów innych niż liczba ( NaN ) jako wartości liczb zmiennoprzecinkowych prawnych.Wartość domyślna: true |
allowNumericLeadingZeros Typ: Boolean Czy zezwalać na uruchamianie liczb całkowitych z dodatkowymi (ignorowanymi) zerami (na przykład 000001 ).Wartość domyślna: false |
allowSingleQuotes Typ: Boolean Czy zezwalać na używanie pojedynczych cudzysłowów (apostrof, znak '\' ) do cytowania ciągów (nazw i wartości ciągu).Wartość domyślna: true |
allowUnquotedControlChars Typ: Boolean Czy zezwolić ciągom JSON na zawieranie znaków kontrolki niewyobrażanych (znaki ASCII o wartości mniejszej niż 32, w tym znaki tabulatora i kanału informacyjnego wiersza), czy też nie. Wartość domyślna: false |
allowUnquotedFieldNames Typ: Boolean Czy zezwalać na używanie niekwotowanych nazw pól (które są dozwolone przez język JavaScript, ale nie przez specyfikację JSON). Wartość domyślna: false |
badRecordsPath Typ: String Ścieżka do przechowywania plików do rejestrowania informacji o nieprawidłowych rekordach JSON. Wartość domyślna: Brak |
columnNameOfCorruptRecord Typ: String Kolumna do przechowywania rekordów, które są źle sformułowane i nie można ich przeanalizować. mode Jeśli dla analizowania ustawiono wartość DROPMALFORMED , ta kolumna będzie pusta.Wartość domyślna: _corrupt_record |
dateFormat Typ: String Format analizowania ciągów dat. Wartość domyślna: yyyy-MM-dd |
dropFieldIfAllNull Typ: Boolean Czy ignorować kolumny wszystkich wartości null, czy puste tablice i struktury podczas wnioskowania schematu. Wartość domyślna: false |
encoding lub charset Typ: String Nazwa kodowania plików JSON. Zobacz java.nio.charset.Charset listę opcji. Nie można użyć polecenia UTF-16 i UTF-32 gdy multiline ma wartość true .Wartość domyślna: UTF-8 |
inferTimestamp Typ: Boolean Czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType . Gdy jest ustawiona wartośćtrue wnioskowanie schematu może trwać znacznie dłużej. Należy włączyć cloudFiles.inferColumnTypes używanie z modułem automatycznego ładowania.Wartość domyślna: false |
lineSep Typ: String Ciąg między dwoma kolejnymi rekordami JSON. Wartość domyślna: Brak, który obejmuje \r wartości , \r\n i \n |
locale Typ: String Identyfikator java.util.Locale . Wpływa na domyślną datę, znacznik czasu i analizowanie dziesiętne w formacie JSON.Wartość domyślna: US |
mode Typ: String Tryb analizatora wokół obsługi nieprawidłowo sformułowanych rekordów. 'PERMISSIVE' Jeden z ,'DROPMALFORMED' lub 'FAILFAST' .Wartość domyślna: PERMISSIVE |
multiLine Typ: Boolean Określa, czy rekordy JSON obejmują wiele wierszy. Wartość domyślna: false |
prefersDecimal Typ: Boolean Próbuje wywnioskować ciągi jako DecimalType zamiast typu zmiennoprzecinkowego lub podwójnego, jeśli jest to możliwe. Należy również użyć wnioskowania schematu, albo przez włączenieinferSchema lub za pomocą cloudFiles.inferColumnTypes modułu automatycznego ładowania.Wartość domyślna: false |
primitivesAsString Typ: Boolean Czy wywnioskować typy pierwotne, takie jak liczby i wartości logiczne jako StringType .Wartość domyślna: false |
readerCaseSensitive Typ: Boolean Określa zachowanie poufności wielkości liter po rescuedDataColumn włączeniu. Jeśli to prawda, należy uratować kolumny danych, których nazwy różnią się wielkością liter od schematu; w przeciwnym razie odczytaj dane w sposób niewrażliwy na wielkość liter. Dostępne w środowisku Databricks Runtime13.3 i nowsze. Wartość domyślna: true |
rescuedDataColumn Typ: String Czy zebrać wszystkie dane, których nie można przeanalizować z powodu niezgodności typu danych lub niezgodności schematu (w tym wielkości liter kolumn) do oddzielnej kolumny. Ta kolumna jest domyślnie dołączana podczas korzystania z modułu automatycznego ładowania. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Wartość domyślna: Brak |
singleVariantColumn Typ: String Czy pozyskać cały dokument JSON, przeanalizowany w jednej kolumnie Wariant z podanym ciągiem jako nazwą kolumny. W przypadku wyłączenia pola JSON zostaną pozyskane do własnych kolumn. Wartość domyślna: Brak |
timestampFormat Typ: String Format analizowania ciągów znacznika czasu. Wartość domyślna: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZone Typ: String Element java.time.ZoneId do użycia podczas analizowania sygnatur czasowych i dat.Wartość domyślna: Brak |
CSV
Opcje
Opcja |
---|
badRecordsPath Typ: String Ścieżka do przechowywania plików do rejestrowania informacji o nieprawidłowych rekordach CSV. Wartość domyślna: Brak |
charToEscapeQuoteEscaping Typ: Char Znak używany do ucieczki znaku używanego do ucieczki cudzysłowów. Na przykład dla następującego rekordu: : [ " a\\", b ] - Jeśli znak ucieczki jest '\' niezdefiniowany, rekord nie zostanie przeanalizowany. Analizator odczytuje znaki: [a],[\],["],[,],[ ],[b] i zgłasza błąd, ponieważ nie może znaleźć cudzysłowu zamykającego.- Jeśli znak ucieczki '\' jest zdefiniowany jako '\' , rekord zostanie odczytany z 2 wartościami: [a\] i [b] .Wartość domyślna: '\0' |
columnNameOfCorruptRecord > [! UWAGA] >> Obsługiwane w przypadku automatycznego modułu ładującego. Nieobsługiwane dla programu COPY INTO .Typ: String Kolumna do przechowywania rekordów, które są źle sformułowane i nie można ich przeanalizować. mode Jeśli dla analizowania ustawiono wartość DROPMALFORMED , ta kolumna będzie pusta.Wartość domyślna: _corrupt_record |
comment Typ: Char Definiuje znak reprezentujący komentarz wiersza znaleziony na początku wiersza tekstu. Użyj polecenia '\0' , aby wyłączyć pomijanie komentarza.Wartość domyślna: '\u0000' |
dateFormat Typ: String Format analizowania ciągów dat. Wartość domyślna: yyyy-MM-dd |
emptyValue Typ: String Reprezentacja ciągu pustej wartości. Wartość domyślna: "" |
encoding lub charset Typ: String Nazwa kodowania plików CSV. Zobacz java.nio.charset.Charset listę opcji. UTF-16 i UTF-32 nie można go użyć, gdy multiline ma wartość true .Wartość domyślna: UTF-8 |
enforceSchema Typ: Boolean Czy wymuszać stosowanie określonego lub wnioskowane schematu do plików CSV. Jeśli opcja jest włączona, nagłówki plików CSV są ignorowane. Ta opcja jest domyślnie ignorowana podczas używania automatycznego modułu ładującego do ratowania danych i zezwalania na ewolucję schematu. Wartość domyślna: true |
escape Typ: Char Znak ucieczki do użycia podczas analizowania danych. Wartość domyślna: '\' |
header Typ: Boolean Określa, czy pliki CSV zawierają nagłówek. Automatyczne moduł ładujący zakłada, że pliki mają nagłówki podczas wnioskowania schematu. Wartość domyślna: false |
ignoreLeadingWhiteSpace Typ: Boolean Czy ignorować wiodące odstępy dla każdej przeanalizowanej wartości. Wartość domyślna: false |
ignoreTrailingWhiteSpace Typ: Boolean Czy ignorować końcowe odstępy dla każdej analizowanej wartości. Wartość domyślna: false |
inferSchema Typ: Boolean Czy wywnioskować typy danych analizowanych rekordów CSV, czy przyjąć, że wszystkie kolumny mają wartość StringType . Wymaga dodatkowego przekazania danych, jeśli ustawiono wartość true . W przypadku automatycznego modułu ładującego użyj zamiast tego.cloudFiles.inferColumnTypes Wartość domyślna: false |
lineSep Typ: String Ciąg między dwoma kolejnymi rekordami CSV. Wartość domyślna: Brak, który obejmuje \r wartości , \r\n i \n |
locale Typ: String Identyfikator java.util.Locale . Wpływa na domyślną datę, znacznik czasu i analizowanie dziesiętne w pliku CSV.Wartość domyślna: US |
maxCharsPerColumn Typ: Int Maksymalna liczba znaków oczekiwana od wartości do przeanalizowania. Może służyć do unikania błędów pamięci. Wartość domyślna to -1 , co oznacza nieograniczoną liczbę.Wartość domyślna: -1 |
maxColumns Typ: Int Stały limit liczby kolumn, które może mieć rekord. Wartość domyślna: 20480 |
mergeSchema Typ: Boolean Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. Domyślnie włączono funkcję automatycznego ładowania podczas wnioskowania schematu. Wartość domyślna: false |
mode Typ: String Tryb analizatora wokół obsługi nieprawidłowo sformułowanych rekordów. 'PERMISSIVE' Jeden z ,'DROPMALFORMED' , i 'FAILFAST' .Wartość domyślna: PERMISSIVE |
multiLine Typ: Boolean Określa, czy rekordy CSV obejmują wiele wierszy. Wartość domyślna: false |
nanValue Typ: String Reprezentacja ciągu wartości innej niż liczba podczas analizowania FloatType i DoubleType kolumn.Wartość domyślna: "NaN" |
negativeInf Typ: String Reprezentacja ciągu nieskończoności ujemnej podczas analizowania FloatType lub DoubleType kolumn.Wartość domyślna: "-Inf" |
nullValue Typ: String Reprezentacja ciągu wartości null. Wartość domyślna: "" |
parserCaseSensitive (przestarzałe)Typ: Boolean Podczas odczytywania plików należy wyrównywać kolumny zadeklarowane w nagłówku z uwzględnieniem wielkości liter schematu. true Jest to domyślnie w przypadku automatycznego modułu ładującego. Kolumny, które różnią się wielkością liter, zostaną uratowane w przypadku włączenia rescuedDataColumn . Ta opcja została uznana za przestarzałą na rzecz .readerCaseSensitive Wartość domyślna: false |
positiveInf Typ: String Reprezentacja ciągu nieskończoności dodatniej podczas analizowania FloatType lub DoubleType kolumn.Wartość domyślna: "Inf" |
preferDate Typ: Boolean Próbuje wywnioskować ciągi jako daty zamiast znacznika czasu, gdy jest to możliwe. Należy również użyć wnioskowania schematu, włączając inferSchema lub używając poleceniacloudFiles.inferColumnTypes z automatycznym modułem ładujący.Wartość domyślna: true |
quote Typ: Char Znak używany do ucieczki wartości, w których ogranicznik pola jest częścią wartości. Wartość domyślna: " |
readerCaseSensitive Typ: Boolean Określa zachowanie poufności wielkości liter po rescuedDataColumn włączeniu. Jeśli to prawda, należy uratować kolumny danych, których nazwy różnią się wielkością liter od schematu; w przeciwnym razie odczytaj dane w sposób niewrażliwy na wielkość liter.Wartość domyślna: true |
rescuedDataColumn Typ: String Czy zebrać wszystkie dane, których nie można przeanalizować z powodu niezgodności typu danych i niezgodności schematu (w tym wielkości liter kolumn) do oddzielnej kolumny. Ta kolumna jest domyślnie dołączana podczas korzystania z modułu automatycznego ładowania. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Wartość domyślna: Brak |
sep lub delimiter Typ: String Ciąg separatora między kolumnami. Wartość domyślna: "," |
skipRows Typ: Int Liczba wierszy z początku pliku CSV, które powinny być ignorowane (w tym z komentarzami i pustymi wierszami). Jeśli header ma wartość true, nagłówek będzie pierwszym niezamapowanym i bez komentarza wierszem.Wartość domyślna: 0 |
timestampFormat Typ: String Format analizowania ciągów znacznika czasu. Wartość domyślna: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZone Typ: String Element java.time.ZoneId do użycia podczas analizowania sygnatur czasowych i dat.Wartość domyślna: Brak |
unescapedQuoteHandling Typ: String Strategia obsługi niewyobrażonych cudzysłowów. Dozwolone opcje: - STOP_AT_CLOSING_QUOTE : Jeśli w danych wejściowych znajdują się niewyspoznane cudzysłowy, zakumuluj znak cudzysłowu i kontynuuj analizowanie wartości jako wartości cudzysłowu cudzysłowu, aż zostanie znaleziony cudzysłów zamykający.- BACK_TO_DELIMITER : Jeśli w danych wejściowych znajdują się nieprzeznaczone cudzysłowy, należy rozważyć wartość jako wartość bez cudzysłowu. Spowoduje to, że analizator zgromadzi wszystkie znaki bieżącej wartości analizowanej do momentu znalezienia ogranicznika zdefiniowanego przez sep element . Jeśli w wartości nie znaleziono ogranicznika, analizator będzie nadal gromadzić znaki z danych wejściowych do momentu znalezienia ogranicznika lub zakończenia wiersza.- STOP_AT_DELIMITER : Jeśli w danych wejściowych znajdują się nieprzeznaczone cudzysłowy, należy rozważyć wartość jako wartość bez cudzysłowu. Spowoduje to, że analizator zgromadzi wszystkie znaki do momentu znalezienia ogranicznika zdefiniowanego przez sep element lub zakończenia wiersza w danych wejściowych.- SKIP_VALUE : Jeśli w danych wejściowych zostaną znalezione niewyspoznane cudzysłowy, zawartość przeanalizowana dla danej wartości zostanie pominięta (do momentu znalezienia następnego ogranicznika), a zamiast tego zostanie wygenerowana wartość ustawiona w nullValue .- RAISE_ERROR : Jeśli w danych wejściowych znajdują się niewyobrażalne cudzysłowy, aTextParsingException zostanie zgłoszony.Wartość domyślna: STOP_AT_DELIMITER |
XML
Opcje
Opcja | Opis | Scope |
---|---|---|
rowTag |
Tag wiersza plików XML do traktowania jako wiersza. W przykładowym pliku XML <books> <book><book>...<books> odpowiednia wartość to book . Ta opcja jest wymagana. |
odczyt |
samplingRatio |
Definiuje ułamek wierszy używanych do wnioskowania schematu. Wbudowane funkcje XML ignorują tę opcję. Wartość domyślna: 1.0 . |
odczyt |
excludeAttribute |
Czy wykluczać atrybuty w elementach. Wartość domyślna: false . |
odczyt |
mode |
Tryb radzenia sobie z uszkodzonymi rekordami podczas analizowania.PERMISSIVE : W przypadku uszkodzonych rekordów źle sformułowany ciąg jest umieszczany w polu skonfigurowanym przez columnNameOfCorruptRecord program i ustawia źle sformułowane pola na null wartość . Aby zachować uszkodzone rekordy, można ustawić string pole typu o nazwie columnNameOfCorruptRecord w schemacie zdefiniowanym przez użytkownika. Jeśli schemat nie ma pola, uszkodzone rekordy są porzucane podczas analizowania. Podczas wnioskowania schematu analizator niejawnie dodaje columnNameOfCorruptRecord pole w schemacie wyjściowym.DROPMALFORMED : ignoruje uszkodzone rekordy. Ten tryb nie jest obsługiwany dla wbudowanych funkcji XML.FAILFAST : zgłasza wyjątek, gdy analizator spełnia uszkodzone rekordy. |
odczyt |
inferSchema |
Jeśli true program próbuje wywnioskować odpowiedni typ dla każdej wynikowej kolumny ramki danych. Jeśli false wszystkie wynikowe kolumny są string typu . Wartość domyślna:true . Wbudowane funkcje XML ignorują tę opcję. |
odczyt |
columnNameOfCorruptRecord |
Umożliwia zmianę nazwy nowego pola zawierającego źle sformułowany ciąg utworzony przezPERMISSIVE tryb. Wartość domyślna: spark.sql.columnNameOfCorruptRecord . |
odczyt |
attributePrefix |
Prefiks atrybutów do odróżnienia atrybutów od elementów. Będzie to prefiks nazw pól. Wartość domyślna to _ . Może być pusty do odczytywania kodu XML, ale nie do zapisu. |
odczyt, zapis |
valueTag |
Tag używany dla danych znaków w elementach, które mają również atrybuty lub elementy podrzędne. Użytkownik może określić valueTag pole w schemacie lub zostanie dodany automatycznie podczas wnioskowania schematu, gdy dane znaków znajdują się w elementach z innymi elementami lub atrybutami. Domyślnie: _VALUE |
odczyt,zapis |
encoding |
Do odczytu dekoduje pliki XML według danego typu kodowania. Na potrzeby pisania określa kodowanie (charset) zapisanych plików XML. Wbudowane funkcje XML ignorują tę opcję. Wartość domyślna: UTF-8 . |
odczyt, zapis |
ignoreSurroundingSpaces |
Określa, czy wokół białych spacji z odczytywanych wartości należy pominąć. Wartość domyślna: true . Dane znaków tylko dla białych znaków są ignorowane. |
odczyt |
rowValidationXSDPath |
Ścieżka do opcjonalnego pliku XSD używanego do sprawdzania poprawności kodu XML dla każdego wiersza osobno. Wiersze, które nie mogą sprawdzić poprawności, są traktowane jak błędy analizy, jak powyżej. XSD nie ma w inny sposób wpływu na podany schemat lub wywnioskowany. | odczyt |
ignoreNamespace |
Jeśli true prefiksy przestrzeni nazw dla elementów i atrybutów XML są ignorowane. Tagi <abc:author> i <def:author> , na przykład są traktowane tak, jakby oba były tylko <author> . Przestrzenie nazw nie mogą być ignorowane w elemecie rowTag , tylko jego elementy podrzędne odczytu. Analizowanie kodu XML nie uwzględnia przestrzeni nazw, nawet jeśli false . Wartość domyślna: false . |
odczyt |
timestampFormat |
Niestandardowy ciąg formatu znacznika czasu zgodny ze wzorcem daty/godziny. timestamp Dotyczy to typu. Wartość domyślna: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] . |
odczyt, zapis |
timestampNTZFormat |
Ciąg formatu niestandardowego dla znacznika czasu bez strefy czasowej, która jest zgodna ze wzorcem daty/godziny. Dotyczy to typu TimestampNTZType. Wartość domyślna:yyyy-MM-dd'T'HH:mm:ss[.SSS] |
odczyt, zapis |
dateFormat |
Niestandardowy ciąg formatu daty zgodny ze wzorcem daty/godziny. Dotyczy to typu daty. Wartość domyślna: yyyy-MM-dd . |
odczyt, zapis |
locale |
Ustawia ustawienia regionalne jako tag języka w formacie IETF BCP 47. Na przykład locale jest używany podczas analizowania dat i sygnatur czasowych. Wartość domyślna: en-US . |
odczyt |
rootTag |
Główny tag plików XML. Na przykład w pliku <books> <book><book>...</books> odpowiednią wartością jest books . Możesz uwzględnić podstawowe atrybuty, określając wartość, na przykład books foo="bar" . Wartość domyślna: ROWS . |
zapis |
declaration |
Zawartość deklaracji XML do zapisu na początku każdego wyjściowego pliku XML przed .rootTag Na przykład wartość foo przyczyn <?xml foo?> do zapisania. Ustaw wartość na pusty ciąg, aby pominąć. Domyślnie: version="1.0" encoding="UTF-8" standalone="yes" . |
zapis |
arrayElementName |
Nazwa elementu XML, który otacza każdy element kolumny z wartością tablicy podczas pisania. Wartość domyślna: item . |
zapis |
nullValue |
Ustawia reprezentację ciągu wartości null. Wartość domyślna: ciąg null . Gdy jest null to parametr , analizator nie zapisuje atrybutów i elementów dla pól. |
odczyt, zapis |
compression |
Kod kompresji używany podczas zapisywania w pliku. Może to być jedna ze znanych skróconych nazw bez uwzględniania wielkości liter (none , bzip2 , , gzip lz4 snappy , ideflate ). Wbudowane funkcje XML ignorują tę opcję. Wartość domyślna: none . |
zapis |
validateName |
Jeśli wartość true, zgłasza błąd podczas niepowodzenia sprawdzania poprawności nazwy elementu XML. Na przykład nazwy pól SQL mogą zawierać spacje, ale nazwy elementów XML nie mogą. Wartość domyślna:true . |
zapis |
readerCaseSensitive |
Określa zachowanie poufności wielkości liter po włączeniu funkcji rescuedDataColumn. Jeśli to prawda, należy uratować kolumny danych, których nazwy różnią się wielkością liter od schematu; w przeciwnym razie odczytaj dane w sposób niewrażliwy na wielkość liter. Wartość domyślna: true . |
odczyt |
rescuedDataColumn |
Czy zebrać wszystkie dane, których nie można przeanalizować z powodu niezgodności typu danych i niezgodności schematu (w tym wielkości liter kolumn) do oddzielnej kolumny. Ta kolumna jest domyślnie dołączana podczas korzystania z modułu automatycznego ładowania. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Ustawienie domyślne: Brak. | odczyt |
PARQUET
Opcje
Opcja |
---|
datetimeRebaseMode Typ: String Określa ponowne łączenie wartości DATE i TIMESTAMP między kalendarzami Julian i Proleptic Gregorian. Dozwolone wartości: EXCEPTION , LEGACY iCORRECTED .Wartość domyślna: LEGACY |
int96RebaseMode Typ: String Steruje przebazowaniem wartości znacznika czasu INT96 między kalendarzami Julian i Proleptic Gregorian. Dozwolone wartości: EXCEPTION , LEGACY iCORRECTED .Wartość domyślna: LEGACY |
mergeSchema Typ: Boolean Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. Wartość domyślna: false |
readerCaseSensitive Typ: Boolean Określa zachowanie poufności wielkości liter po rescuedDataColumn włączeniu. Jeśli to prawda, należy uratować kolumny danych, których nazwy różnią się wielkością liter od schematu; w przeciwnym razie odczytaj dane w sposób niewrażliwy na wielkość liter.Wartość domyślna: true |
rescuedDataColumn Typ: String Czy zebrać wszystkie dane, których nie można przeanalizować z powodu niezgodności typu danych i niezgodności schematu (w tym wielkości liter kolumn) do oddzielnej kolumny. Ta kolumna jest domyślnie dołączana podczas korzystania z modułu automatycznego ładowania. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Wartość domyślna: Brak |
AVRO
Opcje
Opcja |
---|
avroSchema Typ: String Opcjonalny schemat dostarczony przez użytkownika w formacie Avro. Podczas odczytywania avro tę opcję można ustawić na rozwinięty schemat, który jest zgodny, ale różni się od rzeczywistego schematu Avro. Schemat deserializacji będzie zgodny ze schematem rozwiniętym. Jeśli na przykład ustawisz rozwinięty schemat zawierający jedną dodatkową kolumnę z wartością domyślną, wynik odczytu będzie również zawierać nową kolumnę. Wartość domyślna: Brak |
datetimeRebaseMode Typ: String Określa ponowne łączenie wartości DATE i TIMESTAMP między kalendarzami Julian i Proleptic Gregorian. Dozwolone wartości: EXCEPTION , LEGACY iCORRECTED .Wartość domyślna: LEGACY |
mergeSchema Typ: Boolean Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. mergeSchema w przypadku usługi Avro nie można zrelaksować typów danych.Wartość domyślna: false |
readerCaseSensitive Typ: Boolean Określa zachowanie poufności wielkości liter po rescuedDataColumn włączeniu. Jeśli to prawda, należy uratować kolumny danych, których nazwy różnią się wielkością liter od schematu; w przeciwnym razie odczytaj dane w sposób niewrażliwy na wielkość liter.Wartość domyślna: true |
rescuedDataColumn Typ: String Czy zebrać wszystkie dane, których nie można przeanalizować z powodu niezgodności typu danych i niezgodności schematu (w tym wielkości liter kolumn) do oddzielnej kolumny. Ta kolumna jest domyślnie dołączana podczas korzystania z modułu automatycznego ładowania. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Wartość domyślna: Brak |
BINARYFILE
Opcje
Pliki binarne nie mają żadnych dodatkowych opcji konfiguracji.
TEXT
Opcje
Opcja |
---|
encoding Typ: String Nazwa kodowania plików TEXT. Zobacz java.nio.charset.Charset listę opcji.Wartość domyślna: UTF-8 |
lineSep Typ: String Ciąg między dwoma kolejnymi rekordami TEXT. Wartość domyślna: Brak, który obejmuje \r wartości , \r\n i \n |
wholeText Typ: Boolean Czy odczytywać plik jako pojedynczy rekord. Wartość domyślna: false |
ORC
Opcje
Opcja |
---|
mergeSchema Typ: Boolean Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. Wartość domyślna: false |
Opcje przesyłania strumieniowego
Te opcje mają zastosowanie w przypadku korzystania z read_files
tabeli przesyłania strumieniowego lub zapytania przesyłania strumieniowego.
Opcja |
---|
allowOverwrites Typ: Boolean Czy należy ponownie przetwarzać pliki, które zostały zmodyfikowane po odnalezieniu. Najnowsza dostępna wersja pliku zostanie przetworzona podczas odświeżania, jeśli została zmodyfikowana od czasu rozpoczęcia ostatniego pomyślnego odświeżenia. Wartość domyślna: false |
includeExistingFiles Typ: Boolean Czy dołączyć istniejące pliki do ścieżki wejściowej przetwarzania strumienia, czy tylko przetworzyć nowe pliki przychodzące po wstępnej konfiguracji. Ta opcja jest oceniana tylko wtedy, gdy uruchamiasz strumień po raz pierwszy. Zmiana tej opcji po ponownym uruchomieniu strumienia nie ma żadnego wpływu. Wartość domyślna: true |
maxBytesPerTrigger Typ: Byte String Maksymalna liczba nowych bajtów do przetworzenia w każdym wyzwalaczu. Można określić ciąg bajtów, taki jak 10g ograniczenie poszczególnych mikrobajtów do 10 GB danych. Jest to miękkie maksimum. Jeśli masz pliki o rozmiarze 3 GB, usługa Azure Databricks przetwarza 12 GB w mikrobajtach. W przypadku użycia razem z usługą maxFilesPerTrigger usługa Azure Databricks zużywa do niższego limitu maxFilesPerTrigger wartości lub maxBytesPerTrigger , w zależności od tego, która z nich zostanie osiągnięta jako pierwsza.Uwaga: w przypadku tabel przesyłania strumieniowego utworzonych w bezserwerowych magazynach SQL ta opcja maxFilesPerTrigger nie powinna być ustawiona tak, aby korzystać z dynamicznej kontroli dostępu, która jest skalowana według rozmiaru obciążenia i bezserwerowych zasobów obliczeniowych w celu uzyskania najlepszego opóźnienia i wydajności.Wartość domyślna: Brak |
maxFilesPerTrigger Typ: Integer Maksymalna liczba nowych plików do przetworzenia w każdym wyzwalaczu. W przypadku użycia razem z usługą maxBytesPerTrigger usługa Azure Databricks zużywa do niższego limitu maxFilesPerTrigger wartości lub maxBytesPerTrigger , w zależności od tego, która z nich zostanie osiągnięta jako pierwsza.Uwaga: w przypadku tabel przesyłania strumieniowego utworzonych w bezserwerowych magazynach SQL ta opcja maxBytesPerTrigger nie powinna być ustawiona tak, aby korzystać z dynamicznej kontroli dostępu, która jest skalowana według rozmiaru obciążenia i bezserwerowych zasobów obliczeniowych w celu uzyskania najlepszego opóźnienia i wydajności.Wartość domyślna: 1000 |
schemaEvolutionMode Typ: String Tryb ewolucji schematu w miarę odnajdowania nowych kolumn w danych. Domyślnie kolumny są wnioskowane jako ciągi podczas wnioskowania zestawów danych JSON. Aby uzyskać więcej informacji, zobacz Ewolucja schematu. Ta opcja nie ma zastosowania do text plików i binaryFile .Wartość domyślna: "addNewColumns" jeśli schemat nie jest podany."none" inaczej. |
schemaLocation Typ: String Lokalizacja do przechowywania wywnioskowanych schematów i kolejnych zmian. Aby uzyskać więcej informacji, zobacz wnioskowanie schematu. Lokalizacja schematu nie jest wymagana w przypadku użycia w zapytaniu tabeli przesyłania strumieniowego. Wartość domyślna: Brak |
Przykłady
-- Reads the files available in the given path. Auto-detects the format and schema of the data.
> SELECT * FROM read_files('abfss://container@storageAccount.dfs.core.windows.net/base/path');
-- Reads the headerless CSV files in the given path with the provided schema.
> SELECT * FROM read_files(
's3://bucket/path',
format => 'csv',
schema => 'id int, ts timestamp, event string');
-- Infers the schema of CSV files with headers. Because the schema is not provided,
-- the CSV files are assumed to have headers.
> SELECT * FROM read_files(
's3://bucket/path',
format => 'csv')
-- Reads files that have a csv suffix.
> SELECT * FROM read_files('s3://bucket/path/*.csv')
-- Reads a single JSON file
> SELECT * FROM read_files(
'abfss://container@storageAccount.dfs.core.windows.net/path/single.json')
-- Reads JSON files and overrides the data type of the column `id` to integer.
> SELECT * FROM read_files(
's3://bucket/path',
format => 'json',
schemaHints => 'id int')
-- Reads files that have been uploaded or modified yesterday.
> SELECT * FROM read_files(
'gs://my-bucket/avroData',
modifiedAfter => date_sub(current_date(), 1),
modifiedBefore => current_date())
-- Creates a Delta table and stores the source file path as part of the data
> CREATE TABLE my_avro_data
AS SELECT *, _metadata.file_path
FROM read_files('gs://my-bucket/avroData')
-- Creates a streaming table that processes files that appear only after the table's creation.
-- The table will most likely be empty (if there's no clock skew) after being first created,
-- and future refreshes will bring new data in.
> CREATE OR REFRESH STREAMING TABLE avro_data
AS SELECT * FROM STREAM read_files('gs://my-bucket/avroData', includeExistingFiles => false);