Dela via


Alternativ för Auto Loader

Konfigurationsalternativ specifika för cloudFiles-källan har prefixet cloudFiles så att de finns i ett separat namnområde från andra Structured Streaming-källalternativ.

Vanliga alternativ för Auto Loader

Du kan konfigurera följande alternativ för kataloglistning eller filmeddelandeläge.

Alternativ
cloudFiles.allowOverwrites
Typ: Boolean
Om du vill tillåta ändringar i indatakatalogfilen för att skriva över befintliga data.
Det finns några varningar om att aktivera den här konfigurationen. Mer information finns i Bearbetar autoinläsaren filen igen när filen läggs till eller skrivs över?
Standardvärde: false
cloudFiles.backfillInterval
Typ: Interval String
Automatisk inläsning kan utlösa asynkrona återfyllningar med ett visst intervall.
t.ex. 1 day att fylla på en gång om dagen eller 1 week att fylla på igen en gång i veckan. System för filhändelsemeddelanden garanterar inte 100 % leverans av alla filer som har laddats upp, därför kan du använda återfyllnad för att garantera att alla filer så småningom bearbetas, tillgängliga i Databricks Runtime 8.4 (EoS) och senare.
Standardvärde: Ingen
cloudFiles.format
Typ: String
Datafilformatet i källsökvägen. Tillåtna värden är:

Standardvärde: Ingen (obligatoriskt alternativ)
cloudFiles.includeExistingFiles
Typ: Boolean
Om du vill inkludera befintliga filer i indatasökvägen för dataströmbearbetning eller endast bearbeta nya filer som kommer efter den första installationen. Det här alternativet utvärderas endast när du startar en dataström för första gången. Att ändra det här alternativet efter att strömmen har startats om har ingen effekt.
Standardvärde: true
cloudFiles.inferColumnTypes
Typ: Boolean
Om du vill härleda exakta kolumntyper vid användning av schemainferens. Som standard härleds kolumner som strängar när JSON- och CSV-datauppsättningar härleds. Mer information finns i schemainferens .
Standardvärde: false
cloudFiles.maxBytesPerTrigger
Typ: Byte String
Det maximala antalet nya byte som ska bearbetas i varje utlösare. Du kan ange en bytesträng, till exempel 10g för att begränsa varje mikrobatch till 10 GB data. Detta är ett mjukt maxvärde. Om du har filer som är 3 GB vardera bearbetar Azure Databricks 12 GB i en mikrobatch. När det används tillsammans med cloudFiles.maxFilesPerTrigger förbrukar Azure Databricks upp till den lägre gränsen cloudFiles.maxFilesPerTrigger eller cloudFiles.maxBytesPerTrigger, beroende på vilket som först uppnås. Det här alternativet har ingen effekt när det används med Trigger.Once() (Trigger.Once() är inaktuellt).
Standardvärde: Ingen
cloudFiles.maxFileAge
Typ: Interval String
Hur länge en filhändelse spåras i dedupliceringssyfte. Databricks rekommenderar inte att du justerar den här parametern om du inte matar in data i storleksordningen miljontals filer i timmen. Mer information finns i avsnittet om kvarhållning av händelser.
Om du justerar cloudFiles.maxFileAge för aggressivt kan det orsaka problem med datakvaliteten, till exempel duplicerad inmatning eller filer som saknas. Därför rekommenderar Databricks en konservativ inställning för cloudFiles.maxFileAge, till exempel 90 dagar, vilket liknar vad jämförbara datainmatningslösningar rekommenderar.
Standardvärde: Ingen
cloudFiles.maxFilesPerTrigger
Typ: Integer
Det maximala antalet nya filer som ska bearbetas i varje utlösare. När det används tillsammans med cloudFiles.maxBytesPerTrigger förbrukar Azure Databricks upp till den lägre gränsen cloudFiles.maxFilesPerTrigger eller cloudFiles.maxBytesPerTrigger, beroende på vilket som först uppnås. Det här alternativet har ingen effekt när det används med Trigger.Once() (inaktuellt).
Standardvärde: 1 000
cloudFiles.partitionColumns
Typ: String
En kommaavgränsad lista över Partitionskolumner i Hive-format som du vill härleda från filernas katalogstruktur. Partitionskolumner i Hive-format är nyckelvärdepar som kombineras med ett likhetstecken, till exempel
<base-path>/a=x/b=1/c=y/file.format. I det här exemplet är partitionskolumnerna a, b, och c. Som standard läggs dessa kolumner automatiskt till i schemat om du använder schemainferens och anger att <base-path> data ska läsas in från. Om du anger ett schema förväntar sig Auto Loader att dessa kolumner inkluderas i schemat. Om du inte vill att dessa kolumner ska ingå i schemat kan du ange "" att dessa kolumner ska ignoreras. Dessutom kan du använda det här alternativet när du vill att kolumner ska härledas till filsökvägen i komplexa katalogstrukturer, som exemplet nedan:
<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv
Om cloudFiles.partitionColumns specificeras som year,month,day kommer det att returneras
year=2022 för file1.csv, men kolumnerna month och day blir null.
month och day parsas korrekt för file2.csv och file3.csv.
Standardvärde: Ingen
cloudFiles.schemaEvolutionMode
Typ: String
Sättet för att utveckla schemat när nya kolumner upptäcks i data. Som standard härleds kolumner som strängar när JSON-datauppsättningar härleds. Mer information finns i schemautveckling .
Standardvärde: "addNewColumns" när ett schema inte har angetts.
"none" annars.
cloudFiles.schemaHints
Typ: String
Schemainformation som du ger till Auto Loader vid schemainferens. Mer information finns i schematips .
Standardvärde: Ingen
cloudFiles.schemaLocation
Typ: String
Platsen där du vill lagra det härledda schemat och efterföljande ändringar. Mer information finns i schemainferens .
Standardvärde: Ingen (krävs när schemat härleds)
cloudFiles.useStrictGlobber
Typ: Boolean
Om du vill använda en strikt globber som matchar standardbeteendet för andra filkällor i Apache Spark. Mer information finns i Vanliga datainläsningsmönster . Finns i Databricks Runtime 12.2 LTS och senare.
Standardvärde: false
cloudFiles.validateOptions
Typ: Boolean
Huruvida alternativ för automatisk inläsare ska verifieras och ett fel returneras för okända eller inkonsekventa alternativ.
Standardvärde: true

Alternativ för kataloglistning

Följande alternativ är relevanta för kataloglistningsläget.

Alternativ
cloudFiles.useIncrementalListing (inaktuell)
Typ: String
Den här funktionen är inaktuell. Databricks rekommenderar att du använder filmeddelandeläget i stället för
cloudFiles.useIncrementalListing.
Om du vill använda den inkrementella listan i stället för den fullständiga listan i kataloglistningsläge. Som standard gör Auto Loader det bästa för att automatiskt identifiera om en viss katalog är tillämplig för den inkrementella listan. Du kan uttryckligen använda den inkrementella listan eller använda den fullständiga kataloglistan genom att ange den som true eller false respektive.
Om du felaktigt aktiverar inkrementell lista i en icke-lexikalt ordnad katalog hindrar autoinläsaren från att identifiera nya filer.
Fungerar med Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) och GCS (gs://).
Finns i Databricks Runtime 9.1 LTS och senare.
Standardvärde: auto
Tillgängliga värden: auto, true, false

Alternativ för filaviseringar

Följande alternativ är relevanta för filmeddelandeläget.

Alternativ
cloudFiles.fetchParallelism
Typ: Integer
Antal trådar som ska användas när meddelanden hämtas från kötjänsten.
Standardvärde: 1
cloudFiles.pathRewrites
Typ: En JSON-sträng
Krävs endast om du anger en queueUrl som tar emot filmeddelanden från flera S3-bucketar och du vill använda monteringspunkter som konfigurerats för åtkomst till data i dessa containrar. Använd det här alternativet för att skriva om prefixet för sökvägen bucket/key med monteringspunkten. Bara prefix kan skrivas om. Till exempel för konfigurationen
{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}, sökvägen
s3://<databricks-mounted-bucket>/path/2017/08/fileA.json skrivs om till dbfs:/mnt/data-warehouse/2017/08/fileA.json.
Standardvärde: Ingen
cloudFiles.resourceTag
Typ: Map(String, String)
En serie nyckel/värde-taggpar som hjälper dig att associera och identifiera relaterade resurser, till exempel:
cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")
Mer information om AWS finns i Amazon SQS-kostnadsallokeringstaggar och Konfigurera taggar för ett Amazon SNS-ämne. (1)
Mer information om Azure finns i Namngivning av köer och metadata och täckningen för properties.labels i händelseprenumerationer. Auto Loader lagrar dessa nyckel/värde-taggpar i JSON som etiketter. (1)
Mer information om GCP finns i Rapportera användning med etiketter. (1)
Standardvärde: Ingen
cloudFiles.useNotifications
Typ: Boolean
Om du vill använda filmeddelandeläget för att avgöra när det finns nya filer. Om falseanvänder du kataloglistningsläge. Se Jämför Auto Loader-filidentifieringslägen.
Standardvärde: false

(1) Automatisk inläsning lägger till följande nyckel/värde-taggpar som standard på bästa möjliga sätt:

  • vendor: Databricks
  • path: Platsen där data läses in. Inte tillgänglig i GCP på grund av etiketteringsbegränsningar.
  • checkpointLocation: Platsen för strömmens kontrollpunkt. Inte tillgänglig i GCP på grund av etiketteringsbegränsningar.
  • streamId: En globalt unik identifierare för strömmen.

Dessa nyckelnamn är reserverade och du kan inte skriva över deras värden.

Filformatalternativ

Med Auto Loader kan du mata in JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILEoch ORC filer.

Allmänna alternativ

Följande alternativ gäller för alla filformat.

Alternativ
ignoreCorruptFiles
Typ: Boolean
Om du vill ignorera skadade filer. Om det är sant fortsätter Spark-jobben att köras när skadade filer påträffas och innehållet som har lästs returneras fortfarande. Kan observeras som numSkippedCorruptFiles i
operationMetrics kolumn i historiken för Delta Lake. Finns i Databricks Runtime 11.3 LTS och senare.
Standardvärde: false
ignoreMissingFiles
Typ: Boolean
Om du vill ignorera filer som saknas. Om det är sant fortsätter Spark-jobben att köras när filer saknas och innehållet som har lästs returneras fortfarande. Finns i Databricks Runtime 11.3 LTS och senare.
Standardvärde: false för automatisk inläsning, true för COPY INTO (äldre)
modifiedAfter
Typ: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0
En valfri tidsstämpel för att mata in filer som har en tidsstämpel för ändring efter den angivna tidsstämpeln.
Standardvärde: Ingen
modifiedBefore
Typ: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0
En valfri tidsstämpel för att mata in filer som har en tidsstämpel för ändring före den angivna tidsstämpeln.
Standardvärde: Ingen
pathGlobFilter eller fileNamePattern
Typ: String
Ett potentiellt globmönster för att välja filer. Motsvarar
PATTERN i COPY INTO (äldre). fileNamePattern kan användas i read_files.
Standardvärde: Ingen
recursiveFileLookup
Typ: Boolean
Om du vill hoppa över partitionsslutsats under schemainferens. Detta påverkar inte vilka filer som läses in.
Standardvärde: false

JSON Alternativ

Alternativ
allowBackslashEscapingAnyCharacter
Typ: Boolean
Om du vill tillåta att omvänt snedstreck undfly alla tecken som lyckas. Om det inte är aktiverat kan endast tecken som uttryckligen anges av JSON-specifikationen undantagas.
Standardvärde: false
allowComments
Typ: Boolean
Om du vill tillåta användning av Java-, C- och C++-formatkommentarer ('/', '*'och '//' sorter) inom parsat innehåll eller inte.
Standardvärde: false
allowNonNumericNumbers
Typ: Boolean
Om du vill tillåta uppsättningen med token som inte är ett tal (NaN) som lagliga flytande talvärden.
Standardvärde: true
allowNumericLeadingZeros
Typ: Boolean
Huruvida man vill tillåta att heltal börjar med ytterligare (ignorerbara) nollor (till exempel 000001).
Standardvärde: false
allowSingleQuotes
Typ: Boolean
Om du vill tillåta användning av enkla citattecken (apostrofer, tecken '\') för att citera strängar (namn och strängvärden).
Standardvärde: true
allowUnquotedControlChars
Typ: Boolean
Om JSON-strängar ska tillåtas innehålla icke kapslade kontrolltecken (ASCII-tecken med ett värde som är mindre än 32, inklusive flik- och radmatningstecken) eller inte.
Standardvärde: false
allowUnquotedFieldNames
Typ: Boolean
Om du vill tillåta användning av ociterade fältnamn (som tillåts av JavaScript, men inte av JSON-specifikationen).
Standardvärde: false
badRecordsPath
Typ: String
Sökvägen för att lagra filer som innehåller information om felaktiga JSON-poster.
Standardvärde: Ingen
columnNameOfCorruptRecord
Typ: String
Kolumnen för lagring av poster som är felaktiga och inte kan tolkas. mode Om inställningen för parsning är angiven som DROPMALFORMED, kommer den här kolumnen vara tom.
Standardvärde: _corrupt_record
dateFormat
Typ: String
Formatet för parsning av datumsträngar.
Standardvärde: yyyy-MM-dd
dropFieldIfAllNull
Typ: Boolean
Om du vill ignorera kolumner med alla null-värden eller tomma matriser och structs under schemainferens.
Standardvärde: false
encoding eller charset
Typ: String
Namnet på kodningen av JSON-filerna. Se java.nio.charset.Charset för lista över alternativ. Du kan inte använda UTF-16 och UTF-32 när multiline är true.
Standardvärde: UTF-8
inferTimestamp
Typ: Boolean
Huruvida man ska försöka härleda tidsstämpelsträngar som en TimestampType. När det är inställt på
truekan schemainferensen ta märkbart längre tid. Du måste aktivera cloudFiles.inferColumnTypes för att kunna använda Auto Loader.
Standardvärde: false
lineSep
Typ: String
En sträng mellan två på varandra följande JSON-poster.
Standardvärde: Ingen, som omfattar \r, \r\noch \n
locale
Typ: String
En java.util.Locale identifierare. Påverkar standarddatum, tidsstämpel och decimalparsning i JSON.
Standardvärde: US
mode
Typ: String
Parsningsläge för hantering av felaktiga poster. En av 'PERMISSIVE',
'DROPMALFORMED', eller 'FAILFAST'.
Standardvärde: PERMISSIVE
multiLine
Typ: Boolean
Om JSON-posterna sträcker sig över flera rader.
Standardvärde: false
prefersDecimal
Typ: Boolean
Försöker härleda strängar som DecimalType i stället för flyttal eller dubbel typ när det är möjligt. Du måste också använda schemainferens, antingen genom att aktivera
inferSchema eller genom att använda cloudFiles.inferColumnTypes med Auto Loader.
Standardvärde: false
primitivesAsString
Typ: Boolean
Huruvida man ska härleda primitiva typer som tal och booleska värden som StringType.
Standardvärde: false
readerCaseSensitive
Typ: Boolean
Specificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt. Tillgänglig i Databricks Runtime
13.3 och senare.
Standardvärde: true
rescuedDataColumn
Typ: String
Om du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp eller schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.
COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.
Standardvärde: Ingen
singleVariantColumn
Typ: String
Om du vill mata in hela JSON-dokumentet, parsat i en enskild variantkolumn med den angivna strängen som kolumnens namn. Om det är inaktiverat matas JSON-fälten in i sina egna kolumner.
Standardvärde: Ingen
timestampFormat
Typ: String
Formatet för att parsa tidsstämpelsträngar.
Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Typ: String
Att java.time.ZoneId använda för parsning av datum och tidsstämplar.
Standardvärde: Ingen

CSV Alternativ

Alternativ
badRecordsPath
Typ: String
Sökvägen för att lagra filer för registrering av information om felaktiga CSV-poster.
Standardvärde: Ingen
charToEscapeQuoteEscaping
Typ: Char
Tecknet som används för att undkomma det tecken som används för att undvika citattecken. Till exempel för följande post: [ " a\\", b ]
  • Om tecknet för att undkomma '\' är odefinierat parsas inte posten. Parsern läser tecken: [a],[\],["],[,],[ ],[b] och utlöser ett fel eftersom det inte kan hitta ett avslutande citattecken.
  • Om tecknet för att undkomma '\' definieras som '\', läss posten med 2 värden: [a\] och [b].

Standardvärde: '\0'
columnNameOfCorruptRecord
Stöds för Auto Loader. Stöds inte för COPY INTO (äldre).
Typ: String
Kolumnen för lagring av poster som är felaktiga och inte kan tolkas. mode Om inställningen för parsning är angiven som DROPMALFORMED, kommer den här kolumnen vara tom.
Standardvärde: _corrupt_record
comment
Typ: Char
Definierar det tecken som representerar en radkommentar när det hittas i början av en textrad. Använd '\0' för att inaktivera överhoppning av kommentarer.
Standardvärde: '\u0000'
dateFormat
Typ: String
Formatet för parsning av datumsträngar.
Standardvärde: yyyy-MM-dd
emptyValue
Typ: String
Strängrepresentation av ett tomt värde.
Standardvärde: ""
encoding eller charset
Typ: String
Namnet på kodningen av CSV-filerna. Se java.nio.charset.Charset listan med alternativ. UTF-16 och UTF-32 kan inte användas när multiline är true.
Standardvärde: UTF-8
enforceSchema
Typ: Boolean
Huruvida man ska tvinga fram tillämpningen av det angivna eller härledda schemat på CSV-filerna. Om alternativet är aktiverat ignoreras rubrikerna för CSV-filer. Det här alternativet ignoreras som standard när du använder Auto Loader för att rädda data och tillåta schemautveckling.
Standardvärde: true
escape
Typ: Char
Escape-tecknet som ska användas vid parsning av data.
Standardvärde: '\'
header
Typ: Boolean
Om CSV-filerna innehåller ett huvud. Auto Loader förutsätter att filer har rubriker när schemat fastställs.
Standardvärde: false
ignoreLeadingWhiteSpace
Typ: Boolean
Om du vill ignorera inledande blanksteg för varje parsat värde.
Standardvärde: false
ignoreTrailingWhiteSpace
Typ: Boolean
Huruvida avslutande blanksteg ska ignoreras för varje analyserat värde.
Standardvärde: false
inferSchema
Typ: Boolean
Om du vill härleda datatyperna för de parsade CSV-posterna eller anta att alla kolumner är av StringType. Kräver en ytterligare genomgång av data om det är inställt på true. För Auto Loader, använd cloudFiles.inferColumnTypes istället.
Standardvärde: false
lineSep
Typ: String
En sträng mellan två på varandra följande CSV-poster.
Standardvärde: Ingen, som omfattar \r, \r\noch \n
locale
Typ: String
En java.util.Locale identifierare. Påverkar standarddatum, tidsstämpel och decimalparsning i CSV.
Standardvärde: US
maxCharsPerColumn
Typ: Int
Maximalt antal tecken som förväntas från ett värde att parsa. Kan användas för att undvika minnesfel. Standardinställningen är -1, vilket innebär obegränsat.
Standardvärde: -1
maxColumns
Typ: Int
Den hårda gränsen för hur många kolumner en post kan ha.
Standardvärde: 20480
mergeSchema
Typ: Boolean
Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Aktiverad som standard för Auto Loader när schemat härleds.
Standardvärde: false
mode
Typ: String
Parsningsläge vid hantering av felaktiga poster. En av 'PERMISSIVE',
'DROPMALFORMED', och 'FAILFAST'.
Standardvärde: PERMISSIVE
multiLine
Typ: Boolean
Om CSV-posterna sträcker sig över flera rader.
Standardvärde: false
nanValue
Typ: String
Strängrepresentationen av ett värde som inte är ett tal vid parsning FloatType och DoubleType kolumner.
Standardvärde: "NaN"
negativeInf
Typ: String
Strängrepresentationen av negativ oändlighet vid parsning av kolumnerna FloatType eller DoubleType.
Standardvärde: "-Inf"
nullValue
Typ: String
Strängrepresentation av ett null-värde.
Standardvärde: ""
parserCaseSensitive (inaktuell)
Typ: Boolean
När du läser filer, överväg om du vill justera kolumnerna som deklarerats i rubriken så att de matchar schemat, med hänsyn till skiftlägeskänslighet. Detta är true som standard för Auto Loader. Kolumner som skiljer sig åt i skiftläge kommer att återställas i rescuedDataColumn om den är aktiverad. Det här alternativet har blivit inaktuellt till förmån för readerCaseSensitive.
Standardvärde: false
positiveInf
Typ: String
Strängrepresentationen av den positiva oändligheten vid tolkningen av FloatType eller DoubleType-kolumnerna.
Standardvärde: "Inf"
preferDate
Typ: Boolean
Försöker härleda strängar som datum i stället för tidsstämpel när det är möjligt. Du måste också använda schemainferens, antingen genom att aktivera inferSchema eller använda
cloudFiles.inferColumnTypes med Auto Loader.
Standardvärde: true
quote
Typ: Char
Tecknet som används för att ta bort värden där fältgränsaren är en del av värdet.
Standardvärde: "
readerCaseSensitive
Typ: Boolean
Specificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.
Standardvärde: true
rescuedDataColumn
Typ: String
Om du vill samla in alla data som inte kan parsas på grund av: ett matchningsfel av datatyp och schemamatchningsfel (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.
COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.
Standardvärde: Ingen
sep eller delimiter
Typ: String
Avgränsarsträngen mellan kolumner.
Standardvärde: ","
skipRows
Typ: Int
Antalet rader från början av CSV-filen som ska ignoreras (inklusive kommenterade och tomma rader). Om header är sant blir rubriken den första oskipade och okommenterade raden.
Standardvärde: 0
timestampFormat
Typ: String
Formatet för att parsa tidsstämpelsträngar.
Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Typ: String
Att använda java.time.ZoneId för parsning av tidsstämplar och datum.
Standardvärde: Ingen
unescapedQuoteHandling
Typ: String
Strategin för hantering av okapslade citattecken. Tillåtna alternativ:
  • STOP_AT_CLOSING_QUOTE: Om okapslade citattecken hittas i indata ackumulerar du citattecknet och fortsätter att parsa värdet som ett citerat värde tills ett avslutande citattecken hittas.
  • BACK_TO_DELIMITER: Om okapslade citattecken hittas i indata, betrakta värdet som ett okatalogiserat värde. Detta gör att parsern ackumulerar alla tecken i det aktuella parsade värdet tills avgränsaren som definieras av sep hittas. Om ingen avgränsare hittas i värdet fortsätter parsern att ackumulera tecken från indata tills en avgränsare eller radslut hittas.
  • STOP_AT_DELIMITER: Om ej avgränsade citattecken hittas i indata bör du betrakta värdet som ett ej citerat värde. Detta gör att parsern ackumulerar alla tecken tills avgränsaren som definieras av sep nås, eller en radbrytning hittas i indata.
  • SKIP_VALUE: Om okapslade citattecken hittas i indata kommer innehållet för värdet att hoppas över (tills nästa avgränsare hittas) och värdet som anges i nullValue kommer att genereras istället.
  • RAISE_ERROR: Om okapslade citattecken hittas i ingången,
    TextParsingException kommer att kastas.

Standardvärde: STOP_AT_DELIMITER

XML Alternativ

Alternativ Beskrivning Definitionsområde
rowTag Radtaggen för XML-filerna som ska behandlas som en rad. I xml-exemplet <books> <book><book>...<books>är booklämpligt värde . Det här är ett obligatoriskt alternativ. läs
samplingRatio Definierar en bråkdel av rader som används för schemainferens. Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: 1.0. läs
excludeAttribute Om du vill exkludera attribut i element. Förvald: false. läs
mode Läge för att hantera korrupta poster vid parsning.
PERMISSIVE: För skadade poster placerar du den felaktiga strängen i ett fält som konfigurerats av columnNameOfCorruptRecord, och felaktiga fält sätts till null. Om du vill behålla korrupta poster kan du ange ett fält av typen string med namnet columnNameOfCorruptRecord i ett användardefinierat schema. Om ett schema inte har fältet tas skadade poster bort under parsningen. När du härleder ett schema lägger parsern implicit till ett columnNameOfCorruptRecord fält i ett utdataschema.
DROPMALFORMED: Ignorerar skadade poster. Det här läget stöds inte för inbyggda XML-funktioner.
FAILFAST: Kastar ett undantag när parsern stöter på korrupta poster.
läs
inferSchema Om trueförsöker du härleda en lämplig typ för varje resulterande DataFrame-kolumn. Om falseär alla resulterande kolumner av string typen . Standardvärde:
true. Inbyggda XML-funktioner ignorerar det här alternativet.
läs
columnNameOfCorruptRecord Tillåter namnbyte av det nya fältet som innehåller en felaktigt formaterad sträng som skapats av
PERMISSIVE läge. Förvald: spark.sql.columnNameOfCorruptRecord.
läs
attributePrefix Prefixet för attribut för att skilja attribut från element. Det här är prefixet för fältnamn. Standard är _. Kan vara tomt för läsning av XML, men inte för skrivning. läsa, skriva
valueTag Taggen som används för teckendata i element som även har attribut eller underelement. Användaren kan ange fältet valueTag i schemat eller så läggs det till automatiskt under schemainferensen när teckendata finns i element med andra element eller attribut. Förval: _VALUE läs,skriv
encoding För läsning avkodar XML-filerna efter den angivna kodningstypen. För skrivning anger kodning (teckenuppsättning) för sparade XML-filer. Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: UTF-8. läsa, skriva
ignoreSurroundingSpaces Definierar om blanksteg som omger de värden som läses ska hoppas över. Förvald: true. Teckendata med enbart mellanslag ignoreras. läs
rowValidationXSDPath Sökväg till en valfri XSD-fil som används för att verifiera XML för varje rad individuellt. Rader som inte kan verifieras behandlas som parsningsfel som ovan. XSD påverkar inte det angivna eller härledda schemat på något annat sätt. läs
ignoreNamespace Om trueignoreras namnrymdernas prefix för XML-element och attribut. Taggar <abc:author> och <def:author>, till exempel, behandlas som om båda bara är <author>. Det går inte att ignorera namnrymder för elementet rowTag, endast dess läsbara underordnade. XML-parsning är inte namnområdesmedveten även om false. Förvald: false. läs
timestampFormat Anpassad tidsstämpelformatsträng som följer datetime-mönsterformatet . Detta gäller för timestamp typ. Förvald: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. läsa, skriva
timestampNTZFormat Anpassad formatsträng för tidsstämpel utan tidszon som följer datetime-mönsterformatet. Detta gäller för timestampNTZType-typen. Standardvärde:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
läsa, skriva
dateFormat Anpassad datumformatsträng som följer datetime-mönsterformatet. Detta gäller för datumtyp. Förvald: yyyy-MM-dd. läsa, skriva
locale Ställer in en lokal som en språktagg i IETF BCP 47-format. Används till exempel locale vid parsning av datum och tidsstämplar. Förvald: en-US. läs
rootTag Rottagg för XML-filerna. Till exempel, i <books> <book><book>...</books> är det lämpliga värdet books. Du kan inkludera grundläggande attribut genom att ange ett värde som books foo="bar". Förvald: ROWS. skriva
declaration Innehållet i XML-deklarationen som ska skrivas i början av varje XML-utdatafil före rootTag. Till exempel orsakar ett värde av foo att <?xml foo?> skrivs. Ställ in på en tom sträng för att undertrycka. Förval: version="1.0"
encoding="UTF-8" standalone="yes".
skriva
arrayElementName Namn på XML-element som omger varje element i en matrisvärdeskolumn när du skriver. Förvald: item. skriva
nullValue Anger strängrepresentationen av ett null-värde. Standard: sträng null. När detta är nullskriver parsern inte attribut och element för fält. läsa, skriva
compression Komprimeringskod som ska användas när du sparar till filen. Detta kan vara ett av de kända skiftlägesokänsliga förkortade namnen (none, bzip2, gzip, lz4, snappy och).
deflate). Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: none.
skriva
validateName Om sant, kastar ett fel vid misslyckad validering av XML-elementnamn. Till exempel kan SQL-fältnamn ha blanksteg, men XML-elementnamn kan inte det. Standardvärde:
true.
skriva
readerCaseSensitive Anger beteendet för skiftlägeskänslighet när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt. Förvald: true. läs
rescuedDataColumn Om du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp och schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.
COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.
Standard: Ingen.
läs

PARQUET Alternativ

Alternativ
datetimeRebaseMode
Typ: String
Styr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYoch
CORRECTED.
Standardvärde: LEGACY
int96RebaseMode
Typ: String
Styr ombaseringen av INT96-tidsstämpelvärdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYoch
CORRECTED.
Standardvärde: LEGACY
mergeSchema
Typ: Boolean
Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas.
Standardvärde: false
readerCaseSensitive
Typ: Boolean
Specificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.
Standardvärde: true
rescuedDataColumn
Typ: String
Om du vill samla in alla data som inte kan parsas på grund av: ett matchningsfel av datatyp och schemamatchningsfel (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.
COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.
Standardvärde: Ingen

AVRO Alternativ

Alternativ
avroSchema
Typ: String
Valfritt schema som tillhandahålls av en användare i Avro-format. När du läser Avro kan det här alternativet ställas in på ett utvecklat schema, som är kompatibelt men annorlunda med det faktiska Avro-schemat. Deserialiseringsschemat överensstämmer med det utvecklade schemat. Om du till exempel anger ett schema som innehåller ytterligare en kolumn med ett standardvärde innehåller läsresultatet även den nya kolumnen.
Standardvärde: Ingen
datetimeRebaseMode
Typ: String
Styr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYoch
CORRECTED.
Standardvärde: LEGACY
mergeSchema
Typ: Boolean
Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas.
mergeSchema för Avro lättar inte på kraven för datatyper.
Standardvärde: false
readerCaseSensitive
Typ: Boolean
Specificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.
Standardvärde: true
rescuedDataColumn
Typ: String
Om du vill samla in alla data som inte kan parsas på grund av: ett matchningsfel av datatyp och schemamatchningsfel (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader.
COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.
Mer information finns i Vad är den räddade datakolumnen?.
Standardvärde: Ingen

BINARYFILE Alternativ

Binära filer har inga ytterligare konfigurationsalternativ.

TEXT Alternativ

Alternativ
encoding
Typ: String
Namnet på kodningen av TEXT-filerna. Se java.nio.charset.Charset för lista över alternativ.
Standardvärde: UTF-8
lineSep
Typ: String
En sträng mellan två textposter i följd.
Standardvärde: Ingen, som omfattar \r, \r\n och \n
wholeText
Typ: Boolean
Huruvida en fil ska läsas som en enda post.
Standardvärde: false

ORC Alternativ

Alternativ
mergeSchema
Typ: Boolean
Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas.
Standardvärde: false

Molnspecifika alternativ

Auto Loader erbjuder ett antal alternativ för att konfigurera molninfrastruktur.

AWS-specifika alternativ

Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska konfigurera meddelandetjänsterna åt dig:

Alternativ
cloudFiles.region
Typ: String
Den region där käll-S3-bucketen finns och där AWS SNS- och SQS-tjänsterna skapas.
Standardvärde: Regionen för EC2-instansen.

Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:

Alternativ
cloudFiles.queueUrl
Typ: String
Webbadressen till SQS-kön. Om det är tillgängligt förbrukar Auto Loader händelser direkt från den här kön i stället för att konfigurera sina egna AWS SNS- och SQS-tjänster.
Standardvärde: Ingen

AWS-autentiseringsalternativ

Ange följande autentiseringsalternativ för att använda en Databricks-tjänstautentiseringsuppgift:

Alternativ
databricks.serviceCredential
Typ: String
Namnet på din Databricks-tjänsts referenskod.
Standardvärde: Ingen

När Databricks-tjänstens autentiseringsuppgifter eller IAM-roller inte är tillgängliga kan du ange följande autentiseringsalternativ i stället:

Alternativ
cloudFiles.awsAccessKey
Typ: String
AWS-åtkomstnyckelns ID för användaren. Måste förses med
cloudFiles.awsSecretKey.
Standardvärde: Ingen
cloudFiles.awsSecretKey
Typ: String
Den hemliga åtkomstnyckeln för AWS-användaren. Måste förses med
cloudFiles.awsAccessKey.
Standardvärde: Ingen
cloudFiles.roleArn
Typ: String
ARN för en IAM-roll att använda, om det behövs. Rollen kan antas från klustrets instansprofil eller genom att ange autentiseringsuppgifter med
cloudFiles.awsAccessKey och cloudFiles.awsSecretKey.
Standardvärde: Ingen
cloudFiles.roleExternalId
Typ: String
En identifierare att ange när du antar en roll med hjälp av cloudFiles.roleArn.
Standardvärde: Ingen
cloudFiles.roleSessionName
Typ: String
Ett valfritt sessionsnamn att använda när du antar en roll med hjälp av
cloudFiles.roleArn.
Standardvärde: Ingen
cloudFiles.stsEndpoint
Typ: String
En valfri slutpunkt för att ge åtkomst till AWS STS när du antar en roll med hjälp av cloudFiles.roleArn.
Standardvärde: Ingen

Specifika Azure-alternativ

Du måste ange värden för alla följande alternativ om du anger cloudFiles.useNotifications = true och vill att Auto Loader ska konfigurera meddelandetjänsterna åt dig:

Alternativ
cloudFiles.resourceGroup
Typ: String
Den Azure-resursgrupp under vilken lagringskontot skapas.
Standardvärde: Ingen
cloudFiles.subscriptionId
Typ: String
Det Azure-prenumerations-ID under vilket resursgruppen skapas.
Standardvärde: Ingen
databricks.serviceCredential
Typ: String
Namnet på din Databricks-tjänsts referenskod.
Standardvärde: Ingen

Om en Databricks-tjänstautentiseringsuppgift inte är tillgänglig kan du ange följande autentiseringsalternativ i stället:

Alternativ
cloudFiles.clientId
Typ: String
Klient-ID eller program-ID för tjänstens huvudnamn.
Standardvärde: Ingen
cloudFiles.clientSecret
Typ: String
Klienthemligheten för serviceprincipalen.
Standardvärde: Ingen
cloudFiles.connectionString
Typ: String
Anslutningssträng för lagringskontot, baserat på antingen kontoåtkomstnyckel eller signatur för delad åtkomst (SAS).
Standardvärde: Ingen
cloudFiles.tenantId
Typ: String
Azure tenant-ID där serviceprincipalen skapas.
Standardvärde: Ingen

Viktigt!

Automatisk meddelandekonfiguration är tillgänglig i Azure Kina- och myndighetsregioner med Databricks Runtime 9.1 och senare. Du måste ange en queueName för att använda Auto Loader med filmeddelanden i dessa regioner för DBR-äldre versioner.

Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:

Alternativ
cloudFiles.queueName
Typ: String
Namnet på Azure-kön. Om det tillhandahålls tar molnfilkällan emot händelser direkt från denna kö i stället för att konfigurera sina egna Azure Event Grid- och kölagringstjänster. I så fall kräver din databricks.serviceCredential eller cloudFiles.connectionString endast läsbehörigheter i kön.
Standardvärde: Ingen

Google-specifika alternativ

Automatisk inläsare kan konfigurera meddelandetjänster åt dig automatiskt genom att utnyttja Databricks -tjänstens autentiseringsuppgifter. Tjänstkontot som skapats med Databricks-tjänstens autentiseringsuppgifter kräver de behörigheter som anges i Vad är meddelandeläget för automatisk inläsningsfil?.

Alternativ
cloudFiles.projectId
Typ: String
ID för projektet som GCS-bucketen finns i. Google Cloud Pub/Sub-prenumerationen skapas också i det här projektet.
Standardvärde: Ingen
databricks.serviceCredential
Typ: String
Namnet på din Databricks-tjänsts referenskod.
Standardvärde: Ingen

Om en Databricks-tjänstautentiseringsuppgift inte är tillgänglig kan du använda Google-tjänstkonton direkt. Du kan antingen konfigurera klustret så att det förutsätter ett tjänstkonto genom att följa Konfiguration av Google-tjänsten eller ange följande autentiseringsalternativ direkt:

Alternativ
cloudFiles.client
Typ: String
Klient-ID för Google-tjänstkontot.
Standardvärde: Ingen
cloudFiles.clientEmail
Typ: String
E-postmeddelandet för Google-tjänstkontot.
Standardvärde: Ingen
cloudFiles.privateKey
Typ: String
Den privata nyckel som genereras för Google-tjänstkontot.
Standardvärde: Ingen
cloudFiles.privateKeyId
Typ: String
ID för den privata nyckel som genereras för Google-tjänstkontot.
Standardvärde: Ingen

Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:

Alternativ
cloudFiles.subscription
Typ: String
Namnet på Google Cloud Pub/Sub-prenumerationen. Om det tillhandahålls använder molnfilernas källa händelser från den här kön i stället för att konfigurera sina egna GCS-meddelanden och Google Cloud Pub/Sub-tjänster.
Standardvärde: Ingen