Delen via


Opties voor automatisch laden

Configuratieopties die specifiek zijn voor de cloudFiles bron, worden voorafgegaan door cloudFiles , zodat ze zich in een afzonderlijke naamruimte bevinden van andere opties voor gestructureerd streamen.

Algemene opties voor automatisch laden

U kunt de volgende opties configureren voor het weergeven van directory's of de notificatiemodus voor bestanden.

Optie
cloudFiles.allowOverwrites
Type: Boolean
Of wijzigingen in invoerbestanden bestaande gegevens mogen overschrijven.
Er zijn enkele kanttekeningen met betrekking tot het inschakelen van deze configuratie. Raadpleeg Verwerkt Auto Loader het bestand opnieuw wanneer het bestand wordt toegevoegd of overschreven? voor meer informatie.
Standaardwaarde: false
cloudFiles.backfillInterval
Type: Interval String
Auto Loader kan asynchrone backfills op een vastgesteld interval activeren.
1 day bijvoorbeeld om eenmaal per dag in te vullen of 1 week om een keer per week in te vullen. Meldingssystemen voor bestandsgebeurtenissen garanderen geen 100% levering van alle bestanden die zijn geüpload, daarom kunt u backfills gebruiken om te garanderen dat alle bestanden uiteindelijk worden verwerkt, beschikbaar in Databricks Runtime 8.4 (EoS) en hoger.
Standaardwaarde: Geen
cloudFiles.format
Type: String
De indeling van het gegevensbestand in het bronpad. Toegestane waarden zijn:

Standaardwaarde: Geen (vereiste optie)
cloudFiles.includeExistingFiles
Type: Boolean
Of u bestaande bestanden in het invoerpad voor stroomverwerking wilt opnemen of alleen nieuwe bestanden wilt verwerken die binnenkomen na de eerste installatie. Deze optie wordt alleen geëvalueerd wanneer u een stream voor de eerste keer start. Als u deze optie wijzigt nadat de stream opnieuw is opgestart, heeft dit geen effect.
Standaardwaarde: true
cloudFiles.inferColumnTypes
Type: Boolean
Of u exacte kolomtypen wilt afleiden bij het gebruik van schemadeductie. Kolommen worden standaard afgeleid als tekenreeksen bij het afleiden van JSON- en CSV-gegevenssets. Zie schemadeductie voor meer informatie.
Standaardwaarde: false
cloudFiles.maxBytesPerTrigger
Typ: Byte String
Het maximum aantal nieuwe bytes dat in elke trigger moet worden verwerkt. U kunt een bytetekenreeks opgeven, bijvoorbeeld 10g om elke microbatch te beperken tot 10 GB aan gegevens. Dit is een zacht maximum. Als u bestanden hebt die elk 3 GB zijn, verwerkt Azure Databricks 12 GB in een microbatch. Wanneer Azure Databricks samen met cloudFiles.maxFilesPerTrigger wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van cloudFiles.maxFilesPerTrigger of cloudFiles.maxBytesPerTrigger, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met Trigger.Once() (Trigger.Once() is verouderd).
Standaardwaarde: Geen
cloudFiles.maxFileAge
Type: Interval String
Hoe lang een bestandsgebeurtenis wordt bijgehouden voor ontdubbelingsdoeleinden. Databricks raadt u aan deze parameter niet af te stemmen, tenzij u gegevens opneemt in de volgorde van miljoenen bestanden per uur. Zie de sectie over gebeurtenisretentie voor meer informatie.
Het afstemmen cloudFiles.maxFileAge kan te agressief leiden tot problemen met gegevenskwaliteit, zoals dubbele opname of ontbrekende bestanden. Daarom raadt Databricks een conservatieve instelling aan voor cloudFiles.maxFileAge, zoals 90 dagen, die vergelijkbaar is met wat vergelijkbare oplossingen voor gegevensopname aanbevelen.
Standaardwaarde: Geen
cloudFiles.maxFilesPerTrigger
Type: Integer
Het maximum aantal nieuwe bestanden dat in elke trigger moet worden verwerkt. Wanneer Azure Databricks samen met cloudFiles.maxBytesPerTrigger wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van cloudFiles.maxFilesPerTrigger of cloudFiles.maxBytesPerTrigger, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met Trigger.Once() (afgeschaft).
Standaardwaarde: 1000
cloudFiles.partitionColumns
Typ: String
Een door komma's gescheiden lijst met partitiekolommen in Hive-stijl die u wilt afleiden uit de mapstructuur van de bestanden. Partitiekolommen in Hive-stijl zijn sleutel-waardeparen gecombineerd door een gelijkheidsteken zoals
<base-path>/a=x/b=1/c=y/file.format. In dit voorbeeld zijn ade partitiekolommen , ben c. Deze kolommen worden standaard automatisch toegevoegd aan uw schema als u schemadeductie gebruikt en de gegevens uit het <base-path> schema laadt. Als u een schema opgeeft, verwacht Auto Loader dat deze kolommen worden opgenomen in het schema. Als u deze kolommen niet wilt gebruiken als onderdeel van uw schema, kunt u deze kolommen negeren "" . Daarnaast kunt u deze optie gebruiken als u wilt dat kolommen het bestandspad in complexe mapstructuren worden afgeleid, zoals in het onderstaande voorbeeld:
<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv
Het specificeren van cloudFiles.partitionColumns als year,month,day zal retourneerresultaten geven.
year=2022 voor file1.csv, maar de month en day kolommen zijn null.
month en day wordt correct geparseerd voor file2.csv en file3.csv.
Standaardwaarde: Geen
cloudFiles.schemaEvolutionMode
Type: String
De manier om het schema aan te passen wanneer nieuwe kolommen in de gegevens worden ontdekt. Standaard worden kolommen afgeleid als tekenreeksen bij het afleiden van JSON-gegevenssets. Zie de ontwikkeling van schema's voor meer informatie.
Standaardwaarde: "addNewColumns" wanneer er geen schema wordt opgegeven.
"none" anders.
cloudFiles.schemaHints
Type: String
Schema-informatie die u aan Auto Loader verstrekt tijdens schema-inferentie. Zie schemahints voor meer informatie.
Standaardwaarde: Geen
cloudFiles.schemaLocation
Type: String
De locatie voor het opslaan van het afgeleid schema en de volgende wijzigingen. Zie schemadeductie voor meer informatie.
Standaardwaarde: Geen (vereist bij het afleiden van het schema)
cloudFiles.useStrictGlobber
Typ: Boolean
Of u een strikte globber wilt gebruiken die overeenkomt met het standaardgedrag voor globbing van andere bestandsbronnen in Apache Spark. Zie Algemene patronen voor het laden van gegevens voor meer informatie. Beschikbaar in Databricks Runtime 12.2 LTS en hoger.
Standaardwaarde: false
cloudFiles.validateOptions
Type: Boolean
Of u opties voor automatisch laadprogramma wilt valideren en een fout wilt retourneren voor onbekende of inconsistente opties.
Standaardwaarde: true

Opties voor adreslijstvermelding

De volgende opties zijn relevant voor de lijstweergavemodus.

Optie
cloudFiles.useIncrementalListing (afgeschaft)
Type: String
Deze functie is afgeschaft. Databricks raadt aan om de modus voor bestandsmeldingen te gebruiken in plaats van
cloudFiles.useIncrementalListing.
Of u de incrementele vermelding wilt gebruiken in plaats van de volledige vermelding in de modus voor adreslijstvermeldingen. Auto Loader zet standaard de beste moeite in om automatisch te detecteren of een bepaalde map geschikt is voor het incrementeel vermelden. U kunt de incrementele vermelding expliciet gebruiken of de volledige adreslijstvermelding gebruiken door deze in te stellen als true of false respectievelijk.
Het onjuist inschakelen van incrementele vermeldingen in een niet-lexisch geordende map voorkomt dat Auto Loader nieuwe bestanden ontdekt.
Werkt met Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) en GCS (gs://).
Beschikbaar in Databricks Runtime 9.1 LTS en hoger.
Standaardwaarde: auto
Beschikbare waarden: auto, truefalse

Opties voor bestandsmeldingen

De volgende opties zijn relevant voor de meldingsmodus voor bestanden.

Optie
cloudFiles.fetchParallelism
Type: Integer
Het aantal threads dat moet worden gebruikt bij het ophalen van berichten uit de wachtrijservice.
Standaardwaarde: 1
cloudFiles.pathRewrites
Type: Een JSON-tekenreeks
Alleen vereist als u een queueUrl bestand opgeeft dat bestandsmeldingen van meerdere S3-buckets ontvangt en u koppelpunten wilt gebruiken die zijn geconfigureerd voor toegang tot gegevens in deze containers. Gebruik deze optie om het voorvoegsel van het bucket/key pad opnieuw te schrijven met het koppelpunt. Alleen voorvoegsels kunnen opnieuw worden geschreven. Bijvoorbeeld voor de configuratie
{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}, het pad
s3://<databricks-mounted-bucket>/path/2017/08/fileA.json wordt herschreven naar dbfs:/mnt/data-warehouse/2017/08/fileA.json.
Standaardwaarde: Geen
cloudFiles.resourceTag
Type: Map(String, String)
Een reeks sleutel-waardetagparen om gerelateerde resources te koppelen en te identificeren, bijvoorbeeld:
cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")
Zie Amazon SQS-tags voor kostentoewijzing en tags configureren voor een Amazon SNS-onderwerp voor meer informatie over AWS. (1)
Voor meer informatie over Azure, zie Naamgevingswachtrijen en Metagegevens en de dekking van properties.labels in Evenementabonnementen. Auto Loader slaat deze sleutel-waarde tagparen op in JSON als labels. (1)
Zie Rapportagegebruik met labels voor meer informatie over GCP. (1)
Standaardwaarde: Geen
cloudFiles.useNotifications
Type: Boolean
Of u de modus voor bestandsmeldingen wilt gebruiken om te bepalen wanneer er nieuwe bestanden zijn. Als false, gebruik de directorylistingmodus. Zie Vergelijk de detectiemodi van Auto Loader-bestanden.
Standaardwaarde: false

(1) Automatisch laadprogramma voegt standaard de volgende sleutel-waarde tagparen toe op basis van best effort:

  • vendor: Databricks
  • path: de locatie waar de gegevens worden geladen. Niet beschikbaar in GCP vanwege labelbeperkingen.
  • checkpointLocation: De locatie van het controlepunt van de stream. Niet beschikbaar in GCP vanwege labelbeperkingen.
  • streamId: Een wereldwijd unieke id voor de stream.

Deze sleutelnamen zijn gereserveerd en u kunt hun waarden niet overschrijven.

Opties voor bestandsindeling

Met Auto Loader kunt u JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE en ORC bestanden opnemen.

Algemene opties

De volgende opties zijn van toepassing op alle bestandsindelingen.

Optie
ignoreCorruptFiles
Typ: Boolean
Of beschadigde bestanden moeten worden genegeerd. Als dit het geval is, zullen de Spark-taken blijven draaien wanneer ze beschadigde bestanden tegenkomen en zal de gelezen inhoud nog steeds worden teruggegeven. Waarneembaar als numSkippedCorruptFiles in de
operationMetrics kolom van de Delta Lake-geschiedenis. Beschikbaar in Databricks Runtime 11.3 LTS en hoger.
Standaardwaarde: false
ignoreMissingFiles
Type: Boolean
Of ontbrekende bestanden moeten worden genegeerd. Indien waar, blijven de Spark-taken worden uitgevoerd wanneer er ontbrekende bestanden optreden en wordt de inhoud die is gelezen nog steeds geretourneerd. Beschikbaar in Databricks Runtime 11.3 LTS en hoger.
Standaardwaarde: false voor automatisch laden, true voor COPY INTO (verouderd)
modifiedAfter
Type: Timestamp Stringbijvoorbeeld 2021-01-01 00:00:00.000000 UTC+0
Een optionele tijdstempel voor het opnemen van bestanden met een wijzigingstijdstempel na de opgegeven tijdstempel.
Standaardwaarde: Geen
modifiedBefore
Type: Timestamp Stringbijvoorbeeld 2021-01-01 00:00:00.000000 UTC+0
Een optionele tijdstempel voor het opnemen van bestanden met een wijzigingstijdstempel vóór de opgegeven tijdstempel.
Standaardwaarde: Geen
pathGlobFilter of fileNamePattern
Typ: String
Een mogelijk globpatroon om bestanden te selecteren. Gelijk aan
PATTERN in COPY INTO (verouderd). fileNamePattern kan worden gebruikt in read_files.
Standaardwaarde: Geen
recursiveFileLookup
Typ: Boolean
Of partitiedeductie tijdens schemadeductie moet worden overgeslagen. Dit heeft geen invloed op welke bestanden worden geladen.
Standaardwaarde: false

JSON Opties

Optie
allowBackslashEscapingAnyCharacter
Type: Boolean
Of schuine strepen elk teken dat erop volgt kunnen laten ontsnappen. Als dit niet is ingeschakeld, kunnen alleen tekens die expliciet door de JSON-specificatie zijn vermeld, worden geëscaped.
Standaardwaarde: false
allowComments
Typ: Boolean
Of het gebruik van opmerkingen in java-, C- en C++-stijl ('/', '*'en '//' variëteiten) binnen geparseerde inhoud al dan niet is toegestaan.
Standaardwaarde: false
allowNonNumericNumbers
Typ: Boolean
Hiermee wordt aangegeven of de set tokens zonder getal (NaN) mag worden toegestaan als juridische zwevende getalwaarden.
Standaardwaarde: true
allowNumericLeadingZeros
Type: Boolean
Of u wilt toestaan dat integrale getallen beginnen met extra (negeerbare) nullen (bijvoorbeeld 000001).
Standaardwaarde: false
allowSingleQuotes
Typ: Boolean
Hiermee wordt aangegeven of enkele aanhalingstekens (apostrof, teken '\') kunnen worden toegestaan voor het citeren van strings (namen en waarden).
Standaardwaarde: true
allowUnquotedControlChars
Type: Boolean
Of het is toegestaan JSON-tekenreeksen te laten bevatten ongedekte controletekens (ASCII-tekens met een waarde kleiner dan 32, inclusief tab- en regelinvoertekens) of niet.
Standaardwaarde: false
allowUnquotedFieldNames
Typ: Boolean
Of het gebruik van niet-geciteerde veldnamen is toegestaan (die wel zijn toegestaan door JavaScript, maar niet door de JSON-specificatie).
Standaardwaarde: false
badRecordsPath
Typ: String
Het pad voor het opslaan van bestanden voor het registreren van informatie over ongeldige JSON-records.
Standaardwaarde: Geen
columnNameOfCorruptRecord
Type: String
De kolom voor het opslaan van records die ongeldig zijn en die niet kunnen worden geïnterpreteerd. Als het mode voor parseren is ingesteld als DROPMALFORMED, is deze kolom leeg.
Standaardwaarde: _corrupt_record
dateFormat
Type: String
De notatie voor het parseren van datumtekenreeksen.
Standaardwaarde: yyyy-MM-dd
dropFieldIfAllNull
Type: Boolean
Of kolommen van alle null-waarden of lege matrices en structs tijdens schemadeductie moeten worden genegeerd.
Standaardwaarde: false
encoding of charset
Typ: String
De naam van de codering van de JSON-bestanden. Zie java.nio.charset.Charset voor een lijst met opties. U kunt niet gebruiken UTF-16 en UTF-32 wanneer multiline is true.
Standaardwaarde: UTF-8
inferTimestamp
Typ: Boolean
Of u tijdstempeltekenreeksen wilt afleiden als een TimestampType. Wanneer ingesteld op
true, kan het aanzienlijk langer duren voordat schemadeductie is voltooid. U moet cloudFiles.inferColumnTypes inschakelen om te gebruiken met Auto Loader.
Standaardwaarde: false
lineSep
Type: String
Een tekenreeks tussen twee opeenvolgende JSON-records.
Standaardwaarde: Geen, wat betrekking heeft op \r, \r\n, en \n.
locale
Typ: String
Een java.util.Locale id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering binnen de JSON.
Standaardwaarde: US
mode
Typ: String
Parsermodus voor het verwerken van onjuiste records. Eén van 'PERMISSIVE',
'DROPMALFORMED', of 'FAILFAST'.
Standaardwaarde: PERMISSIVE
multiLine
Type: Boolean
Of de JSON-records meerdere regels omvatten.
Standaardwaarde: false
prefersDecimal
Type: Boolean
Probeert tekenreeksen af te leiden als DecimalType in plaats van float- of double-type, indien mogelijk. U moet ook schemadeductie gebruiken door het inschakelen van
inferSchema of cloudFiles.inferColumnTypes gebruiken met Auto Loader.
Standaardwaarde: false
primitivesAsString
Typ: Boolean
Of bepaalde primitieve typen zoals getallen en booleaanse waarden moeten worden afgeleidStringType.
Standaardwaarde: false
readerCaseSensitive
Type: Boolean
Hiermee specificeert u het gedrag van hoofdlettergevoeligheid wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Beschikbaar in Databricks Runtime
13.3 en hoger.
Standaardwaarde: true
rescuedDataColumn
Typ: String
Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd als gevolg van een niet-overeenkomend gegevenstype of niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom met geredde gegevens? voor meer details.
COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
Standaardwaarde: Geen
singleVariantColumn
Type: String
Of u het hele JSON-document wilt opnemen, geparseerd in één variantkolom met de opgegeven tekenreeks als de naam van de kolom. Als deze optie is uitgeschakeld, worden de JSON-velden opgenomen in hun eigen kolommen.
Standaardwaarde: Geen
timestampFormat
Type: String
Het formaat voor het parseren van tijdstempeltekenreeksen.
Standaardwaarde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Type: String
De java.time.ZoneId te gebruiken bij het parseren van tijdstempels en datums.
Standaardwaarde: Geen

CSV Opties

Optie
badRecordsPath
Type: String
Het pad naar het opslaan van bestanden voor het vastleggen van de informatie over ongeldige CSV-records.
Standaardwaarde: Geen
charToEscapeQuoteEscaping
Typ: Char
Het teken dat wordt gebruikt om het teken te escapen dat wordt gebruikt voor aanhalingstekens. Bijvoorbeeld voor de volgende record: [ " a\\", b ]
  • Als het teken om aan de '\' te ontkomen niet is gedefinieerd, wordt het record niet geparseerd. De parser zal de tekens [a],[\],["],[,],[ ],[b] lezen en een fout genereren omdat het een afsluitende aanhalingsteken niet kan vinden.
  • Als het teken om aan het '\' te ontsnappen gedefinieerd is als '\', wordt het record gelezen met 2 waarden: [a\] en [b].

Standaardwaarde: '\0'
columnNameOfCorruptRecord
Ondersteund voor automatisch laden. Niet ondersteund voor COPY INTO (verouderd).
Soort: String
De kolom voor het opslaan van gegevens die ongeldig zijn en die niet kunnen worden verwerkt. Als het mode voor parseren is ingesteld als DROPMALFORMED, is deze kolom leeg.
Standaardwaarde: _corrupt_record
comment
Type: Char
Hiermee definieert u het teken dat een regelcommentaar aangeeft wanneer deze wordt gevonden aan het begin van een tekstregel. Hiermee '\0' schakelt u het overslaan van opmerkingen uit.
Standaardwaarde: '\u0000'
dateFormat
Type: String
De notatie voor het parseren van datumtekenreeksen.
Standaardwaarde: yyyy-MM-dd
emptyValue
Type: String
Tekenreeksweergave van een lege waarde.
Standaardwaarde: ""
encoding of charset
Type: String
De naam van de codering van de CSV-bestanden. Zie java.nio.charset.Charset voor de lijst met opties. UTF-16 en UTF-32 kunnen niet worden gebruikt wanneer multilinetrue is.
Standaardwaarde: UTF-8
enforceSchema
Type: Boolean
Of u het opgegeven of afgeleid schema geforceerd wilt toepassen op de CSV-bestanden. Als de optie is ingeschakeld, worden headers van CSV-bestanden genegeerd. Deze optie wordt standaard genegeerd wanneer u AutoLoader gebruikt om gegevens te redden en schemaontwikkeling mogelijk te maken.
Standaardwaarde: true
escape
Type: Char
Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens.
Standaardwaarde: '\'
header
Type: Boolean
Of de CSV-bestanden een koptekst bevatten. Auto Loader gaat ervan uit dat bestanden headers hebben bij het uitstellen van het schema.
Standaardwaarde: false
ignoreLeadingWhiteSpace
Type: Boolean
Of u voorloopspaties voor elke geparseerde waarde wilt negeren.
Standaardwaarde: false
ignoreTrailingWhiteSpace
Typ: Boolean
Hiermee wordt aangegeven of u volgspaties voor elke geparseerde waarde wilt negeren.
Standaardwaarde: false
inferSchema
Type: Boolean
Of u de gegevenstypen van de geparseerde CSV-records wilt afleiden of ervan wilt uitgaan dat alle kolommen van StringTypezijn. Vereist een extra pass over de gegevens indien ingesteld op true. Gebruik voor Auto Loader in plaats daarvan cloudFiles.inferColumnTypes.
Standaardwaarde: false
lineSep
Type: String
Een tekenreeks tussen twee opeenvolgende CSV-records.
Standaardwaarde: Geen, dat \r, \r\n en \n omvat
locale
Type: String
Een java.util.Locale id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering in het CSV-bestand.
Standaardwaarde: US
maxCharsPerColumn
Typ: Int
Maximum aantal tekens dat wordt verwacht van een waarde om te parseren. Kan worden gebruikt om geheugenfouten te voorkomen. Standaard ingesteld op -1, wat onbeperkt betekent.
Standaardwaarde: -1
maxColumns
Typ: Int
De vaste limiet van het aantal kolommen dat een record kan hebben.
Standaardwaarde: 20480
mergeSchema
Type: Boolean
Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld voor Auto Loader bij het afleiden van het schema.
Standaardwaarde: false
mode
Type: String
Parsermodus voor het verwerken van onjuiste records. Eén van 'PERMISSIVE',
'DROPMALFORMED', en 'FAILFAST'.
Standaardwaarde: PERMISSIVE
multiLine
Type: Boolean
Of de CSV-records meerdere regels omvatten.
Standaardwaarde: false
nanValue
Typ: String
De tekenreeksweergave van een niet-getal waarde bij het parseren van FloatType- en DoubleType-kolommen.
Standaardwaarde: "NaN"
negativeInf
Type: String
De tekenreeksweergave van negatieve oneindigheid bij het parseren van FloatType- of DoubleType-kolommen.
Standaardwaarde: "-Inf"
nullValue
Typ: String
Tekenreeksweergave van een null-waarde.
Standaardwaarde: ""
parserCaseSensitive (afgeschaft)
Type: Boolean
Tijdens het lezen van bestanden moet worden bepaald of kolommen in de koptekst hoofdlettergevoelig moeten worden uitgelijnd met het schema. Dit is true standaard voor autolaadprogramma's. Kolommen die per geval verschillen, worden in de rescuedDataColumn indien ingeschakelde kolom gered. Deze optie is afgeschaft ten gunste van readerCaseSensitive.
Standaardwaarde: false
positiveInf
Type: String
De tekenreeksweergave van positieve oneindigheid bij het parseren van FloatType- of DoubleType-kolommen.
Standaardwaarde: "Inf"
preferDate
Typ: Boolean
Probeert indien mogelijk strings als datums te interpreteren in plaats van als een tijdstempel. U moet ook schemadeductie gebruiken, door inferSchema in te schakelen of door gebruik te maken van
cloudFiles.inferColumnTypes met Auto-Loader.
Standaardwaarde: true
quote
Type: Char
Het teken dat wordt gebruikt voor het ontsnappen van waarden waarbij het veldscheidingsteken deel uitmaakt van de waarde.
Standaardwaarde: "
readerCaseSensitive
Typ: Boolean
Hiermee specificeert u het hoofdlettergevoeligheidsgedrag wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.
Standaardwaarde: true
rescuedDataColumn
Type: String
Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom met geredde gegevens? voor meer details.
COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
Standaardwaarde: Geen
sep of delimiter
Type: String
De scheidingstekenreeks tussen kolommen.
Standaardwaarde: ","
skipRows
Type: Int
Het aantal rijen vanaf het begin van het CSV-bestand dat moet worden genegeerd (inclusief opmerkingen en lege rijen). Als header waar is, is de koptekst de eerste niet-overgeslagen en niet als commentaar gemarkeerde rij.
Standaardwaarde: 0
timestampFormat
Type: String
De notatie voor het parseren van tijdstempeltekenreeksen.
Standaardwaarde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Type: String
De java.time.ZoneId te gebruiken bij het parseren van tijdstempels en datums.
Standaardwaarde: Geen
unescapedQuoteHandling
Type: String
De strategie voor het behandelen van niet-geëscaleerde aanhalingstekens. Toegestane opties:
  • STOP_AT_CLOSING_QUOTE: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, verzamel dan het aanhalingsteken en ga verder met het parseren van de waarde als een geciteerde waarde, totdat er een sluitend aanhalingsteken wordt gevonden.
  • BACK_TO_DELIMITER: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een niet-gequote waarde. Hierdoor verzamelt de parser alle tekens van de huidige geparseerde waarde totdat het scheidingsteken dat is gedefinieerd door sep is gevonden. Als er geen scheidingsteken in de waarde wordt gevonden, blijft de parser tekens uit de invoer accumuleren totdat een scheidingsteken of regeleinde is gevonden.
  • STOP_AT_DELIMITER: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een niet-gequote waarde. De parser verzamelt alle tekens totdat het scheidingsteken, dat is gedefinieerd door sep, of een regeleinde in de invoer wordt gevonden.
  • SKIP_VALUE: Als er onverwerkte aanhalingstekens worden gevonden in de invoer, wordt de inhoud die voor de opgegeven waarde is geïnterpreteerd genegeerd (totdat het volgende scheidingsteken is gevonden) en wordt de waarde die is ingesteld in nullValue in plaats daarvan geproduceerd.
  • RAISE_ERROR: Als er niet-ontsnapte aanhalingstekens in de invoer gevonden worden, is een
    TextParsingException zal worden gegooid.

Standaardwaarde: STOP_AT_DELIMITER

XML Opties

Optie Omschrijving Bereik
rowTag De rijtag van de XML-bestanden die moeten worden behandeld als een rij. In het voorbeeld-XML <books> <book><book>...<books>is bookde juiste waarde. Dit is een vereiste optie. gelezen
samplingRatio Definieert een fractie van rijen die worden gebruikt voor schemadeductie. Ingebouwde XML-functies negeren deze optie. Standaard: 1.0. gelezen
excludeAttribute Of kenmerken in elementen moeten worden uitgesloten. Standaard: false. lezen
mode Modus voor het verwerken van beschadigde records tijdens het parseren.
PERMISSIVE: Voor beschadigde records plaatst u de ongeldige tekenreeks in een veld dat is geconfigureerd door columnNameOfCorruptRecorden stelt u onjuiste velden in op null. Als u beschadigde records wilt behouden, kunt u een string typeveld instellen met de naam columnNameOfCorruptRecord in een door de gebruiker gedefinieerd schema. Als een schema het veld niet heeft, worden beschadigde records verwijderd tijdens het parseren. Bij het uitstellen van een schema voegt de parser impliciet een columnNameOfCorruptRecord veld toe aan een uitvoerschema.
DROPMALFORMED: Hiermee worden beschadigde records genegeerd. Deze modus wordt niet ondersteund voor ingebouwde XML-functies.
FAILFAST: Genereert een uitzondering wanneer de parser beschadigde gegevens tegenkomt.
gelezen
inferSchema Als true, wordt geprobeerd een geschikt type voor elke resulterende DataFrame-kolom af te leiden. Als falsealle resulterende kolommen van het string type zijn. Standaardinstelling:
true. Ingebouwde XML-functies negeren deze optie.
lezen
columnNameOfCorruptRecord Hiermee kunt u de naam van het nieuwe veld wijzigen dat een ongeldige tekenreeks bevat die is gemaakt door
PERMISSIVE modus. Standaard: spark.sql.columnNameOfCorruptRecord.
lezen
attributePrefix Het voorvoegsel voor kenmerken om kenmerken te onderscheiden van elementen. Dit is het voorvoegsel voor veldnamen. Standaard is _. Kan leeg zijn voor het lezen van XML, maar niet voor schrijven. lezen, schrijven
valueTag De tag die wordt gebruikt voor de karakterdata in elementen die ook attribuut(en) of kindelement(en) bevatten. Gebruiker kan het valueTag veld in het schema opgeven of het wordt automatisch toegevoegd tijdens schemadeductie wanneer tekengegevens aanwezig zijn in elementen met andere elementen of kenmerken. Standaardwaarde: _VALUE lezen, schrijven
encoding Voor het lezen decodeert u de XML-bestanden op basis van het opgegeven coderingstype. Voor schrijven geeft u codering (charset) van opgeslagen XML-bestanden op. Ingebouwde XML-functies negeren deze optie. Standaard: UTF-8. lezen, schrijven
ignoreSurroundingSpaces Hiermee bepaalt u of de witte omringende spaties van de waarden die worden gelezen, moeten worden overgeslagen. Standaard: true. Gegevens die alleen uit witruimtetekens bestaan, worden genegeerd. gelezen
rowValidationXSDPath Pad naar een optioneel XSD-bestand dat wordt gebruikt om de XML voor elke rij afzonderlijk te valideren. Rijen die niet kunnen worden gevalideerd, worden behandeld als parsefouten zoals hierboven. De XSD heeft verder geen invloed op het verstrekte of afgeleide schema. gelezen
ignoreNamespace Als true de voorvoegsels van naamruimten op XML-elementen en -kenmerken worden genegeerd. Tags <abc:author> en <def:author>, bijvoorbeeld, worden behandeld alsof ze alleen <author>zijn. Naamruimten kunnen niet worden genegeerd op het rowTag element, alleen de leesliggende onderliggende elementen. XML-parsering is niet naamruimtebewust, zelfs niet als false. Standaard: false. lezen
timestampFormat Aangepaste tekenreeks voor tijdstempelnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op timestamp het type. Standaard: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. lezen, schrijven
timestampNTZFormat Aangepaste formaatstring voor tijdstempel zonder tijdzone die het datumpatroon volgt. Dit is van toepassing op het type TimestampNTZType. Standaardinstelling:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
lezen, schrijven
dateFormat Tekenreeks voor aangepaste datumnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op het datumtype. Standaard: yyyy-MM-dd. lezen, schrijven
locale Hiermee stelt u een locale in als taaltag volgens de IETF BCP 47-indeling. Wordt bijvoorbeeld locale gebruikt tijdens het parseren van datums en tijdstempels. Standaard: en-US. lezen
rootTag Hoofdtag van de XML-bestanden. Bijvoorbeeld in <books> <book><book>...</books> is de juiste waarde books. U kunt basiskenmerken opnemen door een waarde op te geven zoals books foo="bar". Standaard: ROWS. schrijven
declaration Inhoud van XML-declaratie die moet worden geschreven aan het begin van elk XML-uitvoerbestand, vóór de rootTag. Bijvoorbeeld, een waarde van foo zorgt ervoor dat <?xml foo?> wordt geschreven. Ingesteld op een lege tekenreeks die moet worden onderdrukt. Standaardwaarde: version="1.0"
encoding="UTF-8" standalone="yes".
schrijven
arrayElementName De naam van het XML-element dat elk element van een kolom met matrixwaarden omsluit bij het schrijven. Standaard: item. schrijven
nullValue Hiermee stelt u de tekenreeksweergave van een null-waarde in. Standaard: tekenreeks null. Als dit het geval is null, schrijft de parser geen kenmerken en elementen voor velden. lezen, schrijven
compression Compressiecode die moet worden gebruikt bij het opslaan in een bestand. Dit kan een van de bekende niet-hoofdlettergevoelige verkorte namen zijn (none, bzip2, gziplz4en snappy
deflate). Ingebouwde XML-functies negeren deze optie. Standaard: none.
schrijven
validateName Als waar is, treedt er een fout op bij validatiefout voor XML-elementnamen. SQL-veldnamen kunnen bijvoorbeeld spaties bevatten, maar namen van XML-elementen kunnen geen spaties bevatten. Standaardinstelling:
true.
schrijven
readerCaseSensitive Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaard: true. lezen
rescuedDataColumn Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege een niet-overeenkomend gegevenstype en niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, zie Wat is de kolom met geredde gegevens?.
COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
Standaard: Geen.
gelezen

PARQUET Opties

Optie
datetimeRebaseMode
Type: String
Hiermee bepaalt u de rebasing van de DATUM- en TIJDSTEMPEL-waarden tussen Julian- en Proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYen
CORRECTED.
Standaardwaarde: LEGACY
int96RebaseMode
Type: String
Hiermee bepaalt u de rebasing van de INT96-tijdstempelwaarden tussen Julian- en Proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYen
CORRECTED.
Standaardwaarde: LEGACY
mergeSchema
Type: Boolean
Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.
Standaardwaarde: false
readerCaseSensitive
Typ: Boolean
Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.
Standaardwaarde: true
rescuedDataColumn
Typ: String
Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom met geredde gegevens? voor meer informatie.
COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
Standaardwaarde: Geen

AVRO Opties

Optie
avroSchema
Type: String
Optioneel schema gegeven door een gebruiker in Avro-indeling. Bij het lezen van Avro kan deze optie worden ingesteld op een ontwikkeld schema, dat compatibel is maar anders is met het werkelijke Avro-schema. Het deserialisatieschema is consistent met het ontwikkelde schema. Als u bijvoorbeeld een ontwikkeld schema instelt dat één extra kolom met een standaardwaarde bevat, bevat het leesresultaat ook de nieuwe kolom.
Standaardwaarde: Geen
datetimeRebaseMode
Type: String
Hiermee bepaalt u de rebasing van de DATUM- en TIJDSTEMPEL-waarden tussen Julian- en Proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYen
CORRECTED.
Standaardwaarde: LEGACY
mergeSchema
Type: Boolean
Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.
mergeSchema Bij Avro worden gegevenstypen niet versoepeld.
Standaardwaarde: false
readerCaseSensitive
Type: Boolean
Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn ingeschakeld is. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.
Standaardwaarde: true
rescuedDataColumn
Type: String
Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden.
COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
Raadpleeg Wat is de kolom met geredde gegevens? voor meer informatie.
Standaardwaarde: Geen

BINARYFILE Opties

Binaire bestanden hebben geen extra configuratieopties.

TEXT Opties

Optie
encoding
Typ: String
De naam van de codering van de tekstbestanden. Zie java.nio.charset.Charset voor een lijst met opties.
Standaardwaarde: UTF-8
lineSep
Typ: String
Een tekenreeks tussen twee opeenvolgende TEXT-records.
Standaardwaarde: Geen, die betrekking heeft op \ren \r\n\n
wholeText
Typ: Boolean
Of u een bestand als één record wilt lezen.
Standaardwaarde: false

ORC Opties

Optie
mergeSchema
Type: Boolean
Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.
Standaardwaarde: false

Cloudspecifieke opties

Auto Loader biedt een aantal opties voor het configureren van de cloudinfrastructuur.

Specifieke AWS-opties

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma de meldingsservices voor u instelt:

Optie
cloudFiles.region
Type: String
De regio waar de bron-S3-bucket zich bevindt en waar de AWS SNS- en SQS-services worden gemaakt.
Standaardwaarde: de regio van het EC2-exemplaar.

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie
cloudFiles.queueUrl
Type: String
De URL van de SQS-wachtrij. Indien opgegeven, gebruikt Auto Loader rechtstreeks gebeurtenissen uit deze wachtrij in plaats van eigen AWS SNS- en SQS-services in te stellen.
Standaardwaarde: Geen

AWS-verificatieopties

Geef de volgende verificatieoptie op om een Databricks-servicereferentie te gebruiken:

Optie
databricks.serviceCredential
Type: String
De naam van uw Databricks service-referentie.
Standaardwaarde: Geen

Wanneer databricks-servicereferenties of IAM-rollen niet beschikbaar zijn, kunt u in plaats daarvan de volgende verificatieopties opgeven:

Optie
cloudFiles.awsAccessKey
Type: String
De AWS-toegangssleutel-id voor de gebruiker. Moet worden voorzien van
cloudFiles.awsSecretKey.
Standaardwaarde: Geen
cloudFiles.awsSecretKey
Type: String
De GEHEIME AWS-toegangssleutel voor de gebruiker. Moet worden meegeleverd.
cloudFiles.awsAccessKey.
Standaardwaarde: Geen
cloudFiles.roleArn
Type: String
Het ARN van een IAM-rol dat moet worden aangenomen, indien nodig. De rol kan worden aangenomen vanuit het instanceprofiel van uw cluster of door het opgeven van referenties.
cloudFiles.awsAccessKey en cloudFiles.awsSecretKey.
Standaardwaarde: Geen
cloudFiles.roleExternalId
Type: String
Een identificator die moet worden opgegeven bij het aannemen van een rol met behulp van cloudFiles.roleArn.
Standaardwaarde: Geen
cloudFiles.roleSessionName
Type: String
Een optionele sessienaam om te gebruiken terwijl een rol wordt aangenomen.
cloudFiles.roleArn.
Standaardwaarde: Geen
cloudFiles.stsEndpoint
Type: String
Een optioneel eindpunt om toegang te krijgen tot AWS STS bij het aannemen van een rol met behulp van cloudFiles.roleArn.
Standaardwaarde: Geen

Specifieke Opties voor Azure

U moet waarden opgeven voor alle volgende opties als u opgeeft cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma de meldingsservices voor u instelt:

Optie
cloudFiles.resourceGroup
Typen: String
De Azure-resourcegroep waaronder het opslagaccount wordt gemaakt.
Standaardwaarde: Geen
cloudFiles.subscriptionId
Type: String
De Azure-abonnements-id waaronder de resourcegroep wordt gemaakt.
Standaardwaarde: Geen
databricks.serviceCredential
Typ: String
De naam van uw Databricks service-referentie.
Standaardwaarde: Geen

Als er geen Databricks-servicereferentie beschikbaar is, kunt u in plaats daarvan de volgende verificatieopties opgeven:

Optie
cloudFiles.clientId
Type: String
De client-id of de toepassings-id van de serviceprincipal.
Standaardwaarde: Geen
cloudFiles.clientSecret
Type: String
Het clientgeheim van de service-principal.
Standaardwaarde: Geen
cloudFiles.connectionString
Type: String
De verbindingsreeks voor het opslagaccount, gebaseerd op de toegangssleutel van het account of de SAS (Shared Access Signature).
Standaardwaarde: Geen
cloudFiles.tenantId
Type: String
De Azure-tenant-ID waaronder de service-principal wordt gemaakt.
Standaardwaarde: Geen

Belangrijk

Automatische inrichting van meldingen is beschikbaar in de Azure China- en Government-regio's met Databricks Runtime 9.1 en hoger. U moet een queueName opgeven om de Auto Loader met bestandsmeldingen in deze regio's te gebruiken voor oudere DBR-versies.

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie
cloudFiles.queueName
Type: String
De naam van de Azure-wachtrij. Indien opgegeven, ontvangt de bron van cloudbestanden rechtstreeks gebeurtenissen uit deze wachtrij in plaats van zijn eigen Azure Event Grid- en Queue Storage-services in te richten. In dat geval zijn voor uw databricks.serviceCredential of cloudFiles.connectionString alleen leesrechten voor de wachtrij vereist.
Standaardwaarde: Geen

Specifieke Google-opties

Auto Loader kan automatisch meldingsservices voor u instellen door gebruik te maken van Databricks servicereferenties. Voor het serviceaccount dat is gemaakt met de Databricks-servicereferentie, zijn de machtigingen vereist die zijn opgegeven in Wat is de meldingsmodus voor het automatisch laden van bestanden?.

Optie
cloudFiles.projectId
Type: String
De id van het project waarin de GCS-bucket zich bevindt. Het Google Cloud Pub/Sub-abonnement wordt ook in dit project gemaakt.
Standaardwaarde: Geen
databricks.serviceCredential
Type: String
De naam van uw Databricks service-referentie.
Standaardwaarde: Geen

Als er geen Databricks-servicereferentie beschikbaar is, kunt u Google-serviceaccounts rechtstreeks gebruiken. U kunt uw cluster configureren om gebruik te maken van een serviceaccount door de Google-servicesetup te volgen of de volgende authenticatieopties rechtstreeks op te geven:

Optie
cloudFiles.client
Type: String
De client-id van het Google-serviceaccount.
Standaardwaarde: Geen
cloudFiles.clientEmail
Type: String
Het e-mailadres van het Google-serviceaccount.
Standaardwaarde: Geen
cloudFiles.privateKey
Type: String
De persoonlijke sleutel die wordt gegenereerd voor het Google-serviceaccount.
Standaardwaarde: Geen
cloudFiles.privateKeyId
Typ: String
De id van de persoonlijke sleutel die wordt gegenereerd voor het Google-serviceaccount.
Standaardwaarde: Geen

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie
cloudFiles.subscription
Type: String
De naam van het Google Cloud Pub/Sub-abonnement. Indien opgegeven, gebruikt de bron van cloudbestanden gebeurtenissen uit deze wachtrij in plaats van het instellen van eigen GCS-meldingen en Google Cloud Pub/Sub-diensten.
Standaardwaarde: Geen