Opciones de Auto Loader

Artículo
10/07/2024

Las opciones de configuración específicas del origen cloudFiles tienen el prefijo cloudFiles, de forma que se encuentran en un espacio de nombres independiente de otras opciones de origen de streaming estructurado.

Opciones comunes del cargador automático
Opciones de enumeración de directorios
Opciones de notificación de archivos
Opciones de formato de archivos
Opciones específicas de la nube

Opciones comunes de Auto Loader

Puede configurar las siguientes opciones de la lista de directorios o el modo de notificación de archivos.

Opción
`cloudFiles.allowOverwrites` Tipo: `Boolean` Indica si se permiten cambios en el archivo de directorio de entrada para sobrescribir los datos existentes. Hay algunas advertencias sobre cómo habilitar esta configuración. Consulte ¿Procesa nuevamente el cargador automático el archivo cuando el archivo se anexa o sobrescribe? para obtener más información. Valor predeterminado: `false`
`cloudFiles.backfillInterval` Tipo: `Interval String` Auto Loader puede desencadenar reposiciones asincrónicas en un intervalo determinado. Por ejemplo, `1 day` para reposicionar una vez al día o `1 week` para reposicionar una vez a la semana. Los sistemas de notificación de eventos de archivo no garantizan la entrega al 100 % de todos los archivos que se han cargado, por lo que puede usar las reposiciones para garantizar que todos los archivos se procesan finalmente; disponible en Databricks Runtime 8.4 (EoS) y versiones superiores. Valor predeterminado: ninguno
`cloudFiles.format` Tipo: `String` El formato del archivo de datos en la ruta de acceso de origen. Los valores permitidos son: - `avro`: archivo Avro - `binaryFile`: archivo binario - `csv`: Lectura de archivos CSV - `json`: archivo JSON - `orc`: archivo ORC - `parquet`: Lectura de archivos Parquet mediante Azure Databricks - `text`: archivo de texto Valor predeterminado: ninguno (opción obligatoria)
`cloudFiles.includeExistingFiles` Tipo: `Boolean` Indica si se incluyen los archivos existentes en la ruta de acceso de entrada del procesamiento de flujos o si solo se procesan los nuevos archivos que llegan después de la configuración inicial. Esta opción solo se evalúa cuando se inicia una secuencia por primera vez. Cambiar esta opción después de reiniciar la secuencia no tiene ningún efecto. Valor predeterminado: `true`
`cloudFiles.inferColumnTypes` Tipo: `Boolean` Indica si se infieren los tipos de columna exactos al aprovechar la inferencia de esquema. De manera predeterminada, las columnas se infieren como cadenas al inferir conjuntos de datos JSON y CSV. Consulte Inferencia de esquemas para obtener más detalles. Valor predeterminado: `false`
`cloudFiles.maxBytesPerTrigger` Tipo: `Byte String` Número máximo de bytes nuevos que se procesarán en cada desencadenador. Puede especificar una cadena de bytes como `10g` para limitar cada microlote a 10 GB de datos. Se trata de un máximo flexible. Si tiene archivos de 3 GB cada uno, Azure Databricks procesa 12 GB en un microlote. Cuando se usa junto con `cloudFiles.maxFilesPerTrigger`, Azure Databricks consume hasta el límite inferior de `cloudFiles.maxFilesPerTrigger` o `cloudFiles.maxBytesPerTrigger`, lo que se alcance primero. Esta opción no tiene ningún efecto cuando se usa con `Trigger.Once()` (`Trigger.Once()` está en desuso). Valor predeterminado: ninguno
`cloudFiles.maxFileAge` Tipo: `Interval String` Cuánto dura el seguimiento de un evento de archivo con fines de desduplicación. Databricks no recomienda ajustar este parámetro a menos que ingiera datos en el orden de millones de archivos por hora. Consulte la sección Retención de eventos para obtener más detalles. Un ajuste demasiado agresivo de `cloudFiles.maxFileAge` puede causar problemas en la calidad de los datos, como la ingesta duplicada o la falta de archivos. Por lo tanto, Databricks recomienda una configuración prudente para `cloudFiles.maxFileAge`, como 90 días, que es similar a lo que recomiendan soluciones comparables de ingesta de datos. Valor predeterminado: ninguno
`cloudFiles.maxFilesPerTrigger` Tipo: `Integer` Número máximo de archivos nuevos que se procesarán en cada desencadenador. Cuando se usa junto con `cloudFiles.maxBytesPerTrigger`, Azure Databricks consume hasta el límite inferior de `cloudFiles.maxFilesPerTrigger` o `cloudFiles.maxBytesPerTrigger`, lo que se alcance primero. Esta opción no tiene ningún efecto cuando se usa con `Trigger.Once()` (en desuso). Valor predeterminado: 1000
`cloudFiles.partitionColumns` Tipo: `String` Lista separada por comas de columnas de partición de estilo Hive que le gustaría inferir de la estructura de directorios de los archivos. Las columnas de partición de estilo Hive son pares clave-valor combinados por un signo igual, como `<base-path>/a=x/b=1/c=y/file.format`. En este ejemplo, las columnas de partición son `a`, `b`y `c`. De manera predeterminada, estas columnas se agregarán automáticamente al esquema si usa la inferencia de esquema y proporciona la `<base-path>` desde la que cargar los datos. Si proporciona un esquema, el cargador automático espera que estas columnas se incluyan en el esquema. Si no quiere que estas columnas formen parte del esquema, puede especificar `""` para ignorarlas. Además, puede usar esta opción cuando desee que las columnas se infieran de la ruta de acceso del archivo en estructuras de directorio complejas, como en el ejemplo siguiente: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Si se especifica `cloudFiles.partitionColumns` como, `year,month,day` se devolverá `year=2022` para `file1.csv`, pero las columnas `month` y `day` serán `null`. `month` y `day` se analizarán correctamente para `file2.csv` y `file3.csv`. Valor predeterminado: ninguno
`cloudFiles.schemaEvolutionMode` Tipo: `String` El modo de hacer evolucionar el esquema a medida que se detectan nuevas columnas en los datos. De manera predeterminada, las columnas se infieren como cadenas al inferir conjuntos de datos JSON. Consulte Evolución del esquema para obtener más detalles. Valor predeterminado: `"addNewColumns"` cuando no se proporciona un esquema. De lo contrario, `"none"`.
`cloudFiles.schemaHints` Tipo: `String` Información de esquema que se proporciona al cargador automático durante la inferencia del esquema. Consulte Sugerencias de esquema para obtener más detalles. Valor predeterminado: ninguno
`cloudFiles.schemaLocation` Tipo: `String` Ubicación en la que se almacenará el esquema deducido y los cambios posteriores. Consulte Inferencia de esquemas para obtener más detalles. Valor predeterminado: ninguno (obligatorio al inferir el esquema)
`cloudFiles.useStrictGlobber` Tipo: `Boolean` Si se usa un patrón global estricto que coincida con el comportamiento global predeterminado de otros orígenes de archivos en Apache Spark. Para más detalles, consulte Patrones comunes de carga de datos. Disponible en Databricks Runtime 12.2 LTS y versiones posteriores. Valor predeterminado: `false`
`cloudFiles.validateOptions` Tipo: `Boolean` Indica si se validan las opciones de Auto Loader y se devuelve un error para opciones desconocidas o incoherentes. Valor predeterminado: `true`

Opciones de enumeración de directorios

Las siguientes opciones son relevantes para el modo de lista de directorios.

Opción

Opción
`cloudFiles.useIncrementalListing` (en desuso) Tipo: `String` Esta característica ha quedado en desuso. Databricks recomienda usar el modo de notificación de archivos en lugar de `cloudFiles.useIncrementalListing`. Indica si se debe usar la lista incremental en lugar de la lista completa en el modo de lista de directorios. De forma predeterminada, Auto Loader hace todo lo posible para detectar automáticamente si un directorio determinado es aplicable para el listado incremental. Puede usar explícitamente la lista incremental o usar la lista de directorios completa si las establece como `true` o `false` respectivamente. Habilitar incorrectamente la lista incremental en un directorio ordenado no léxico impide que Auto Loader detecte nuevos archivos. Funciona con Azure Data Lake Storage Gen2 (`abfss://`), S3 (`s3://`) y GCS (`gs://`). Disponible en Databricks Runtime 9.1 LTS y versiones superiores. Valor predeterminado: `auto` Valores disponibles: `auto`, `true`, `false`

cloudFiles.useIncrementalListing (en desuso)

Tipo: String

Esta característica ha quedado en desuso. Databricks recomienda usar el modo de notificación de archivos en lugar de
cloudFiles.useIncrementalListing.

Indica si se debe usar la lista incremental en lugar de la lista completa en el modo de lista de directorios. De forma predeterminada, Auto Loader hace todo lo posible para detectar automáticamente si un directorio determinado es aplicable para el listado incremental. Puede usar explícitamente la lista incremental o usar la lista de directorios completa si las establece como true o false respectivamente.

Habilitar incorrectamente la lista incremental en un directorio ordenado no léxico impide que Auto Loader detecte nuevos archivos.

Funciona con Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) y GCS (gs://).

Disponible en Databricks Runtime 9.1 LTS y versiones superiores.

Valor predeterminado: auto

Valores disponibles: auto, true, false

Opciones de notificación de archivos

Las siguientes opciones son relevantes para el modo de notificación de archivos.

Opción
`cloudFiles.fetchParallelism` Tipo: `Integer` Número de subprocesos que se usan al capturar mensajes del servicio de cola. Valor predeterminado: 1
`cloudFiles.pathRewrites` Tipo: cadena JSON Solo es necesario si especifica un `queueUrl` que recibe notificaciones de archivos de varios cubos S3 y desea aprovechar los puntos de montaje configurados para acceder a los datos de estos contenedores. Use esta opción para volver a escribir el prefijo de la ruta de acceso `bucket/key` con el punto de montaje. Solo se pueden reescribir prefijos. Por ejemplo, para la configuración `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`, la ruta de acceso `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` se reescribe como `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Valor predeterminado: ninguno
`cloudFiles.resourceTag` Tipo: `Map(String, String)` Una serie de pares de etiquetas clave-valor para ayudar a asociar e identificar recursos relacionados, por ejemplo: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Para obtener más información sobre AWS, consulte Amazon SQS cost allocation tags (Etiquetas de asignación de costes de Amazon SQS) y Configuring tags for an Amazon SNS topic (Configuración de etiquetas para un tema de Amazon SNS). (1) Para obtener más información sobre Azure, consulte Asignar nombres a colas y metadatos y la cobertura de `properties.labels` en Suscripciones a eventos. El cargador automático almacena estos pares de etiquetas clave-valor en JSON como etiquetas. (1) Para obtener más información sobre GCP, consulte Informes de uso con etiquetas. (1) Valor predeterminado: ninguno
`cloudFiles.useNotifications` Tipo: `Boolean` Indica si se debe usar el modo de notificación de archivos para determinar cuándo hay nuevos archivos. Si es `false`, use el modo de lista de directorios. Ver Comparación de los modos de detección de archivos del cargador automático. Valor predeterminado: `false`

(1) El cargador automático agrega los siguientes pares de etiquetas clave-valor de manera predeterminada en función de la mejor opción:

vendor: Databricks
path: ubicación desde la que se cargan los datos. No disponible en GCP debido a las limitaciones de etiquetado.
checkpointLocation: ubicación del punto de control de la secuencia. No disponible en GCP debido a las limitaciones de etiquetado.
streamId: identificador único global de la secuencia.

Estos nombres de clave están reservados y no se pueden sobrescribir sus valores.

Opciones de formato de archivo

Con Auto Loader puede ingerir archivos JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE y ORC.

Opciones genéricas
JSON opciones
CSV opciones
XML opciones
PARQUET opciones
AVRO opciones
BINARYFILE opciones
TEXT opciones
ORC opciones

Opciones genéricas

Las siguientes opciones se aplican a todos los formatos de archivo.

Opción
`ignoreCorruptFiles` Tipo: `Boolean` Si se deben omitir los archivos dañados. Si el valor es true, los trabajos de Spark seguirán ejecutándose cuando haya archivos dañados y se devolverá el contenido leído. Observable como `numSkippedCorruptFiles` en la columna `operationMetrics` del historial de Delta Lake. Disponible en Databricks Runtime 11.3 LTS y versiones posteriores. Valor predeterminado: `false`
`ignoreMissingFiles` Tipo: `Boolean` Si se deben omitir los archivos que faltan. Si el valor es true, los trabajos de Spark seguirán ejecutándose cuando falten archivos y se devolverá el contenido leído. Disponible en Databricks Runtime 11.3 LTS y versiones posteriores. Valor predeterminado: `false` (`true` para `COPY INTO`)
`modifiedAfter` Tipo: `Timestamp String`, por ejemplo, `2021-01-01 00:00:00.000000 UTC+0`. Marca de tiempo opcional para ingerir archivos con una marca de tiempo de modificación posterior a la proporcionada. Valor predeterminado: ninguno
`modifiedBefore` Tipo: `Timestamp String`, por ejemplo, `2021-01-01 00:00:00.000000 UTC+0`. Marca de tiempo opcional para ingerir archivos con una marca de tiempo de modificación anterior a la proporcionada. Valor predeterminado: ninguno
`pathGlobFilter` o `fileNamePattern` Tipo: `String` Un posible patrón global que proporcionar para elegir archivos. Equivalente a `PATTERN` en `COPY INTO`. `fileNamePattern` se puede usar en `read_files`. Valor predeterminado: ninguno
`recursiveFileLookup` Tipo: `Boolean` Si se omitirá la inferencia de particiones durante la inferencia de esquema. Esto no afecta a qué archivos se cargan. Valor predeterminado: `false`

`JSON` opciones

Opción
`allowBackslashEscapingAnyCharacter` Tipo: `Boolean` Si se permite que las barras diagonales invertidas sean caracteres de escape para cualquier carácter posterior. Si no está habilitado, solo se pueden escapar los caracteres que se enumeran explícitamente mediante la especificación JSON. Valor predeterminado: `false`
`allowComments` Tipo: `Boolean` Si se permite el uso de comentarios de estilo en Java, C y C++ (variedades `'/'`, `'*'` y `'//'`) dentro del contenido analizado o no. Valor predeterminado: `false`
`allowNonNumericNumbers` Tipo: `Boolean` Si se permite el conjunto de tokens que no son cifras (`NaN`) como valores de número flotante válidos. Valor predeterminado: `true`
`allowNumericLeadingZeros` Tipo: `Boolean` Si se permite que los números enteros comiencen con ceros adicionales (que se pueden omitir) (por ejemplo, `000001`). Valor predeterminado: `false`
`allowSingleQuotes` Tipo: `Boolean` Si se permite el uso de comillas simples (apóstrofo, carácter `'\'`) para citar cadenas (nombres y valores de cadena). Valor predeterminado: `true`
`allowUnquotedControlChars` Tipo: `Boolean` Si se permite que las cadenas JSON contengan caracteres de control sin escape (caracteres ASCII con un valor inferior a 32, incluidos los de tabulación y avance de línea) o no. Valor predeterminado: `false`
`allowUnquotedFieldNames` Tipo: `Boolean` Si se permite el uso de nombres de campo sin comillas (permitidos en JavaScript, pero no en la especificación JSON). Valor predeterminado: `false`
`badRecordsPath` Tipo: `String` Ruta de acceso para almacenar archivos para registrar la información sobre los registros JSON no válidos. Valor predeterminado: ninguno
`columnNameOfCorruptRecord` Tipo: `String` Columna para almacenar registros con formato incorrecto que no se pueden analizar. Si para `mode` el análisis se establece como `DROPMALFORMED`, esta columna estará vacía. Valor predeterminado: `_corrupt_record`
`dateFormat` Tipo: `String` Formato para analizar las cadenas de fecha. Valor predeterminado: `yyyy-MM-dd`
`dropFieldIfAllNull` Tipo: `Boolean` Si se omite la columna de todos los valores NULL o la matriz y la estructura vacías durante la inferencia del esquema. Valor predeterminado: `false`
`encoding` o `charset` Tipo: `String` Nombre de la codificación de los archivos JSON. Consulte `java.nio.charset.Charset` para la lista de opciones. No se puede usar `UTF-16` y `UTF-32` cuando `multiline` es `true`. Valor predeterminado: `UTF-8`
`inferTimestamp` Tipo: `Boolean` Si se deben probar y deducir cadenas de marca de tiempo como `TimestampType`. Cuando se establece en `true`, la inferencia de esquema puede tardar notablemente más tiempo. Debe habilitar `cloudFiles.inferColumnTypes` para usar con Auto Loader. Valor predeterminado: `false`
`lineSep` Tipo: `String` Cadena entre dos registros JSON consecutivos. Valor predeterminado: None, que abarca `\r`, `\r\n` y `\n`.
`locale` Tipo: `String` Un identificador `java.util.Locale`. Influye en la fecha predeterminada, la marca de tiempo y el análisis decimal dentro de JSON. Valor predeterminado: `US`
`mode` Tipo: `String` Modo de analizador para el control de registros con formato incorrecto. Uno de estos valores: `'PERMISSIVE'`, `'DROPMALFORMED'` o `'FAILFAST'`. Valor predeterminado: `PERMISSIVE`
`multiLine` Tipo: `Boolean` Si los registros JSON abarcan varias líneas. Valor predeterminado: `false`
`prefersDecimal` Tipo: `Boolean` Intentos para inferir cadenas como `DecimalType` en lugar de tipo float o double cuando sea posible. También debe usar la inferencia de esquema, ya sea habilitando `inferSchema` o bien usando `cloudFiles.inferColumnTypes` con el Cargador automático. Valor predeterminado: `false`
`primitivesAsString` Tipo: `Boolean` Si se deben extrapolar los tipos primitivos, como, por ejemplo, números y booleanos, como `StringType`. Valor predeterminado: `false`
`readerCaseSensitive` Tipo: `Boolean` Especifica el comportamiento de distinción entre mayúsculas y minúsculas cuando `rescuedDataColumn` está habilitado. Si es true, rescate las columnas de datos cuyos nombres difieren entre mayúsculas y minúsculas del esquema; de lo contrario, lea los datos de una manera sin distinción entre mayúsculas y minúsculas. Disponible en Databricks Runtime 13.3 y versiones posteriores. Valor predeterminado: `true`
`rescuedDataColumn` Tipo: `String` Si se recopilan todos los datos que no se pueden analizar por un error de coincidencia de tipos de datos o a una falta de coincidencia de esquemas (incluido el uso de mayúsculas y minúsculas en las columnas) en una columna independiente. Esta columna se incluye de forma predeterminada cuando se usa Auto Loader. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Valor predeterminado: ninguno
`singleVariantColumn` Tipo: `String` Si se debe ingerir todo el documento JSON, analizado en una sola columna Variant con la cadena especificada como el nombre de la columna. Si está deshabilitado, los campos JSON se ingerirán en sus propias columnas. Valor predeterminado: ninguno
`timestampFormat` Tipo: `String` Formato para analizar cadenas de marca de tiempo. Valor predeterminado: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Tipo: `String` `java.time.ZoneId` que se usará al analizar marcas de tiempo y fechas. Valor predeterminado: ninguno

`CSV` opciones

Opción
`badRecordsPath` Tipo: `String` Ruta de acceso para almacenar archivos para registrar la información sobre los registros CSV no válidos. Valor predeterminado: ninguno
`charToEscapeQuoteEscaping` Tipo: `Char` Carácter utilizado como carácter de escape de las comillas. Por ejemplo, para el registro siguiente: `[ " a\\", b ]`: - Si el carácter de escape de `'\'` no está definido, el registro no se analiza. El analizador leerá caracteres: `[a],[\],["],[,],[ ],[b]` y producirá un error porque no encuentra una comilla de cierre. - Si el carácter de escape de `'\'` se define como `'\'`, el registro se leerá con 2 valores: `[a\]` y `[b]`. Valor predeterminado: `'\0'`
`columnNameOfCorruptRecord` > [! NOTA] >> Compatible con el cargador automático. No se admite para `COPY INTO`. Tipo: `String` Columna para almacenar registros con formato incorrecto que no se pueden analizar. Si para `mode` el análisis se establece como `DROPMALFORMED`, esta columna estará vacía. Valor predeterminado: `_corrupt_record`
`comment` Tipo: `Char` Define el carácter que representa un comentario de línea cuando se encuentra al principio de una línea de texto. Use `'\0'` para deshabilitar la omisión de comentarios. Valor predeterminado: `'\u0000'`
`dateFormat` Tipo: `String` Formato para analizar las cadenas de fecha. Valor predeterminado: `yyyy-MM-dd`
`emptyValue` Tipo: `String` Representación de cadena de un valor vacío. Valor predeterminado: `""`
`encoding` o `charset` Tipo: `String` Nombre de la codificación de los archivos CSV. Consulte `java.nio.charset.Charset` para la lista de opciones. `UTF-16` y `UTF-32` no se pueden usar cuando `multiline` es `true`. Valor predeterminado: `UTF-8`
`enforceSchema` Tipo: `Boolean` Si se aplica forzosamente el esquema especificado o inferido a los archivos CSV. Si la opción está habilitada, se omiten los encabezados de los archivos CSV. Esta opción se omite de forma predeterminada al usar Auto Loader para rescatar datos y permitir la evolución del esquema. Valor predeterminado: `true`
`escape` Tipo: `Char` Carácter de escape que se usará al analizar los datos. Valor predeterminado: `'\'`
`header` Tipo: `Boolean` Si los archivos CSV contienen encabezado. Auto Loader supone que los archivos tienen encabezados al inferir el esquema. Valor predeterminado: `false`
`ignoreLeadingWhiteSpace` Tipo: `Boolean` Si se omiten los espacios en blanco iniciales en los valores analizados. Valor predeterminado: `false`
`ignoreTrailingWhiteSpace` Tipo: `Boolean` Si se omiten los espacios en blanco finales en los valores analizados. Valor predeterminado: `false`
`inferSchema` Tipo: `Boolean` Si se deben extrapolar los tipos de datos de los registros CSV analizados o se supone que todas las columnas son de `StringType`. Requiere un paso adicional sobre los datos si se establece en `true`. Para el Cargador automático, use `cloudFiles.inferColumnTypes` en su lugar. Valor predeterminado: `false`
`lineSep` Tipo: `String` Cadena entre dos registros CSV consecutivos. Valor predeterminado: None, que abarca `\r`, `\r\n` y `\n`.
`locale` Tipo: `String` Un identificador `java.util.Locale`. Influye en la fecha predeterminada, la marca de tiempo y el análisis decimal dentro de CSV. Valor predeterminado: `US`
`maxCharsPerColumn` Tipo: `Int` Máximo de caracteres esperados de un valor que se analizará. Se puede usar para evitar errores en la memoria. El valor predeterminado es `-1`, que significa ilimitado. Valor predeterminado: `-1`
`maxColumns` Tipo: `Int` Límite máximo de columnas que puede tener un registro. Valor predeterminado: `20480`
`mergeSchema` Tipo: `Boolean` Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. Habilitado de forma predeterminada para Auto Loader al inferir el esquema. Valor predeterminado: `false`
`mode` Tipo: `String` Modo de analizador para el control de registros con formato incorrecto. Uno de estos valores: `'PERMISSIVE'`, `'DROPMALFORMED'` y `'FAILFAST'`. Valor predeterminado: `PERMISSIVE`
`multiLine` Tipo: `Boolean` Si los registros CSV abarcan varias líneas. Valor predeterminado: `false`
`nanValue` Tipo: `String` Representación de cadena de un valor no numérico al analizar columnas `FloatType` y `DoubleType`. Valor predeterminado: `"NaN"`
`negativeInf` Tipo: `String` Representación de cadena de infinito negativo al analizar columnas `FloatType` o `DoubleType`. Valor predeterminado: `"-Inf"`
`nullValue` Tipo: `String` Representación de cadena de un valor NULL. Valor predeterminado: `""`
`parserCaseSensitive` (en desuso) Tipo: `Boolean` Durante la lectura de archivos, si se alinean las columnas declaradas en el encabezado con el esquema, se distingue entre mayúsculas y minúsculas. Esto es `true` de manera predeterminada para Auto Loader. Las columnas que difieren en las mayúsculas y las minúsculas se rescatarán en `rescuedDataColumn` si está habilitado. Esta opción ha quedado en desuso en favor de `readerCaseSensitive`. Valor predeterminado: `false`
`positiveInf` Tipo: `String` Representación de cadena del infinito positivo al analizar columnas `FloatType` o `DoubleType`. Valor predeterminado: `"Inf"`
`preferDate` Tipo: `Boolean` Intentos para inferir cadenas como fechas en lugar de marca de tiempo cuando sea posible. También debe usar la inferencia de esquemas, ya sea habilitando `inferSchema` o usando `cloudFiles.inferColumnTypes` con Auto Loader. Valor predeterminado: `true`
`quote` Tipo: `Char` Carácter utilizado para escapar valores en los que el delimitador de campo forma parte del valor. Valor predeterminado: `"`
`readerCaseSensitive` Tipo: `Boolean` Especifica el comportamiento de distinción entre mayúsculas y minúsculas cuando `rescuedDataColumn` está habilitado. Si es true, rescate las columnas de datos cuyos nombres difieren entre mayúsculas y minúsculas del esquema; de lo contrario, lea los datos de una manera sin distinción entre mayúsculas y minúsculas. Valor predeterminado: `true`
`rescuedDataColumn` Tipo: `String` Si se recopilan todos los datos que no se pueden analizar por un error de coincidencia de tipos de datos o a una falta de coincidencia de esquemas (incluido el uso de mayúsculas y minúsculas en las columnas) en una columna independiente. Esta columna se incluye de forma predeterminada cuando se usa Auto Loader. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Valor predeterminado: ninguno
`sep` o `delimiter` Tipo: `String` Cadena separadora de columnas. Valor predeterminado: `","`
`skipRows` Tipo: `Int` Número de filas desde el principio del archivo CSV que se debe omitir (incluidas las filas comentadas y vacías). Si `header` es true, el encabezado será la primera fila sin descodificar y sin marca de comentario. Valor predeterminado: `0`
`timestampFormat` Tipo: `String` Formato para analizar cadenas de marca de tiempo. Valor predeterminado: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Tipo: `String` `java.time.ZoneId` que se usará al analizar marcas de tiempo y fechas. Valor predeterminado: ninguno
`unescapedQuoteHandling` Tipo: `String` Estrategia para controlar las comillas sin escape. Opciones permitidas: - `STOP_AT_CLOSING_QUOTE`: si se encuentran comillas sin escape en la entrada, acumulará la comilla y procederá a analizar el valor como un valor entrecomillado, hasta que se encuentren comillas de cierre. - `BACK_TO_DELIMITER`: si se encontrasen comillas sin escape en la entrada, considere el valor como un valor sin comillas. Esto hará que el analizador acumule todos los caracteres del valor analizado actual hasta que se encuentre el delimitador definido por `sep`. Si no se encuentra ningún delimitador en el valor, el analizador seguirá acumulando caracteres de la entrada hasta que se encuentre un delimitador o un final de línea. - `STOP_AT_DELIMITER`: si se encontrasen comillas sin escape en la entrada, considere el valor como un valor sin comillas. Esto hará que el analizador acumule todos los caracteres hasta el delimitador definido mediante `sep` o hasta que se encuentre un final de línea en la entrada. - `SKIP_VALUE`: si se encontrasen comillas sin escape en la entrada, se omitirá el contenido analizado para el valor dado (hasta que se encuentre el siguiente delimitador) y se producirá en su lugar el valor establecido en `nullValue`. - `RAISE_ERROR`: si se encontrasen comillas sin escape en la entrada, un se producirá `TextParsingException`. Valor predeterminado: `STOP_AT_DELIMITER`

Opciones de `XML`

Opción	Descripción	Ámbito
`rowTag`	Etiqueta de fila de los archivos XML que se van a tratar como una fila. En el XML `<books> <book><book>...<books>` de ejemplo, el valor adecuado es `book`. Esta es una opción necesaria.	leer
`samplingRatio`	Define una fracción de filas usadas para la inferencia de esquema. Las funciones integradas XML omiten esta opción. Predeterminado: `1.0`.	leer
`excludeAttribute`	Si se excluyen los atributos en los elementos. Predeterminado: `false`.	leer
`mode`	Modo para tratar los registros corruptos durante el análisis sintáctico. `PERMISSIVE`: Para los registros corruptos, coloca la cadena malformada en un campo configurado por `columnNameOfCorruptRecord`, y establece los campos con formato incorrecto en `null`. Para mantener los registros dañados, puede establecer un campo `string` de tipo cadena denominado `columnNameOfCorruptRecord` en un esquema definido por el usuario. Si un esquema no tiene el campo, los registros dañados se quitan durante el análisis. Al deducir un esquema, agrega implícitamente un campo `columnNameOfCorruptRecord` en un esquema de salida. `DROPMALFORMED`: omite los registros dañados. Este modo no es compatible con las funciones integradas XML. `FAILFAST`: produce una excepción cuando el analizador cumple los registros dañados.	leer
`inferSchema`	Si `true`es, intenta deducir un tipo adecuado para cada columna DataFrame resultante. Si `false`es, todas las columnas resultantes son de `string` tipo. Valor predeterminado: `true`. Las funciones integradas XML omiten esta opción.	leer
`columnNameOfCorruptRecord`	Permite cambiar el nombre del nuevo campo que contiene una cadena con formato incorrecto creada por el modo `PERMISSIVE`. Predeterminado: `spark.sql.columnNameOfCorruptRecord`.	leer
`attributePrefix`	El prefijo de los atributos para diferenciarlos de los elementos. Este será el prefijo para los nombres de campo. El valor predeterminado es `_`. Puede estar vacío para leer XML, pero no para escribir.	lectura,escritura
`valueTag`	Etiqueta usada para los datos de caracteres dentro de los elementos que también tienen atributos o elementos secundarios. El usuario puede especificar el `valueTag` campo en el esquema o se agregará automáticamente durante la inferencia de esquema cuando los datos de caracteres estén presentes en elementos con otros elementos o atributos. Opción predeterminada: `_VALUE`	lectura,escritura
`encoding`	Para leer, descodifica los archivos XML mediante el tipo de codificación especificado. Para escribir, especifica la codificación (charset) de los archivos XML guardados. Las funciones integradas XML omiten esta opción. Predeterminado: `UTF-8`.	lectura,escritura
`ignoreSurroundingSpaces`	Define si deben omitirse los espacios en blanco circundantes de los valores que se están leyendo. Predeterminado: `true`. Los datos de caracteres de solo espacio en blanco se omiten.	leer
`rowValidationXSDPath`	Ruta a un archivo XSD opcional que se utiliza para validar el XML de cada fila individualmente. Las filas que no se validan se tratan como errores de análisis como se mencionó anteriormente. De otro modo, el archivo XSD no afecta al esquema proporcionado o inferido.	leer
`ignoreNamespace`	Si `true`, se ignoran los prefijos de los espacios de nombres en los elementos y atributos XML. Las etiquetas `<abc:author>` y `<def:author>`, por ejemplo, se tratan como si ambos son simplemente `<author>`. Los espacios de nombres no pueden ignorarse en el elemento `rowTag`, sólo sus elementos secundarios. El análisis XML no es compatible con el espacio de nombres, incluso si `false`. Predeterminado: `false`.	leer
`timestampFormat`	Cadena de formato de marca de tiempo personalizada que sigue el formato de patrón datetime. Esto se aplica al tipo `timestamp`. Predeterminado: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	lectura,escritura
`timestampNTZFormat`	Cadena de formato personalizado para la marca de tiempo sin zona horaria que sigue el formato de patrón datetime. Esto se aplica al tipo TimestampNTZType. Valor predeterminado: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	lectura,escritura
`dateFormat`	Cadena de formato de fecha personalizada que sigue el formato de patrón datetime. Esto se aplica al tipo de fecha. Predeterminado: `yyyy-MM-dd`.	lectura,escritura
`locale`	Establece una configuración regional como etiqueta de idioma en formato IETF BCP 47. Por ejemplo, `locale` se usa al analizar fechas y marcas de tiempo. Predeterminado: `en-US`.	leer
`rootTag`	Etiqueta raíz de los archivos XML. Por ejemplo, en `<books> <book><book>...</books>`, el valor adecuado es `books`. Puede incluir atributos básicos especificando un valor como `books foo="bar"`. Predeterminado: `ROWS`.	escritura
`declaration`	Contenido de la declaración XML que se va a escribir al principio de cada archivo XML de salida, antes de `rootTag`. Por ejemplo, un valor de `foo` hace `<?xml foo?>` que se escriba. Establezca una cadena vacía para suprimirla. Opción predeterminada: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	escritura
`arrayElementName`	Nombre del elemento XML que incluye cada elemento de una columna con valores de matriz al escribir. Predeterminado: `item`.	escritura
`nullValue`	Establece la representación en cadena de un valor nulo. Predeterminado: cadena `null`. Cuando se trata de `null`, el analizador no escribe atributos y elementos para los campos.	lectura,escritura
`compression`	Código de compresión a utilizar al guardar en un archivo. Puede ser uno de los nombres abreviados conocidos sin distinción de mayúsculas y minúsculas (`none`, `bzip2`, `gzip`,`lz4`, `snappy` y `deflate`). Las funciones integradas XML omiten esta opción. Predeterminado: `none`.	escritura
`validateName`	Si es true, produce un error si la validación del nombre del elemento XML falla. Por ejemplo, los nombres de campo SQL pueden tener espacios, pero los nombres de elementos XML no. Valor predeterminado: `true`.	escritura
`readerCaseSensitive`	Especifica el comportamiento de distinción entre mayúsculas y minúsculas cuando se habilita rescuedDataColumn. Si es true, rescate las columnas de datos cuyos nombres difieren entre mayúsculas y minúsculas del esquema; de lo contrario, lea los datos de una manera sin distinción entre mayúsculas y minúsculas. Predeterminado: `true`.	leer
`rescuedDataColumn`	Si se recopilan todos los datos que no se pueden analizar por un error de coincidencia de tipos de datos o a una falta de coincidencia de esquemas (incluido el uso de mayúsculas y minúsculas en las columnas) en una columna independiente. Esta columna se incluye de forma predeterminada cuando se usa Auto Loader. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Predeterminado: Ninguno.	leer

Opciones de `PARQUET`

Opción
`datetimeRebaseMode` Tipo: `String` Controla el cambio de base de los valores de fecha y marca de tiempo entre el calendario juliano y gregoriano proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` y `CORRECTED`. Valor predeterminado: `LEGACY`
`int96RebaseMode` Tipo: `String` Controla el cambio de base de los valores de marca de tiempo INT96 entre el calendario juliano y el gregoriano proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` y `CORRECTED`. Valor predeterminado: `LEGACY`
`mergeSchema` Tipo: `Boolean` Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. Valor predeterminado: `false`
`readerCaseSensitive` Tipo: `Boolean` Especifica el comportamiento de distinción entre mayúsculas y minúsculas cuando `rescuedDataColumn` está habilitado. Si es true, rescate las columnas de datos cuyos nombres difieren entre mayúsculas y minúsculas del esquema; de lo contrario, lea los datos de una manera sin distinción entre mayúsculas y minúsculas. Valor predeterminado: `true`
`rescuedDataColumn` Tipo: `String` Si se recopilan todos los datos que no se pueden analizar por un error de coincidencia de tipos de datos o a una falta de coincidencia de esquemas (incluido el uso de mayúsculas y minúsculas en las columnas) en una columna independiente. Esta columna se incluye de forma predeterminada cuando se usa Auto Loader. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Valor predeterminado: ninguno

`AVRO` opciones

Opción
`avroSchema` Tipo: `String` Esquema opcional proporcionado por un usuario en formato Avro. Al leer Avro, esta opción se puede establecer en un esquema evolucionado, que es compatible con el esquema de Avro real pero distinto de este. El esquema de deserialización será coherente con el esquema evolucionado. Por ejemplo, si establece un esquema evolucionado que contiene una columna adicional con un valor predeterminado, el resultado de lectura contendrá también la nueva columna. Valor predeterminado: ninguno
`datetimeRebaseMode` Tipo: `String` Controla el cambio de base de los valores de fecha y marca de tiempo entre el calendario juliano y gregoriano proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` y `CORRECTED`. Valor predeterminado: `LEGACY`
`mergeSchema` Tipo: `Boolean` Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. `mergeSchema` para Avro no flexibiliza los tipos de datos. Valor predeterminado: `false`
`readerCaseSensitive` Tipo: `Boolean` Especifica el comportamiento de distinción entre mayúsculas y minúsculas cuando `rescuedDataColumn` está habilitado. Si es true, rescate las columnas de datos cuyos nombres difieren entre mayúsculas y minúsculas del esquema; de lo contrario, lea los datos de una manera sin distinción entre mayúsculas y minúsculas. Valor predeterminado: `true`
`rescuedDataColumn` Tipo: `String` Si se recopilan todos los datos que no se pueden analizar por un error de coincidencia de tipos de datos o a una falta de coincidencia de esquemas (incluido el uso de mayúsculas y minúsculas en las columnas) en una columna independiente. Esta columna se incluye de forma predeterminada cuando se usa Auto Loader. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Valor predeterminado: ninguno

`BINARYFILE` opciones

Los archivos binarios no tienen ninguna opción de configuración adicional.

`TEXT` opciones

Opción
`encoding` Tipo: `String` Nombre de la codificación de los archivos de texto. Consulte `java.nio.charset.Charset` para la lista de opciones. Valor predeterminado: `UTF-8`
`lineSep` Tipo: `String` Cadena entre dos registros de TEXT consecutivos. Valor predeterminado: None, que abarca `\r`, `\r\n` y `\n`
`wholeText` Tipo: `Boolean` Si se debe leer un archivo como único registro. Valor predeterminado: `false`

`ORC` opciones

Opción
`mergeSchema` Tipo: `Boolean` Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. Valor predeterminado: `false`

Opciones específicas de la nube

Auto Loader ofrece una serie de opciones para configurar la infraestructura en la nube.

Opciones específicas de AWS
Opciones específicas de Azure
Opciones específicas de Google

Opciones específicas de AWS

Proporcione la siguiente opción solo si elige cloudFiles.useNotifications = true y desea que Auto Loader configure automáticamente los servicios de notificación:

Opción
`cloudFiles.region` Tipo: `String` La región en la que reside el cubo S3 de origen y donde se crean los servicios AWS SDK y SQS. Valor predeterminado: la región de la instancia EC2.

Proporcione la siguiente opción solo si elige cloudFiles.useNotifications = true y desea que el cargador automático use una cola que ya haya configurado:

Opción
`cloudFiles.queueUrl` Tipo: `String` Dirección URL de la cola de SQS. Si se proporciona, el cargador automático consume directamente los eventos de esta cola en lugar de configurar sus propios servicios AWS SNS y SQS. Valor predeterminado: ninguno

Puede usar las siguientes opciones para proporcionar credenciales para acceder a AWS SNS y SQS cuando los roles IAM no están disponibles o al ingerir datos de nubes diferentes.

Opción
`cloudFiles.awsAccessKey` Tipo: `String` El Id. de clave de acceso de AWS para el usuario. Debe proporcionarse con `cloudFiles.awsSecretKey`. Valor predeterminado: ninguno
`cloudFiles.awsSecretKey` Tipo: `String` Clave de acceso secreta de AWS para el usuario. Debe proporcionarse con `cloudFiles.awsAccessKey`. Valor predeterminado: ninguno
`cloudFiles.roleArn` Tipo: `String` EL ARN de un rol IAM que se debe asumir. El rol se puede asumir desde el perfil de instancia del clúster o proporcionando credenciales con `cloudFiles.awsAccessKey` y `cloudFiles.awsSecretKey`. Valor predeterminado: ninguno
`cloudFiles.roleExternalId` Tipo: `String` Identificador que se debe proporcionar a la vez que se asume un rol mediante `cloudFiles.roleArn`. Valor predeterminado: ninguno
`cloudFiles.roleSessionName` Tipo: `String` Un nombre de sesión opcional que se usará al asumir un rol mediante `cloudFiles.roleArn`. Valor predeterminado: ninguno
`cloudFiles.stsEndpoint` Tipo: `String` Un punto de conexión opcional para proporcionar acceso a AWS STS al asumir un rol mediante `cloudFiles.roleArn`. Valor predeterminado: ninguno

Opciones específicas de Azure

Debe proporcionar valores para todas las opciones siguientes si especifica cloudFiles.useNotifications = true y desea que el cargador automático configure automáticamente los servicios de notificación:

Opción
`cloudFiles.clientId` Tipo: `String` Id. de cliente o id. de aplicación de la entidad de servicio. Valor predeterminado: ninguno
`cloudFiles.clientSecret` Tipo: `String` El secreto de cliente de la entidad de servicio. Valor predeterminado: ninguno
`cloudFiles.connectionString` Tipo: `String` Cadena de conexión de la cuenta de almacenamiento, en función de la clave de acceso de la cuenta o de la firma de acceso compartido (SAS). Valor predeterminado: ninguno
`cloudFiles.resourceGroup` Tipo: `String` Grupo de recursos de Azure en el que se ha creado la cuenta de almacenamiento. Valor predeterminado: ninguno
`cloudFiles.subscriptionId` Tipo: `String` Id. de suscripción de Azure en la que se ha creado el grupo de recursos. Valor predeterminado: ninguno
`cloudFiles.tenantId` Tipo: `String` Id. de inquilino de Azure en el que se ha creado la entidad de servicio. Valor predeterminado: ninguno

Importante

La configuración automatizada de las notificaciones está disponible en las regiones de Azure China y Government con Databricks Runtime 9.1 y versiones superiores. Debe proporcionar un queueName para usar el cargador automático con notificaciones de archivos en estas regiones para versiones anteriores de DBR.

Proporcione la siguiente opción solo si elige cloudFiles.useNotifications = true y desea que el cargador automático use una cola que ya haya configurado:

Opción
`cloudFiles.queueName` Tipo: `String` Nombre de la cola de Azure. Si se proporciona, el origen de archivos en la nube consume directamente los eventos de esta cola en lugar de configurar sus propios servicios de Azure Event Grid y Queue Storage. En ese caso, `cloudFiles.connectionString` solo necesita permisos de lectura en la cola. Valor predeterminado: ninguno

Opciones específicas de Google

El cargador automático puede configurar automáticamente los servicios de notificación aprovechando las cuentas de servicio de Google. Puede configurar el clúster para asumir una cuenta de servicio siguiendo la configuración del servicio de Google. Los permisos que la cuenta de servicio necesita se especifican en ¿Qué es el modo de notificación del archivo del cargador automático?. De lo contrario, puede proporcionar las siguientes opciones de autenticación si desea que el cargador automático configure los servicios de notificación automáticamente.

Opción
`cloudFiles.client` Tipo: `String` El Id. de cliente de la cuenta de servicio de Google. Valor predeterminado: ninguno
`cloudFiles.clientEmail` Tipo: `String` El correo electrónico de la cuenta de servicio de Google. Valor predeterminado: ninguno
`cloudFiles.privateKey` Tipo: `String` Clave privada que se genera para la cuenta de servicio de Google. Valor predeterminado: ninguno
`cloudFiles.privateKeyId` Tipo: `String` Identificador de la clave privada que se genera para la cuenta de servicio de Google. Valor predeterminado: ninguno
`cloudFiles.projectId` Tipo: `String` Id. del proyecto en el que se encuentra el cubo de GCS. La suscripción a Google Cloud Pub/Sub también se creará dentro de este proyecto. Valor predeterminado: ninguno

Proporcione la siguiente opción solo si elige cloudFiles.useNotifications = true y desea que el cargador automático use una cola que ya haya configurado:

Opción
`cloudFiles.subscription` Tipo: `String` Nombre de la suscripción de Google Cloud Pub/Sub. Si se proporciona, el origen de archivos en la nube consume los eventos de esta cola en lugar de configurar sus propios servicios GCS Notification y Google Cloud Pub/Sub. Valor predeterminado: ninguno

Compartir a través de

Opciones de Auto Loader

Opciones comunes de Auto Loader

Opciones de enumeración de directorios

Opciones de notificación de archivos

Opciones de formato de archivo

Opciones genéricas

`JSON` opciones

`CSV` opciones

Opciones de `XML`

Opciones de `PARQUET`

`AVRO` opciones

`BINARYFILE` opciones

`TEXT` opciones

`ORC` opciones

Opciones específicas de la nube

Opciones específicas de AWS

Opciones específicas de Azure

Opciones específicas de Google

Comentarios

Recursos adicionales

Compartir a través de

Opciones de Auto Loader

Opciones comunes de Auto Loader

Opciones de enumeración de directorios

Opciones de notificación de archivos

Opciones de formato de archivo

Opciones genéricas

JSON opciones

CSV opciones

Opciones de XML

Opciones de PARQUET

AVRO opciones

BINARYFILE opciones

TEXT opciones

ORC opciones

Opciones específicas de la nube

Opciones específicas de AWS

Opciones específicas de Azure

Opciones específicas de Google

Comentarios

Recursos adicionales

`JSON` opciones

`CSV` opciones

Opciones de `XML`

Opciones de `PARQUET`

`AVRO` opciones

`BINARYFILE` opciones

`TEXT` opciones

`ORC` opciones