Formato de texto delimitado en Azure Data Factory | Microsoft Docs
En este artículo se describe cómo configurar el formato de texto delimitado en la canalización de datos de Data Factory en Microsoft Fabric.
Funcionalidades admitidas
El formato de texto delimitado es compatible con las siguientes actividades y conectores como origen y destino.
Category | Conector/Actividad |
---|---|
Conector compatible | Amazon S3 |
Compatible con Amazon S3 | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Archivos de Azure | |
Sistema de archivos | |
FTP | |
Google Cloud Storage | |
HTTP | |
Archivos del almacén de lago | |
Oracle Cloud Storage | |
SFTP | |
Actividad compatible | Copiar actividad (origen/destino) |
Actividad de búsqueda | |
Actividad GetMetadata | |
Actividad de eliminación |
Formato de texto delimitado en la actividad de copia
Para configurar el formato de texto delimitado, elija la conexión en el origen o destino de la actividad de copia de canalización de datos y, a continuación, seleccione DelimitedText en la lista desplegable Formato de archivo. Seleccione Configuración para seguir configurando este formato.
Formato de texto delimitado como origen
Después de seleccionar Configuración en la sección Formato de archivo , las siguientes propiedades se muestran en el cuadro de diálogo Configuración del formato de archivo emergente.
Tipo de compresión: el códec de compresión usado para leer archivos de texto delimitados. Puede elegir entre Ninguno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar en la lista desplegable.
Si selecciona ZipDeflate como tipo de compresión, Conservar el nombre del archivo zip como carpeta aparecerá en la configuración Avanzada de la pestaña Origen.
- Conservar el nombre del archivo zip como carpeta: indica si se debe conservar el nombre del archivo zip de origen como estructura de carpetas durante la copia.
- Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en
<specified file path>/<folder named as source zip file>/
. - Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en
<specified file path>
. Asegúrese de que no tenga nombres de archivo duplicados en distintos archivos ZIP de origen para evitar comportamientos acelerados o inesperados.
- Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en
Si selecciona TarGzip/tar como tipo de compresión, Conservar el nombre del archivo de compresión como carpeta aparecerá en la configuración Avanzada de la pestaña Origen.
- Conservar el nombre del archivo de compresión como carpeta: indica si se debe conservar el nombre del archivo de compresión de origen como estructura de carpetas durante la copia.
- Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en
<specified file path>/<folder named as source compressed file>/
. - Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en
<specified file path>
. Asegúrese de que no tenga nombres de archivo duplicados en distintos archivos ZIP de origen para evitar comportamientos acelerados o inesperados.
- Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en
- Conservar el nombre del archivo zip como carpeta: indica si se debe conservar el nombre del archivo zip de origen como estructura de carpetas durante la copia.
Nivel de compresión: especifique la relación de compresión al seleccionar un tipo de compresión. Puede elegir entre Óptimo o Más rápido.
- Más rápido: la operación de compresión debe completarse lo más rápido posible, incluso si el archivo resultante no se comprime de manera óptima.
- Optimal: la operación de compresión se debe comprimir óptimamente, incluso si tarda más tiempo en completarse. Para más información, consulte el tema Nivel de compresión .
Delimitador de columna: el carácter o caracteres usados para separar columnas en un fichero. El valor predeterminado es comma (
,
).Delimitador de filas: especifique el carácter usado para separar las filas de un archivo. Solo se permite un carácter. El valor predeterminado es el avance de línea
\n
.Codificación: el tipo de codificación usado para leer/escribir archivos de prueba. El valor predeterminado es UTF-8.
Carácter de escape: el carácter único para escapar las comillas dentro de un valor entre comillas. El valor predeterminado es barra diagonal inversa
\
. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores.Carácter de entrecomillado: el carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. El valor predeterminado es comillas dobles
"
. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo.Primera fila como encabezado: especifica si se debe tratar o convertir la primera fila como una línea de encabezado con nombres de columnas. Los valores permitidos son seleccionado y no seleccionado (predeterminado). Cuando la opción de primera fila como encabezado no está seleccionada, observe que la vista previa de los datos de la interfaz de usuario y la salida de la actividad de búsqueda generan automáticamente los nombres de las columnas como Prop_{n} (empezando por 0), la actividad de copia requiere una asignación explícita del origen al destino y ubica las columnas por ordinal (empezando por 1).
Valor null: especifica la representación en cadena del valor null. El valor predeterminado es una cadena vacía.
En la configuración Avanzada de la pestaña Origen, se muestran otras propiedades relacionadas con el formato de texto delimitado.
Formato de texto delimitado como destino
Después de seleccionar Configuración en la sección Formato de archivo , las siguientes propiedades se muestran en el cuadro de diálogo Configuración del formato de archivo emergente.
Tipo de compresión: el códec de compresión usado para escribir archivos de texto delimitados. Puede elegir entre Ninguno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar en la lista desplegable.
Nivel de compresión: especifique la relación de compresión al seleccionar un tipo de compresión. Puede elegir entre Óptimo o Más rápido.
- Más rápido: la operación de compresión debe completarse lo más rápido posible, incluso si el archivo resultante no se comprime de manera óptima.
- Optimal: la operación de compresión se debe comprimir óptimamente, incluso si tarda más tiempo en completarse. Para más información, consulte el tema Nivel de compresión .
Delimitador de columna: el carácter o caracteres usados para separar columnas en un fichero. El valor predeterminado es la coma (
,
).Delimitador de filas: el carácter usado para separar las filas de un archivo. Solo se permite un carácter. El valor predeterminado es el avance de línea
\n
.Codificación: el tipo de codificación usado para escribir archivos de prueba. El valor predeterminado es UTF-8.
Carácter de escape: el carácter único para escapar las comillas dentro de un valor entre comillas. El valor predeterminado es barra diagonal inversa
\
. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores.Carácter de entrecomillado: el carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. El valor predeterminado es comillas dobles
"
. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo.Primera fila como encabezado: especifica si se debe tratar o convertir la primera fila como una línea de encabezado con nombres de columnas. Los valores permitidos son seleccionado y no seleccionado (predeterminado). Cuando la opción de primera fila como encabezado no está seleccionada, observe que la vista previa de los datos de la interfaz de usuario y la salida de la actividad de búsqueda generan automáticamente los nombres de las columnas como Prop_{n} (empezando por 0), la actividad de copia requiere una asignación explícita del origen al destino y ubica las columnas por ordinal (empezando por 1).
Valor null: especifica la representación en cadena del valor null. El valor predeterminado es una cadena vacía.
En la configuración Avanzada de la pestaña Destino, se muestran otras propiedades relacionadas con el formato de texto delimitado.
Entrecomillar todo el texto: incluya todos los valores entre comillas.
Extensión del archivo: la extensión de archivo usada para nombrar los archivos de salida, por ejemplo,
.csv
,.txt
.Máximo de filas por archivo: al escribir datos en una carpeta, puede optar por escribir en varios archivos y especificar el número máximo de filas de cada archivo.
Prefijo de nombre de archivo: aplicable cuando se configura Número máximo de filas por archivo. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón:
<fileNamePrefix>_00000.<fileExtension>
. Si no se especifica, el prefijo de nombre de archivo se generará automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o un almacén de datos habilitado para la opción de partición.
Resumen de tabla
Texto delimitado como origen
Las siguientes propiedades se admiten en la sección Origen de la actividad de copia cuando se usa el formato de texto delimitado.
Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Formato de archivo | El formato de archivo que quiere usar. | DelimitedText | Sí | tipo (en datasetSettings ):DelimitedText |
Tipo de compresión | El códec de compresión usado para leer archivos de texto delimitados. | Elija entre las siguientes opciones: None bzip2 gzip deflate ZipDeflate TarGzip tar |
No | tipo (en compression ):bzip2 gzip deflate ZipDeflate TarGzip tar |
Conservar el nombre del archivo ZIP como carpeta | Indica si se debe conservar el nombre del archivo ZIP de origen como estructura de carpetas durante la copia. Se aplica al seleccionar la compresión ZipDeflate. | Selección o anulación de selección | No | preserveZipFileNameAsFolder (en compressionProperties ->type como ZipDeflateReadSettings ) |
Conservar el nombre del archivo de compresión como carpeta | Indica si se debe conservar el nombre del archivo de origen comprimido como estructura de carpetas durante la copia. Se aplica al seleccionar la compresión TarGzip/tar. | Selección o anulación de selección | No | preserveCompressionFileNameAsFolder (en compressionProperties ->type como TarGZipReadSettings o TarReadSettings ) |
Nivel de compresión | La razón de compresión. Los valores permitidos son Optimal o Fastest. | Óptimo o Más rápido | No | nivel (en compression ):Más rápido Óptimo |
Delimitador de columna | Los caracteres usados para separar las columnas en un archivo. | < el delimitador de columna seleccionado > coma , (de manera predeterminada) |
No | columnDelimiter |
Delimitador de filas | carácter utilizado para separar filas en un archivo. | < el delimitador de columna seleccionado > \r ,\n (de manera predeterminada) o r\n |
No | rowDelimiter |
Encoding | El tipo de codificación usado para leer y escribir archivos de prueba. | "UTF-8" (de manera predeterminada),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carácter de escape | El carácter único para escapar las comillas dentro de un valor entre comillas. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores. | < el carácter de escape seleccionado > barra diagonal inversa \ (de manera predeterminada) |
No | escapeChar |
Carácter de entrecomillado | El carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo. | < el carácter de entrecomillado seleccionado > comillas dobles " (de manera predeterminada) |
No | quoteChar |
Primera fila como encabezado | Especifica si se debe tratar la primera fila del rango o la hoja de cálculo determinados como una línea de encabezado con nombres de columnas. | Seleccionado o no seleccionado | No | firstRowAsHeader: true o false (valor predeterminado) |
Valor null | Especifica la representación de cadena del valor null. El valor predeterminado es una cadena vacía. | < la representación de cadena del valor null > cadena vacía (de forma predeterminada) |
No | nullValue |
Texto delimitado como destino
Las siguientes propiedades se admiten en la sección Destino de la actividad de copia cuando se usa el formato de texto delimitado.
Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Formato de archivo | El formato de archivo que quiere usar. | DelimitedText | Sí | tipo (en datasetSettings ):DelimitedText |
Tipo de compresión | El códec de compresión usado para escribir archivos de texto delimitados. | Elija entre las siguientes opciones: None bzip2 gzip deflate ZipDeflate TarGzip tar |
No | tipo (en compression ):bzip2 gzip deflate ZipDeflate TarGzip tar |
Conservar el nombre del archivo ZIP como carpeta | Indica si se debe conservar el nombre del archivo ZIP de origen como estructura de carpetas durante la copia. | Selección o anulación de selección | No | preserveZipFileNameAsFolder (en compressionProperties ->type como ZipDeflateReadSettings ) |
Conservar el nombre del archivo de compresión como carpeta | Indica si se debe conservar el nombre del archivo de origen comprimido como estructura de carpetas durante la copia. | Selección o anulación de selección | No | preserveCompressionFileNameAsFolder (en compressionProperties ->type como TarGZipReadSettings o TarReadSettings ) |
Nivel de compresión | La razón de compresión. Los valores permitidos son Optimal o Fastest. | Óptimo o Más rápido | No | nivel (en compression ):Más rápido Óptimo |
Delimitador de columna | Los caracteres usados para separar las columnas en un archivo. | < el delimitador de columna seleccionado > coma , (de forma predeterminada) |
No | columnDelimiter |
Delimitador de filas | carácter utilizado para separar filas en un archivo. | < el delimitador de columna seleccionado > \r ,\n (de manera predeterminada) o r\n |
No | rowDelimiter |
Encoding | El tipo de codificación usado para leer y escribir archivos de prueba. | "UTF-8" (de manera predeterminada),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carácter de escape | El carácter único para escapar las comillas dentro de un valor entre comillas. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores. | < el carácter de escape seleccionado > barra diagonal inversa \ (de manera predeterminada) |
No | escapeChar |
Carácter de entrecomillado | El carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo. | < el carácter de entrecomillado seleccionado > comillas dobles " (de manera predeterminada) |
No | quoteChar |
Primera fila como encabezado | Especifica si se debe tratar la primera fila del rango o la hoja de cálculo determinados como una línea de encabezado con nombres de columnas. | Seleccionado o no seleccionado | No | firstRowAsHeader: true o false (valor predeterminado) |
Entrecomillar todo el texto | Incluir todos los valores entre comillas. | Seleccionado (valor predeterminado) o no seleccionado | No | quoteAllText: true (valor predeterminado) o false |
Extensión de archivo | La extensión de archivo que se usa para denominar los archivos de salida. | < la extensión de archivo > .txt (de manera predeterminada) |
No | fileExtension |
Número máximo de filas por archivo | Al escribir datos en una carpeta, puede optar por escribir en varios archivos y especificar el número máximo de filas por archivo. | < el número máximo de filas por archivo > | No | maxRowsPerFile |
Prefijo de nombre de archivo | Se aplica cuando Número máximo de filas por archivo está configurado. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón: <fileNamePrefix>_00000.<fileExtension> . Si no se especifica, el prefijo de nombre de archivo se generará automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o un almacén de datos habilitado para la opción de partición. |
< el prefijo del nombre de archivo > | No | fileNamePrefix |