Configuración de SFTP en una actividad de copia
En este artículo se describe cómo usar la actividad de copia en la canalización de datos para copiar datos de SFTP.
Formato admitido
SFTP admite los siguientes formatos de archivo. Consulte cada artículo para consultar la configuración según el formato.
- Formato Avro
- Formato binario
- formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.
General
Consulte la guía de Configuración general para configurar la pantalla de configuración General.
Fuente
Vaya a la pestaña Origen para configurar el origen de la actividad de copia. Consulte el siguiente contenido para obtener la configuración detallada.
Las siguientes tres propiedades son necesarias:
Tipo de almacén de datos: seleccione externo .
conexión: seleccione una conexión SFTP en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión SFTP seleccionando Nuevo.
Tipo de ruta de acceso de archivo: seleccione de Ruta de acceso de archivo, ruta de acceso de archivo comodín y Lista de archivos en función de la forma en que desea leer archivos.
Ruta de acceso de archivo: si elige este tipo, especifique la ruta de acceso del archivo de origen. Puede seleccionar Examinar para seleccionar los archivos de origen o escribir manualmente la ruta de acceso del archivo.
Ruta de archivo comodín: Si elige este tipo, especifique las rutas comodín para filtrar sus carpetas o archivos de origen.
Los caracteres comodín permitidos son
*
(coincide con cero o más caracteres) y?
(coincide con cero o un solo carácter). Use^
como escape si el nombre de la carpeta contiene un carácter comodín o este carácter de escape. Para obtener más ejemplos, vaya a Ejemplos de filtro de carpetas y archivos.Ruta de acceso de carpeta comodín: especifique la ruta de acceso de la carpeta con caracteres comodín para filtrar las carpetas de origen.
Nombre del archivo comodín: especifique el nombre del archivo con caracteres comodín debajo de la ruta de la carpeta (o la ruta de la carpeta comodín) para filtrar los archivos de origen.
Lista de archivos: si selecciona este tipo, especifique la ruta de acceso de la carpeta y la ruta de acceso del archivo para indicar que se copia un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de archivos que desea copiar, un archivo por línea. Para obtener más ejemplos, vaya a Ejemplos de lista de archivos .
Ruta de la carpeta: Indique la ruta de la carpeta de origen. Es necesario.
ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
formato de archivo: seleccione el formato de archivo aplicado en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Advanced, puede especificar los siguientes campos:
Filtrar por última modificación: Se filtran los archivos según la fecha de última modificación especificada. Esta propiedad no se aplica cuando configuras el tipo de ruta de acceso de archivo como Lista de archivos.
- hora de inicio (UTC): los archivos se seleccionan si la hora de la última modificación es mayor o igual que la hora configurada.
- hora de finalización (UTC): los archivos se seleccionan si la hora de la última modificación es menor que la hora configurada.
Cuando hora de inicio (UTC) tiene un valor de fecha y hora, pero hora de finalización (UTC) es NULL, significa que los archivos cuyo último atributo modificado es mayor o igual que el valor de fecha y hora son seleccionados. Cuando hora de finalización (UTC) tiene un valor de fecha y hora pero hora de inicio (UTC) es NULL, implica que los archivos cuyo último atributo modificado es menor que ese valor de fecha y hora son seleccionados. Las propiedades pueden ser NULL, lo que significa que no se aplica ningún filtro de atributo de archivo a los datos.
Deshabilitar la fragmentación: la fragmentación está diseñada para optimizar el rendimiento y se produce debajo. Esta opción le permite deshabilitar la fragmentación dentro de cada archivo. Al copiar datos desde SFTP, el servicio intenta obtener primero la longitud del archivo y, a continuación, dividir el archivo en varias partes y leerlos en paralelo. Especifique si el servidor SFTP admite la obtención de la longitud del archivo o la búsqueda de lectura desde un desplazamiento determinado. No está seleccionado de forma predeterminada.
Habilitar la detección de particiones: especifique si se van a analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales. No se selecciona de forma predeterminada y no se admite cuando se usa el formato de archivo binario.
ruta de acceso raíz de partición: cuando la detección de particiones está habilitada, especifique la ruta de acceso raíz absoluta para leer carpetas con particiones como columnas de datos.
Si no se especifica, de forma predeterminada,- Cuando se usa la ruta de acceso de archivo o una lista de archivos del origen, la ruta de acceso raíz de la partición es la ruta de acceso que ha configurado.
- Cuando usas el filtro de carpeta comodín, la ruta raíz de la partición es la subruta que aparece antes del primer comodín.
Por ejemplo, suponiendo que configure la ruta de acceso como
root/folder/year=2020/month=08/day=27
:- Si especifica la ruta de acceso raíz de partición como
root/folder/year=2020
, la actividad de copia genera dos columnas más, mes y día, cada una con el valor "08" y "27", respectivamente, además de las columnas dentro de los archivos. - Si no se especifica la ruta de acceso de la partición raíz, no se genera ninguna columna adicional.
Número máximo de conexiones simultáneas: esta propiedad indica el límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas.
Columnas adicionales: agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. Para obtener más información, vaya a Agregar columnas adicionales al copiar.
Destino
Vaya a la pestaña Destino para configurar el destino de la actividad de copia. Consulte el siguiente contenido para obtener la configuración detallada.
- Tipo de almacén de datos: seleccione externo .
- conexión: seleccione una conexión SFTP en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión SFTP seleccionando Nuevo.
- Ruta de acceso del archivo: Especifique la ruta donde desea escribir sus datos. Puede seleccionar Examinar para seleccionar los archivos de origen o escribir manualmente la ruta de acceso del archivo.
- formato de archivo: seleccione el formato de archivo aplicado en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Advanced, puede especificar los siguientes campos:
Configuración de copia: Especifique la configuración de copia cuando el origen sean archivos de un almacenamiento de datos basado en archivos. Elija entre las siguientes propiedades.
- Jerarquía aplanada: Todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.
- Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre de archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.
- conservar la jerarquía (valor predeterminado): conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa del archivo de origen a la carpeta de origen es idéntica a la ruta de acceso relativa del archivo de destino a la carpeta de destino.
- Agregar contenido dinámico: seleccione esta opción para especificar el comportamiento de copia mediante contenido dinámico.
Número máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas.
tiempo de espera de la operación (minutos): especifique el tiempo de espera para escribir cada fragmento en el servidor SFTP. El valor predeterminado es 60 minutos.
Cargar con archivo temporal: Especifique si desea cargar en archivos temporales y renombrarlos, o escribir directamente en la carpeta de destino o en la ubicación del archivo. De forma predeterminada, está seleccionado y el servicio primero escribe en archivos temporales y luego los renombra cuando finaliza la carga.
Esta secuencia ayuda a (1) a evitar conflictos que podrían dar lugar a un archivo dañado si tiene otros procesos escribiendo en el mismo archivo y (2) asegurarse de que la versión original del archivo existe durante la transferencia. Si el servidor SFTP no admite una operación de cambio de nombre, deshabilite esta opción y asegúrese de que no tiene una escritura simultánea en el archivo de destino.
Sugerencia
Si recibe el error "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" o "SftpOperationFail" al escribir datos en SFTP y el usuario SFTP que usa tiene los permisos adecuados, compruebe si la operación de cambio de nombre de archivo de soporte técnico del servidor SFTP funciona. Si no es así, deshabilite la opción Cargar con archivo temporal e inténtelo de nuevo.
Cartografía
Para la configuración de la pestaña Asignación, consulte Configuración de las asignaciones en la pestaña de asignación. Si elige Binario como formato de archivo, no se admitirá la asignación.
Configuración
Para la configuración de la pestaña Configuración, vaya a Configurar los otros parámetros en la pestaña configuración.
Resumen de tabla
La tabla siguiente contiene más información sobre la actividad de copia en SFTP.
Fuente
Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Tipo de almacén de datos | El tipo de almacén de datos. | Externo | Sí | / |
Conexión | La conexión SFTP al almacén de datos de origen. | < la conexión SFTP > | Sí | conexión |
Tipo de ruta del archivo | El tipo de ruta de acceso de archivo que se usa para obtener datos de origen. | • Ruta del archivo • Ruta de acceso del archivo con carácter comodín • Lista de archivos |
Sí | / |
Ruta de acceso del archivo | Ruta de acceso al archivo de origen. | < ruta del archivo> | Sí | Nombre del archivo folderPath |
Ruta de acceso con carácter comodín | La ruta de acceso comodín al archivo de origen. | < ruta de acceso del archivo con carácter comodín> | Sí para el nombre de archivo comodín | wildcardFolderPath wildcardFileName |
Folder path (Ruta de acceso a la carpeta) | Ruta de acceso a la carpeta de origen. | < escriba la ruta de acceso de la carpeta> | Sí | folderPath |
ruta de acceso a la lista de archivos | Indica que se copia un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de archivos que desea copiar, un archivo por línea. | > ruta de acceso de la lista de archivos < | No | fileListPath |
Formato de archivo | Formato de archivo para los datos de origen. Para obtener información sobre diferentes formatos de archivo, consulte en los artículos de Formatos admitidos para obtener la información detallada. | / | Sí | / |
Filtrar por última modificación | Los archivos con la hora de última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtran para su posterior procesamiento. La hora se aplica a la zona horaria UTC en el formato de yyyy-mm-ddThh:mm:ss.fffZ . Estas propiedades se pueden omitir, lo que significa que no se aplica ningún filtro de atributo de archivo. Esta propiedad no se aplica al configurar el tipo de ruta de acceso del archivo como Lista de archivos. |
fecha y hora | No | modifiedDatetimeStart modifiedDatetimeEnd |
Deshabilitar la fragmentación | La fragmentación está diseñada para optimizar el rendimiento y se lleva a cabo internamente. Esta opción le permite deshabilitar la fragmentación dentro de cada archivo. Al copiar datos desde SFTP, el servicio intenta obtener primero la longitud del archivo y, a continuación, dividir el archivo en varias partes y leerlos en paralelo. Especifique si el servidor SFTP admite la obtención de la longitud del archivo o la búsqueda de lectura desde un desplazamiento determinado. | seleccionado o no seleccionado (valor predeterminado) | No | disableChunking: true o false (valor predeterminado) |
Habilitar la detección de particiones | Indica si se debe analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales. | seleccionado o no seleccionado (valor predeterminado) | No | enablePartitionDiscovery: true o false (valor predeterminado) |
ruta raíz de partición | Ruta raíz absoluta de la partición para leer carpetas particionadas como columnas de datos. Especifíquelo cuando la detección de particiones esté habilitada. | < ruta raíz de la partición > | No | partitionRootPath |
número máximo de conexiones simultáneas | Límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas. | < límite superior de conexiones simultáneas > (entero) |
No | maxConcurrentConnections |
Columnas adicionales | Agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. Para obtener más información, vaya a Agregar columnas adicionales al copiar | •Nombre • Valor |
No | additionalColumns: •nombre •valor |
Destino
Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Tipo de almacén de datos |
El tipo de almacén de datos. | Externo | Sí | / |
Conexión | La conexión al SFTP de origen. | < su conexión > | Sí | conexión |
Ruta de acceso del archivo | Ruta del archivo de los datos de destino. | Ruta de acceso del archivo del destino | Sí | folderPath fileName |
Formato de archivo | Formato de archivo para los datos de origen. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. | / | Sí | / |
Comportamiento de copia | Define el comportamiento de copia cuando el origen es archivos de un almacén de datos basado en archivos. | • Aplanar la jerarquía • Combinar archivos • Conservar la jerarquía |
No | copyBehavior: - FlattenHierarchy - MergeFiles - PreserveHierarchy |
número máximo de conexiones simultáneas | Límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | máximo de conexiones concurrentes |
tiempo de espera de la operación (minutos) | Tiempo de espera para escribir cada fragmento en el servidor SFTP. | < tiempo de espera de la operación > El valor predeterminado es 60. |
No | operationTimeout |
Cargar con archivo temporal | Indica si se deben cargar archivos temporales y cambiar el nombre. Deshabilite esta opción si el servidor SFTP no admite la operación de cambio de nombre. | seleccionado (valor predeterminado) o no seleccionado | No | useTempFileRename: true (valor predeterminado) o false |