Configuración de Oracle Cloud Storage en una actividad de copia
En este artículo se describe cómo usar la actividad de copia en la canalización de datos para copiar datos desde y hacia Oracle Cloud Storage.
Requisitos previos
Para copiar datos de Oracle Cloud Storage, consulte la API de compatibilidad para el almacenamiento de objetos de Amazon S3 para conocer los requisitos previos y el permiso necesario.
Formato admitido
Oracle Cloud Storage admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.
- Formato Avro
- Formato binario
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en una actividad de copia, vaya a las secciones siguientes:
General
Para la configuración de la ficha General, vaya a General.
Source
Las siguientes propiedades son compatibles con Oracle Cloud Storage en la pestaña Origen de una actividad de copia.
Se requieren las siguientes propiedades:
Tipo de almacén de datos: seleccione Externo.
Conexión: selecciona una conexión de Oracle Cloud Storage en la lista de conexiones. Si no existe ninguna conexión, seleccione Nuevo para crear una nueva conexión de Oracle Cloud Storage.
Tipo de ruta de archivo : puede elegir Ruta de archivo , Prefijo, Ruta de archivo comodín o Lista de archivos como tipo de ruta de archivo. La configuración de cada una de estas opciones es:
Ruta del archivo: los datos se pueden copiar desde el cubo o la ruta de la carpeta/archivo especificados en Ruta del archivo.
Prefijo: especifique el cubo y el prefijo.
Cubo: especifica el nombre del cubo de Oracle Cloud Storage. Es necesario.
Prefijo: prefijo para el nombre de clave de Oracle Cloud Storage en el cubo especificado para filtrar los archivos de Oracle Cloud Storage de origen. Se seleccionan las claves de Oracle Cloud Storage cuyos nombres comienzan por
given_bucket/this_prefix
. Se emplea el filtro del servicio de Oracle Cloud Storage, que proporciona un mejor rendimiento que el filtro de comodín.
Ruta de acceso del archivo comodín: especifique el cubo y las rutas de acceso comodín.
Cubo: especifica el nombre del cubo de Oracle Cloud Storage. Es necesario.
Rutas de acceso comodín: especifique la carpeta o la ruta del archivo con caracteres comodín debajo de su cubo especificado para filtrar sus carpetas o archivos de origen.
Los caracteres comodín permitidos son:
*
(equivale a cero o a varios caracteres) y?
(equivale a cero o a un único carácter). Use^
como escape si el nombre de la carpeta contiene un carácter comodín o este carácter de escape. Para obtener más ejemplos, vaya a Ejemplos de filtros de carpetas y archivos .- Ruta de acceso de carpeta comodín: especifique la ruta de acceso de la carpeta con caracteres comodín en el cubo especificado para filtrar las carpetas de origen.
- Nombre del archivo comodín: especifique el nombre del archivo con caracteres comodín debajo de la ruta del cubo y la carpeta (o la ruta de la carpeta comodín) para filtrar los archivos de origen.
Lista de archivos: especifique la Ruta de acceso de la carpeta y la Ruta de acceso a la lista de archivos para indicar que se copia un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea, que sea la ruta de acceso relativa a la ruta de acceso configurada. Para obtener más ejemplos, vaya a Ejemplos de lista de archivos .
- Ruta de acceso de la carpeta: especifique la ruta de acceso a la carpeta en el cubo especificado. Es necesario.
- Ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
Recursivamente: indica si los datos se leen recursivamente desde las subcarpetas o solo desde la carpeta especificada. Cuando se selecciona esta casilla de verificación y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino.
Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte los artículos en Formato admitido.
En Avanzado, puede especificar los campos siguientes:
Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación que especifique. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
- Hora de inicio (UTC): los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
- Hora de finalización (UTC): los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.
Cuando Hora de inicio (UTC) tiene un valor de fecha y hora, pero Hora de finalización (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea mayor o igual que el valor de la fecha y hora. Cuando Hora de finalización (UTC) tiene un valor de fecha y hora, pero Hora de inicio (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea inferior al valor de la fecha y hora. Las propiedades pueden ser NULL, lo que significa que no se aplica ningún filtro de atributo de archivo a los datos.
Habilitar la detección de particiones: especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como otras columnas de origen. No se selecciona de forma predeterminada y no se admite cuando se usa el formato de archivo binario.
Ruta de acceso a las particiones: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
Si no se especifica, de forma predeterminada:
- Cuando se usa una ruta de acceso de archivo o una lista de archivos del origen, la ruta de acceso raíz de la partición es la ruta de acceso que ha configurado.
- Cuando se usa el filtro de carpeta con caracteres comodín, la ruta de acceso raíz de la partición es la subruta antes del primer carácter comodín.
- Cuando se usa un prefijo, la ruta de acceso raíz de la partición es la subruta antes del último "/".
Por ejemplo, suponiendo que configura la ruta de acceso como
root/folder/year=2020/month=08/day=27
:- Si especifica la ruta de acceso raíz de partición como
root/folder/year=2020
, la actividad de copia genera dos columnas más, mes y día. Estas columnas tienen los valores "08" y "27", respectivamente, además de las columnas dentro de los archivos. - Si no se especifica la ruta de acceso raíz de la partición, no se genera ninguna columna adicional.
Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Columnas adicionales: agregue más columnas de datos a la ruta de acceso relativa o al valor estático de los archivos de origen. La expresión se admite para este último.
Asignación
Para la configuración de la pestaña Asignación, vaya a Configurar las asignaciones en la pestaña Asignación. Si elige Binario como formato de archivo, no se admitirá la asignación.
Configuración
Para la configuración de la pestaña Configuración, consulte Configurar los otros parámetros en la ficha Configuración.
Resumen de tabla
La tabla siguiente contiene más información sobre la actividad de copia en Oracle Cloud Storage.
Información de origen
Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Tipo de almacén de datos | El tipo de almacén de datos. | Externo | Sí | / |
Connection | La conexión al almacén de datos de origen. | <tu conexión de Oracle Cloud Storage> | Sí | conexión |
Tipo de ruta de acceso de archivo | El tipo de ruta de acceso de archivo que se usa para obtener datos de origen. | • Ruta del archivo • Prefijo • Ruta de acceso del archivo con carácter comodín • Lista de archivos |
Sí | / |
Para ruta de acceso de archivo | ||||
Cubo | El nombre del cubo de Oracle Cloud Storage. | <el nombre del cubo> | Sí | bucketName |
Directorio | La ruta de acceso a la carpeta del cubo especificado. | <el nombre de su carpeta> | No | folderpath |
Nombre de archivo | El nombre de archivo en el cubo y la ruta de acceso de la carpeta especificados. | <el nombre de su archivo> | No | fileName |
Para prefijo | ||||
Cubo | El nombre del cubo de Oracle Cloud Storage. | <el nombre del cubo> | Sí | bucketName |
Prefijo | El prefijo del nombre de la clave de Oracle Cloud Storage en el cubo especificado para filtrar archivos de origen de Oracle Cloud Storage. | <su prefijo> | No | prefix |
Para la ruta de acceso del archivo con carácter comodín | ||||
Cubo | El nombre del cubo de Oracle Cloud Storage. | <el nombre del cubo> | Sí | bucketName |
Ruta de acceso de la carpeta comodín | Ruta de acceso de carpeta con caracteres comodín en el cubo especificado para filtrar carpetas de origen. | <ruta de acceso de su carpeta con caracteres comodín> | No | wildcardFolderPath |
Nombre de archivo comodín | Nombre de archivo con caracteres comodín en el cubo y la ruta de carpeta (o ruta de carpeta con carácter comodín) especificada para filtrar los archivos de origen. | <el nombre de su archivo con caracteres comodín> | Sí | wildcardFileName |
Para Lista de archivos | ||||
Cubo | El nombre del cubo de Oracle Cloud Storage. | <el nombre del cubo> | Sí | bucketName |
Directorio | La ruta de acceso a la carpeta del cubo especificado. | <el nombre de su carpeta> | No | folderpath |
Ruta de acceso a la lista de archivos | Indica que se copie un conjunto de archivos especificado. Señale un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea. | > ruta de acceso de la lista de archivos < | No | fileListPath |
Formato de archivo | El formato de archivo para los datos de origen. Para obtener información sobre los diferentes formatos de archivo, consulte los artículos en Formato admitido. | / | Sí | / |
Recursively | Indica si los datos se leen de forma recursiva de las subcarpetas o solo de la carpeta especificada. Cuando se selecciona esta casilla de verificación y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino. | Seleccionado (predeterminado) o no seleccionado | No | recursive |
Filtrar por última modificación | Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplica a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ . Esta propiedad se puede omitir, lo que significa que no se aplicará ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar detección de particiones | Indica si se analizan las particiones de la ruta de acceso del archivo y se agregan como otras columnas de origen. | seleccionado o no seleccionado (valor predeterminado) | No | enablePartitionDiscovery: true o false (valor predeterminado) |
Ruta de acceso raíz de las particiones | Cuando esté habilitada la detección de particiones, especifique la ruta de acceso raíz absoluta para poder leer las carpetas con particiones como columnas de datos. | < ruta de acceso raíz a su partición > | No | partitionRootPath |
Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |
Columnas adicionales | Agregue otras columnas de datos a la ruta de acceso relativa o al valor estático de los archivos de origen. La expresión se admite para este último. | • Name • Valor |
No | additionalColumns: • nombre • valor |