Administración de entornos de ejecución de integración
En Data Factory, una actividad define la acción que se realizará. Un servicio vinculado define un almacén de datos o un servicio de proceso de destino. Una entorno de ejecución de integración proporciona la infraestructura para la actividad y los servicios vinculados.
La actividad o el servicio vinculado hace referencia Integration Runtime, y proporciona el entorno de proceso donde se ejecuta la actividad o desde donde se distribuye. De esta manera, la actividad puede realizarse en la región más cercana posible al almacén de datos o servicio de proceso de destino de la manera con mayor rendimiento, a la vez que se satisfacen las necesidades de seguridad y cumplimiento.
En resumen, Integration Runtime (IR) es la infraestructura de proceso que usa Azure Data Factory. Proporciona las siguientes funcionalidades de integración de datos en distintos entornos de red, entre los que se incluyen:
- Data Flow: ejecute una instancia de Data Flow en el entorno de proceso de Azure administrado.
- Movimiento de datos: Copie los datos entre almacenes de datos en redes públicas y almacenes de datos en redes privadas (red privada local o virtual). Proporciona compatibilidad para conectores integrados, conversión de formato, asignación de columnas y transferencia de datos escalable y de rendimiento superior.
- Distribución de actividades: distribuya y supervise actividades de transformación que se ejecuten en una gran variedad de servicios de proceso, como Azure Databricks, Azure HDInsight, Azure Machine Learning, Azure SQL Database, SQL Server, etc.
- Ejecución de paquetes SSIS: ejecute de forma nativa paquetes de SQL Server Integration Services (SSIS) en un entorno de proceso de Azure administrado.
Cada vez que se crea una instancia de Azure Data Factory, se crea un entorno de Integration Runtime predeterminado que admite operaciones en almacenes de datos en la nube y servicios de proceso en la red pública. Se puede ver cuando el entorno de ejecución de integración está configurado para la resolución automática.
Tipos de instancias de Integration Runtime
Data Factory ofrece tres tipos de instancias de Integration Runtime, y debe elegir el tipo que atienda mejor las funcionalidades de integración de datos y las necesidades del entorno de red que está buscando. Estos tres tipos son:
- Azure
- Autohospedado
- SSIS de Azure
Puede definir explícitamente el valor de Integration Runtime en la propiedad connectVia, si no se define, se usa el entorno de ejecución de integración predeterminado con la propiedad establecida en resolución automática.
En la tabla siguiente se describen las funcionalidades y la compatibilidad de red para cada uno de los tipos de instancias de Integration Runtime:
Tipo de IR | Red pública | Red privada |
---|---|---|
Azure | Data Flow | Data Flow |
Movimiento de datos | Movimiento de datos | |
Distribución de actividades | Distribución de actividades | |
Autohospedado | Movimiento de datos | Movimiento de datos |
Distribución de actividades | Distribución de actividades | |
SSIS de Azure | Ejecución de paquetes SSIS | Ejecución de paquetes SSIS |
Determinar qué entorno de ejecución de integración usar
Hay una serie de factores que afectan al entorno de Integration Runtime que se va a usar. La siguiente es una guía que le ayudará a seleccionar el IR correcto
Actividad de copia
Para la actividad de copia, necesita servicios vinculados de origen y receptor para definir la dirección del flujo de datos. Se utiliza la lógica siguiente para determinar qué instancia de Integration Runtime se utiliza para realizar la copia:
Copia entre dos orígenes de datos en la nube: si el servicio vinculado de origen y el receptor usan Azure IR, ADF usará la instancia regional de Azure IR, si la especificó, o determinará automáticamente una ubicación para Azure IR si decidió usar la opción de resolución automática de IR (la opción predeterminada) como se ha descrito en la sección Ubicación de Integration Runtime.
Copia de datos entre un origen de datos en la nube y un origen de datos en una red privada: si el servicio vinculado de origen o de receptor apunta a una instancia de IR autohospedado, la actividad de copia se ejecuta en esa instancia de Integration Runtime autohospedado.
Copia entre dos orígenes de datos en una red privada: tanto el servicio vinculado de origen como el receptor deben apuntar a la misma instancia del entorno de ejecución de integración y este entorno se usa para ejecutar la actividad de copia.
Actividad Lookup y GetMetadata
La actividad Lookup y GetMetadata se ejecuta en el entorno de ejecución de integración asociado al servicio vinculado de almacén de datos.
Actividad de transformación
Cada actividad de transformación tiene un destino de servicio vinculado de proceso de destino, que apunta a una instancia de Integration Runtime. Esta instancia de Integration Runtime es desde donde se distribuye la actividad de transformación.
Actividad Data Flow
La actividad Data Flow se ejecuta en el entorno de ejecución de integración asociado a ella.