Herramientas para la migración del almacenamiento de datos de Teradata a Azure Synapse Analytics
Este artículo es la sexta parte de una serie de siete partes que proporciona instrucciones sobre cómo migrar de Teradata a Azure Synapse Analytics. Este artículo se centra en los procedimientos recomendados para Microsoft y herramientas de terceros.
Herramientas de migración del almacenamiento de datos
Al migrar el almacenamiento de datos existente a Azure Synapse, se beneficia de lo siguiente:
Una base de datos analítica globalmente segura, escalable, de bajo coste, nativa de la nube y de pago por uso.
El amplio ecosistema analítico de Microsoft que existe en Azure. Este ecosistema se compone de tecnologías que ayudan a modernizar su almacén de datos una vez que se ha migrado y ampliar sus capacidades analíticas para generar nuevo valor.
Varias herramientas de Microsoft y de asociados de terceros pueden ayudarle a migrar el almacenamiento de datos existente a Azure Synapse. En este artículo se describen los siguientes tipos de herramientas:
Herramientas de migración de datos y bases de datos de Microsoft.
Herramientas de automatización de almacenamiento de datos de terceros para automatizar y documentar la migración a Azure Synapse.
Herramientas de migración de almacenamiento de datos de terceros para migrar el esquema y los datos a Azure Synapse.
Herramientas de terceros en SQL para superar las diferencias entre dbMS y Azure Synapse del almacenamiento de datos existente.
Herramientas de migración de datos de Microsoft
Microsoft ofrece varias herramientas para ayudarle a migrar el almacenamiento de datos existente a Azure Synapse, como:
Servicios Microsoft para la transferencia de datos físicos.
Servicios Microsoft para la ingesta de datos.
En las siguientes secciones se describen los roles con más detalle.
Microsoft Azure Data Factory
Data Factory es un servicio de integración de datos híbrido, totalmente gestionado y de pago, para el procesamiento ETL y ELT altamente escalable. Utiliza Apache Spark para procesar y analizar datos en paralelo y en memoria a fin de maximizar el rendimiento.
Sugerencia
Data Factory permite la compilación de canalizaciones de integración de datos escalables sin código.
Los conectores de Data Factory son compatibles con bases de datos y orígenes de datos externos e incluyen plantillas para tareas comunes de integración de datos. Una interfaz de usuario (UI) basada en explorador front-end visual permite que usuarios que no son programadores puedan crear y ejecutar canalizaciones para ingerir, transformar y cargar datos. Los programadores más experimentados pueden incorporar código personalizado, como programas de Python.
Sugerencia
Data Factory permite el desarrollo colaborativo entre profesionales empresariales y de TI.
Data Factory también es una herramienta de orquestación. Es la mejor herramienta de Microsoft para automatizar el proceso de migración de un extremo a otro. La automatización reduce el riesgo, el esfuerzo y el tiempo de migración, y hace que el proceso de migración sea fácil de repetir. El siguiente diagrama muestra un flujo de datos de asignación en Data Factory.
La siguiente captura de pantalla muestra un flujo de datos de limpieza y transformación en Data Factory.
En Data Factory puede desarrollar procesos ETL y ELT sencillos o completos sin codificar ni mantener con tan solo unos pocos clics. Los procesos ETL/ELT ingieren, mueven, preparan, transforman y procesan sus datos. Puede diseñar y gestionar la programación y los desencadenantes en Data Factory para construir un entorno automatizado de integración y carga de datos. En Data Factory, puede definir, gestionar y programar los procesos de carga masiva de datos de PolyBase.
Sugerencia
Data Factory incluye herramientas para ayudar a migrar tanto sus datos como todo el almacenamiento de datos a Azure.
Puede utilizar Data Factory para implementar y gestionar un entorno híbrido con datos locales, de la nube, de streaming y de SaaS de forma segura y coherente. Los datos de SaaS pueden provenir de aplicaciones como Salesforce.
La gestión de los flujos de datos de limpieza y transformación es una nueva capacidad de Data Factory. Esta capacidad abre Data Factory a los usuarios empresariales que desean detectar, explorar y preparar visualmente los datos a escala sin necesidad de escribir código. Los flujos de datos de limpieza y transformación ofrecen preparación de datos de autoservicio, de forma similar a los flujos de datos de Microsoft Excel, Power Query y Microsoft Power BI. Los usuarios empresariales pueden preparar e integrar datos a través de una interfaz de usuario de estilo hoja de cálculo con opciones de transformación desplegables.
Data Factory es el enfoque recomendado para implementar procesos de integración de datos y ETL/ELT en el entorno de Azure Synapse, especialmente si es desea refactorizar los procesos heredados existentes.
Servicios Microsoft para la transferencia de datos físicos
En las secciones siguientes se describe una gama de productos y servicios que Microsoft ofrece para ayudar a los clientes con la transferencia de datos.
Azure ExpressRoute
Azure ExpressRoute crea conexiones privadas entre los centros de datos de Azure y la infraestructura del entorno local o en un entorno de coubicación. Las conexiones ExpressRoute no usan la red de Internet pública y ofrecen más confiabilidad, velocidad y una menor latencia que las conexiones a Internet habituales. En algunos casos, al utilizar las conexiones ExpressRoute para transferir datos entre los sistemas locales y Azure, se obtienen importantes beneficios en cuanto a costes.
AzCopy
AzCopy es una utilidad de línea de comandos que copia archivos en Azure Blob Storage a través de una conexión estándar de Internet, VPN segura o Expressroute privada. En un proyecto de migración de almacenamiento, puede usar AzCopy para cargar archivos de texto extraídos, comprimidos y delimitados antes de cargarlos en Azure Synapse mediante PolyBase. AzCopy puede cargar archivos individuales, selecciones de archivos o carpetas de archivos. Si los archivos exportados están en formato Parquet, use en su lugar un lector nativo de Parquet.
Azure Data Box
Azure Data Box es un servicio de Microsoft que proporciona un dispositivo de almacenamiento físico propietario en el que puede copiar los datos de migración. Después, puede enviar el dispositivo a un centro de datos de Azure para la carga de datos en el almacenamiento en la nube. Este servicio puede ser rentable para grandes volúmenes de datos, como decenas o cientos de terabytes, o cuando el ancho de banda de la red no está fácilmente disponible. Azure Data Box se utiliza normalmente para una carga única de datos históricos en Azure Synapse.
Azure Data Box Gateway
Azure Data Box Gateway es un dispositivo virtualizado de almacenamiento en la nube que reside en sus instalaciones y envía sus imágenes, medios y otros datos a Azure. Use Data Box Gateway para tareas de migración únicas o cargas de datos incrementales en curso.
Servicios Microsoft para la ingesta de datos
En las secciones siguientes se describen los productos y servicios que Microsoft ofrece para ayudar a los clientes con la ingesta de datos.
COPY INTO
La instrucción COPY INTO proporciona la máxima flexibilidad para la ingesta de datos de alto rendimiento en Azure Synapse. Para obtener más información sobre las capacidades de COPY INTO
, consulte COPY (Transact-SQL).
PolyBase
PolyBase es el método más rápido y escalable para cargar datos de forma masiva en Azure Synapse. PolyBase usa la arquitectura de procesamiento paralelo masivo (MPP) de Azure Synapse para la carga en paralelo de datos para lograr el rendimiento más rápido. PolyBase puede leer datos de archivos planos en Azure Blob Storage o directamente de orígenes de datos externos u otras bases de datos relacionales mediante conectores.
Sugerencia
PolyBase puede cargar datos en paralelo desde Azure Blob Storage en Azure Synapse.
PolyBase también puede leer directamente de archivos comprimidos con gzip para reducir el volumen físico de datos durante un proceso de carga. PolyBase admite formatos de datos populares, como texto delimitado, ORC y Parquet.
Sugerencia
Puede invocar PolyBase desde Data Factory como parte de una canalización de migración.
PolyBase posee una estrecha integración con Data Factory para admitir el desarrollo rápido de procesos ETL/ELT de carga de datos. Puede programar procesos de carga de datos a través de una interfaz de usuario visual para una mayor productividad y menos errores que el código escrito a mano. Microsoft recomienda PolyBase para la ingesta de datos en Azure Synapse, especialmente de gran volumen.
PolyBase usa las instrucciones CREATE TABLE AS
o INSERT...SELECT
para cargar datos. CREATE TABLE AS
minimiza el registro para lograr el mayor rendimiento. El formato de entrad más eficaz son los archivos de texto delimitados comprimidos. Para obtener el máximo rendimiento, divida archivos de entrada grandes en varios archivos más pequeños y cárguelos en paralelo. Para una carga más rápida en una tabla de almacenamiento provisional, defina la tabla de destino como tipo HEAP
y use la distribución round-robin.
PolyBase tiene algunas limitaciones, requiere que la longitud de fila de datos sea inferior a 1 megabyte y no admite formatos anidados de ancho fijo, como JSON y XML.
Asociados de Microsoft para migraciones de Teradata
Los asociados de Microsoft ofrecen herramientas, servicios y experiencia para ayudarle a migrar la plataforma de almacenamiento de datos local heredada a Azure Synapse.
Pasos siguientes
Para más información sobre la implementación de almacenamientos de datos modernos, consulte el siguiente artículo de esta serie: Más allá de la migración de Teradata, implemente un almacenamiento de datos moderno en Microsoft Azure.