Automatización de las transformaciones de datos
La preparación de datos para el aprendizaje automático es un paso necesario cuando desea crear modelos eficaces. Azure Databricks puede procesar y preparar conjuntos de datos grandes de forma eficaz debido a la potencia de proceso de Spark.
Vamos a explorar cómo se puede realizar cada paso en el flujo de trabajo de aprendizaje automático relacionado con los datos en Azure Databricks.
Almacenamiento de datos recopilados en Azure Storage
Al recopilar datos de varios orígenes, es mejor almacenar los datos en una solución de almacenamiento como Azure Blob Storage o Azure Data Lake.
El almacenamiento de datos en una solución de Almacenamiento de Azure en lugar de directamente en Azure Databricks ofrece una mejor escalabilidad, seguridad mejorada e integración con otros servicios de Azure.
Las soluciones de almacenamiento de Azure proporcionan un entorno sólido y flexible para administrar grandes conjuntos de datos, lo que garantiza que los datos están disponibles fácilmente para su procesamiento y análisis.
Para administrar el acceso a todos los datos almacenados en el almacenamiento en la nube, use Unity Catalog. Unity Catalog proporciona una solución de gobernanza unificada para todos los recursos de datos, lo que le permite administrar permisos y controles de acceso en todo el patrimonio de datos.
Sugerencia
Obtenga más información sobre cómo conectarse al almacenamiento de objetos en la nube mediante Unity Catalog
Exploración y preparación de los datos
Después de conectarse a los datos, quiere explorar los datos a través de Exploratory Data Analysis (EDA). En función de los resultados, se preparan los datos para controlar los datos que faltan, realizar la ingeniería de características y realizar cualquier otra transformación de datos que considere beneficiar el rendimiento del modelo.
Para el análisis inicial, use cuadernos de Databricks para explorar y comprender los datos. Puede usar Spark SQL o PySpark para trabajar con grandes conjuntos de datos, resumir los datos, comprobar los valores null y comprender las distribuciones de datos.
Automatización de la ingeniería de características en Azure Databricks
Las herramientas y bibliotecas automatizadas de ingeniería de características, como Featuretools y AutoFeat, están ganando popularidad a medida que simplifican el proceso de generación y selección de características. Estas herramientas usan algoritmos para crear automáticamente características a partir de datos sin procesar, evaluar su importancia y seleccionar las más relevantes para el modelado. Este enfoque ahorra tiempo y reduce la dependencia de la ingeniería manual de características.
Automatización de las transformaciones de datos en Azure Databricks
Después de la exploración, puede optar por automatizar las transformaciones de datos mediante la configuración de canalizaciones. Una manera de lograr la automatización es configurar trabajos en Azure Databricks para automatizar cuadernos y scripts. Los trabajos de Azure Databricks permiten programar y ejecutar los cuadernos o archivos JAR como trabajos, lo que le permite automatizar los flujos de trabajo de procesamiento de datos.
Para configurar un trabajo en Azure Databricks, siga estos pasos:
- Crear un trabajo: En el área de trabajo de Databricks, vaya a la pestaña Trabajos y seleccione en
Create job
. Proporcione un nombre para el trabajo y especifique el cuaderno o el archivo JAR que desea ejecutar. - Configure el trabajo: Establezca los parámetros del trabajo, como la configuración del clúster, la programación para ejecutar el trabajo y las dependencias. También puede especificar notificaciones por correo electrónico para las actualizaciones de estado del trabajo.
- Ejecutar y supervisar el trabajo: Una vez configurado el trabajo, puede ejecutarlo manualmente o dejar que se ejecute según la programación establecida. Puede supervisar el progreso del trabajo y ver los registros para solucionar cualquier problema.
Sugerencia
Obtenga más información sobre cómo crear y ejecutar trabajos de Azure Databricks.
Como alternativa, puede usar los servicios de Azure para crear canalizaciones de datos automatizadas.
Automatización de la integración de datos con Azure Data Factory
Azure Data Factory es una herramienta para crear y administrar canalizaciones de datos. Permite crear flujos de trabajo controlados por datos para orquestar el movimiento y la transformación de datos.
Para crear una canalización de datos en Azure Data Factory, siga estos pasos:
- Creación de una factoría de datos: En Azure Portal, cree una nueva instancia de Data Factory.
- Crear una canalización: En la interfaz de usuario de Data Factory, cree una canalización y agregue actividades a ella. Las actividades pueden incluir operaciones de movimiento de datos, transformación de datos y flujo de control.
- Configurar actividades: Establezca los parámetros de cada actividad, como los almacenes de datos de origen y destino, la lógica de transformación y las dependencias.
- Programación y supervisión: Programe la canalización para que se ejecute a intervalos especificados y supervise su ejecución. Puede ver los registros y configurar alertas para cualquier problema.
Sugerencia
Obtenga más información sobre Azure Data Factory.
Al automatizar las transformaciones de datos y los flujos de trabajo con trabajos de Azure Databricks o Azure Data Factory, se garantiza un procesamiento de datos coherente, lo que hace que los modelos de aprendizaje automático sean más eficaces y confiables.