Funcionalidades de Machine Learning en Azure Synapse Analytics
Azure Synapse Analytics ofrece distintas funcionalidades de aprendizaje automático. En este artículo se proporciona información general sobre cómo se puede aplicar el aprendizaje automático en el contexto de Azure Synapse.
En esta información general se describen las distintas funcionalidades de Synapse relacionadas con el aprendizaje automático, desde la perspectiva del proceso de ciencia de datos.
Es posible que esté familiarizado con el aspecto de un proceso de ciencia de datos típico. Se trata de un proceso conocido, que siguen la mayoría de los proyectos de aprendizaje automático.
En un nivel superior, el proceso contiene los siguientes pasos:
- Comprensión empresarial (no se trata en este artículo)
- Adquisición y comprensión de los datos
- Modelado
- Implementación y puntuación de modelos
En este artículo se describen las funcionalidades de aprendizaje automático de Azure Synapse en diferentes motores de análisis, desde una perspectiva de proceso de ciencia de datos. Se resumen las funcionalidades de Azure Synapse que pueden ayudar para cada paso del proceso de ciencia de datos.
Adquisición y comprensión de los datos
La mayoría de los proyectos de aprendizaje automático implican pasos bien establecidos y uno de estos pasos es acceder a los datos y comprenderlos.
Origen de datos y canalizaciones
Gracias a Azure Data Factory, una parte integrada de forma nativa de Azure Synapse, hay un conjunto eficaz de herramientas disponibles para canalizaciones de ingesta de datos y orquestación de datos. Esto le permite crear fácilmente canalizaciones de datos para acceder a los datos y transformarlos a un formato que se pueda consumir para el aprendizaje automático. Obtenga más información sobre las canalizaciones de datos en Synapse.
Preparación de datos y su exploración o visualización
Una parte importante del proceso de aprendizaje automático es comprender los datos mediante la exploración y las visualizaciones.
En función de dónde se almacenen los datos, Synapse ofrece un conjunto diferente de herramientas para explorar y prepararlos para el análisis y el aprendizaje automático. Una de las maneras más rápidas de empezar a trabajar con la exploración de datos es usar Apache Spark o grupos de SQL sin servidor directamente sobre los datos del lago de datos.
Apache Spark para Azure Synapse ofrece funcionalidades para transformar, preparar y explorar los datos a escala. Estos grupos de Spark ofrecen herramientas como PySpark/Python, Scala y .NET para el procesamiento de datos a escala. La experiencia de exploración de datos se puede mejorar con eficaces bibliotecas de visualización para ayudar a comprender mejor los datos. Obtenga más información sobre cómo explorar y visualizar datos en Synapse con Spark.
Los grupos de SQL sin servidor ofrecen una manera de explorar los datos mediante TSQL directamente sobre el lago de datos. Los grupos de SQL sin servidor también ofrecen algunas visualizaciones integradas en Synapse Studio. Aprenda a explorar datos con grupos de SQL sin servidor.
Modelado
En Azure Synapse, el entrenamiento de los modelos de Machine Learning se puede realizar en los grupos de Apache Spark con herramientas como PySpark/Python, Scala o .NET.
Entrenamiento de modelos en grupos de Spark con MLlib
Los modelos de Machine Learning se pueden entrenar con la ayuda de varios algoritmos y bibliotecas. Spark MLlib ofrece algoritmos de aprendizaje automático escalables que pueden ayudar a resolver la mayoría de los problemas clásicos de aprendizaje automático. Para ver un tutorial sobre cómo entrenar un modelo mediante MLlib en Synapse, consulte Compilación de una aplicación de aprendizaje automático con Apache Spark MLlib y Azure Synapse Analytics.
Además de MLlib, también se pueden usar bibliotecas populares, como Scikit Learn, para desarrollar modelos. Para más información sobre cómo instalar bibliotecas en grupos de Synapse Spark, consulte Administración de bibliotecas para Apache Spark en Azure Synapse Analytics.
Implementación y puntuación de modelos
Los modelos entrenados tanto en Azure Synapse como fuera de Azure Synapse se pueden usar fácilmente para la puntuación por lotes. Actualmente en Synapse, hay dos maneras en las que puede ejecutar la puntuación por lotes.
Puede usar la función TSQL PREDICT en grupos de Synapse SQL para ejecutar sus predicciones donde residen los datos. Esta función eficaz y escalable le permite enriquecer sus datos sin moverlos fuera de su almacenamiento de datos. Se introdujo una nueva experiencia guiada de modelo de Machine Learning en Synapse Studio, donde puede implementar un modelo de ONNX desde el registro de modelos de Azure Machine Learning en grupos de Synapse SQL para la puntuación por lotes con PREDICT.
Otra opción para los modelos de aprendizaje automático de puntuación por lotes en Azure Synapse es usar los grupos de Apache Spark para Azure Synapse. En función de las bibliotecas usadas para entrenar los modelos, puede usar una experiencia de código para ejecutar la puntuación por lotes.
SynapseML
SynapseML (anteriormente conocida como MMLSpark) es una biblioteca de código abierto que simplifica la creación de canalizaciones de aprendizaje automático (ML) escalables de forma masiva. Es un ecosistema de herramientas que se usan para expandir el marco de Apache Spark en varias indicaciones nuevas. SynapseML unifica varios marcos de aprendizaje automático existentes y nuevos algoritmos de Microsoft en una única API escalable que se puede usar en Python, R, Scala, .NET y Java. Para más información, consulte las características clave de SynapseML.