IA y aprendizaje automático en Databricks
En este artículo se describen las herramientas que proporciona Mosaic AI (anteriormente Databricks Machine Learning) para ayudarle a crear sistemas de IA y ML. En el diagrama se muestra cómo varios productos de la plataforma de Databricks le ayudan a implementar los flujos de trabajo de un extremo a otro para compilar e implementar sistemas de IA y ML.
IA generativa en Databricks
Mosaic AI unifica el ciclo de vida de la inteligencia artificial desde la recolección y preparación de datos, hasta el desarrollo del modelo y LLMOps, para atender y supervisar. Las siguientes características están optimizadas específicamente para facilitar el desarrollo de aplicaciones de IA generativas:
- Unity Catalog para gobernanza, detección, control de versiones y control de acceso a datos, características, modelos y funciones.
- MLflow para el seguimiento del desarrollo de modelos.
- Mosaic AI Model Serving para implementar LLM. Puede configurar punto de conexión de servicio de modelos específicamente para acceder a los modelos de IA generativa:
- LLM abiertos de última generación mediante las API del modelo fundacional.
- Modelos de terceros hospedados fuera de Databricks. Consulte Modelos externos en Mosaic AI Model Serving.
- El vector de búsqueda de Mosaic AI proporciona una base de datos vectorial que se puede consultar que almacena vectores de inserción y se puede configurar para que se sincronice automáticamente con la knowledge base.
- Lakehouse Monitoring para la supervisión y el seguimiento de la calidad y el desfase del modelo de seguimiento mediante registro de carga automática con tablas de inferencia.
- AI Playground para probar modelos de IA generativa desde el área de trabajo de Databricks. Puede consultar, comparar y ajustar parámetros como la consulta del sistema y los parámetros de inferencia.
- Mosaic AI Model Training (anteriormente denominado Foundation Model Training) para personalizar un modelo de base mediante datos propios con el fin de optimizar su rendimiento para una aplicación específica.
- Mosaic AI Agent Framework para compilar e implementar agentes de calidad de producción, como aplicaciones de generación aumentada de recuperación (RAG).
- Mosaic AI Agent Evaluation para evaluar la calidad, el costo y la latencia de las aplicaciones de IA generativas, incluidas las aplicaciones y cadenas RAG.
¿Qué es la inteligencia artificial generativa?
La inteligencia artificial generativa es un tipo de inteligencia artificial centrada en la capacidad de los equipos de usar modelos para crear contenido como imágenes, texto, código y datos sintéticos.
Las aplicaciones de IA generativa se basan en modelos de IA generativa: modelos de lenguaje de gran tamaño (LLM) y modelos de base.
- Las LLM son modelos de aprendizaje profundo que consumen y entrenan en conjuntos de datos masivos para destacar en tareas de procesamiento de lenguaje. Crean nuevas combinaciones de texto que imitan el lenguaje natural en función de sus datos de entrenamiento.
- Los modelos de inteligencia artificial generativa o los modelos fundamentales son modelos de ML grandes entrenados previamente con la intención de ajustarlos para tareas de generación y comprensión del lenguaje más específicas. Estos modelos se usan para distinguir patrones dentro de los datos de entrada.
Después de que estos modelos hayan completado sus procesos de aprendizaje, juntos generan salidas estadísticamente probables cuando se les solicita y se pueden emplear para realizar diversas tareas, entre las que se incluyen:
- Generación de imágenes basada en las existentes o utilizando el estilo de una imagen para modificar o crear una nueva.
- Tareas de voz como transcripción, traducción, generación de preguntas y respuestas e interpretación de la intención o significado del texto.
Importante
Aunque muchos LLM u otros modelos de IA generativa tienen medidas de seguridad, pueden generar información perjudicial o inexacta.
La inteligencia artificial generativa tiene los siguientes modelos de diseño:
- Ingeniería de avisos: creación de avisos especializados para guiar el comportamiento de LLM
- Generación aumentada de recuperación (RAG): combinación de un LLM con recuperación de conocimientos externos
- Ajuste preciso: adaptación de un LLM entrenado previamente a conjuntos de datos específicos de dominios
- Entrenamiento previo: Entrenamiento de un LLM desde cero
Aprendizaje automático en Databricks
Con Mosaic AI, una única plataforma sirve cada paso del proceso de desarrollo e implementación del ML, desde datos sin procesar hasta tablas de inferencia que guardan todas las solicitudes y respuestas de un modelo servido. Los científicos de datos, los ingenieros de datos, los ingenieros de aprendizaje automático y DevOps pueden realizar su labor con el mismo conjunto de herramientas y una única fuente fiable para los datos.
Mosaic AI unifica la capa de datos y la plataforma de ML. Todos los recursos de datos y artefactos, como modelos y funciones, se pueden detectar y gobernar en un único catálogo. El uso de una sola plataforma para datos y modelos permite realizar un seguimiento del linaje, desde los datos sin procesar hasta el modelo de producción. La supervisión de modelos y datos integrados guarda métricas de calidad en tablas que también se almacenan en la plataforma, lo cual facilita la identificación de la causa principal de los problemas de rendimiento del modelo. Para obtener más información sobre cómo Databricks admite el ciclo de vida completo de ML y MLOps, consulte Flujos de trabajo de MLOps en Azure Databricks y MLOps Stacks: proceso de desarrollo de modelo como código.
Algunos de los componentes clave de la plataforma de inteligencia de datos son:
Tareas | Componente |
---|---|
Controlar y administrar datos, características, modelos y funciones. Además, detección, control de versiones y linaje. | Unity Catalog |
Seguimiento de cambios en los datos, calidad de los datos y calidad de predicción del modelo | Lakehouse Monitoring, tablas de inferencia |
Administración y desarrollo de características | Ingeniería de características y servicios |
Entrenamiento de modelos | Mosaico de autoML, cuadernos de Databricks |
Seguimiento del desarrollo de modelos | Seguimiento de MLflow |
Servicio de modelos personalizados | Servicio de modelo de IA de Mosaic |
Creación de flujos de trabajo automatizados y canalizaciones ETL listas para producción. | Trabajos de Databricks |
Integración de Git | Carpetas Git de Databricks |
Aprendizaje profundo en Databricks
La configuración de la infraestructura para aplicaciones de aprendizaje profundo puede ser difícil. Databricks Runtime para Machine Learning se ocupa de ello por usted, al disponer de clústeres que tienen versiones compatibles integradas de las bibliotecas de aprendizaje profundo más comunes, como TensorFlow, PyTorch y Keras.
Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. También admite bibliotecas como Ray para paralelizar el procesamiento de proceso para escalar flujos de trabajo y aplicaciones de ML.
Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. Mosaic AI Model Serving permite la creación de puntos de conexión de GPU escalables para modelos de aprendizaje profundo sin configuración adicional.
En el caso de las aplicaciones de aprendizaje automático, Databricks recomienda usar un clúster que ejecute Databricks Runtime para Machine Learning. Consulte Creación de un clúster mediante Databricks Runtime ML.
Para empezar con el aprendizaje profundo en Databricks, consulte:
- Procedimientos recomendados para el aprendizaje profundo en Azure Databricks
- Aprendizaje profundo en Databricks
- Soluciones de referencia para el aprendizaje profundo
Pasos siguientes
Para empezar, consulte:
Para obtener un flujo de trabajo de MLOps recomendado en Databricks Mosaic AI, consulte:
Para obtener información sobre las características clave de Databricks Mosaic AI, consulte: