Compartir a través de


Modelos de lenguaje grande (LLM) en Databricks

Azure Databricks facilita el acceso y la compilación de modelos de lenguaje de gran tamaño disponibles públicamente.

Databricks Runtime para Machine Learning incluye bibliotecas como Hugging Face Transformers y LangChain que permiten integrar modelos previamente entrenados existentes u otras bibliotecas de código abierto en el flujo de trabajo. Desde aquí, puede aprovechar las funcionalidades de la plataforma de Azure Databricks para ajustar los LLM mediante sus propios datos para mejorar el rendimiento del dominio.

Además, Azure Databricks ofrece funcionalidad integrada para que los usuarios de SQL accedan y experimenten con LLM, como Azure OpenAI y OpenAI, mediante funciones de IA.

Ajuste preciso del modelo foundation

Importante

Esta característica está en versión preliminar pública. Póngase en contacto con el equipo de su cuenta de Databricks para inscribirse en la Vista previa pública.

Foundation Model Fine-tuning (ahora parte de Mosaic AI Model Training) es una interfaz sencilla a la pila de entrenamiento de Databricks para realizar el ajuste completo del modelo.

Puede hacer lo siguiente mediante Foundation Model Fine-tuning:

  • Ajustar un modelo con datos personalizados, con los puntos de control guardados en MLflow. Tiene un control total del modelo ajustado.
  • Registrar automáticamente el modelo en el catálogo de Unity, lo que permite una implementación sencilla con el servicio de modelos.
  • Ajustar aún más un modelo completo y de su propiedad cargando los pesos de un modelo ajustado previamente.

Consulte Ajuste preciso de Foundation Model.

Hugging Face Transformers

Con Hugging Face Transformers en Databricks, puede escalar horizontalmente las aplicaciones por lotes de procesamiento del lenguaje natural (NLP) y ajustar modelos para aplicaciones de modelo de lenguaje de gran tamaño.

La biblioteca Hugging Face transformers viene preinstalada en Databricks Runtime 10.4 LTS ML y versiones posteriores. Muchos de los modelos de NLP populares funcionan mejor en el hardware de GPU, por lo que es posible que obtenga el mejor rendimiento mediante un hardware de GPU reciente, a menos que use un modelo optimizado específicamente para su uso en CPU.

DSPy

DSPy automatiza el ajuste de mensajes mediante la traducción de firmas de lenguaje natural definidas por el usuario en instrucciones completas y ejemplos de pocas capturas.

Consulte Compilación de aplicaciones genAI mediante DSPy en Azure Databricks para obtener ejemplos sobre cómo usar DSPy.

LangChain

LangChain está disponible como un sabor experimental de MLflow que permite a los clientes de LangChain aprovechar las sólidas herramientas y funcionalidades de seguimiento de experimentos de MLflow directamente desde el entorno de Azure Databricks.

LangChain es un marco de software diseñado para ayudar a crear aplicaciones que usen modelos de lenguaje grandes (LLM) y combinarlas con datos externos para aportar más contexto de entrenamiento para los LLM.

Databricks Runtime ML incluye langchain Databricks Runtime 13.1 ML y versiones posteriores.

Obtenga información sobre las integraciones de LangChain específicas de Databricks.

Funciones de IA

Importante

Esta característica está en versión preliminar pública.

Las funciones de IA son funciones SQL incorporadas que permiten a los usuarios de SQL:

  • Use las API de modelo de Databricks Foundation para completar varias tareas con los datos de su empresa.
  • Acceda a modelos externos como GPT-4 desde OpenAI y experimente con ellos.
  • Consulta de modelos hospedados en puntos de conexión de Mosaic AI Model Serving desde consultas SQL.