Compartir a través de


API de modelo de Databricks Foundation

Este artículo ofrece información general acerca de las API del modelo Foundation en Azure Databricks. Incluye requisitos para usar, modelos admitidos y limitaciones.

¿Qué son las API de modelo de Databricks Foundation?

Servicio de modelos de Mosaic AI ahora admite las API de Foundation Model que permiten acceder a modelos abiertos de última generación y consultar modelos abiertos de última generación desde un punto de conexión de servicio. Con las API de Foundation Model, puede crear aplicaciones de forma rápida y sencilla que aprovechen un modelo de inteligencia artificial generativa de alta calidad sin mantener su propia implementación de modelos. Foundation Model API es un servicio designado de Databricks, lo que significa que usa Databricks Geos para administrar la residencia de datos al procesar el contenido del cliente.

Las API de Foundation Model se proporcionan en dos modos de precios:

  • Pago por token: Esta es la manera más fácil de empezar a acceder a los modelos de base en Databricks y se recomienda para comenzar su recorrido con las API de Foundation Model. Este modo no está diseñado para aplicaciones de alto rendimiento ni cargas de trabajo de producción de alto rendimiento.
  • Rendimiento aprovisionado: Este modo se recomienda para todas las cargas de trabajo de producción, especialmente aquellas que requieren un alto rendimiento, garantías de rendimiento, modelos optimizados o requisitos de seguridad adicionales. Los puntos de conexión de rendimiento aprovisionados están disponibles con certificaciones de cumplimiento como HIPAA.

Para obtener información sobre el uso de estos dos modos y los modelos admitidos, consulte Uso de las API de modelos fundacionales.

Con las API de Foundation Model puede hacer lo siguiente:

  • Consulte un LLM generalizado para comprobar la validez de un proyecto antes de invertir más recursos.
  • Consulte un LLM generalizado para crear una prueba de concepto rápida de una aplicación basada en LLM antes de invertir en el entrenamiento y despliegue de un modelo personalizado.
  • Use un modelo de base, junto con una base de datos vectorial, para compilar un bot de chat mediante la generación aumentada de recuperación (RAG).
  • Reemplace los modelos propietarios por alternativas abiertas para optimizar el costo y el rendimiento.
  • Compare eficazmente los LLM para ver cuál es el mejor candidato para su caso de uso, o intercambie un modelo de producción con uno que cuyo rendimiento sea mejor.
  • Cree una aplicación LLM para desarrollo o producción sobre una solución de servicio LLM escalable respaldada por el Acuerdo de Nivel de Servicio que pueda admitir sus picos de tráfico de producción.

Requisitos

Use las API del modelo Foundation

Tiene varias opciones para usar las API de Foundation Model.

Las API son compatibles con OpenAI, por lo que puede usar el cliente de OpenAI para realizar consultas. También puede usar la interfaz de usuario, el SDK de Python de las API de Foundation Models, el SDK de implementaciones de MLflow o la API de REST para consultar los modelos admitidos. Databricks recomienda usar el SDK o la API de un cliente de OpenAI para interacciones extendidas y la interfaz de usuario para probar la característica.

Consulte Query generative AI models (Consultar modelos de IA generativa) para obtener ejemplos de puntuación.

API de modelos fundacionales de pago por token

Los modelos de pago por tokens son accesibles en el área de trabajo de Azure Databricks y se recomiendan para empezar. Para acceder a ellos desde su área de trabajo, vaya a la pestaña Servicio de la barra lateral izquierda. Las API de modelo de Foundation se encuentran en la parte superior de la vista de lista puntos de conexión.

Lista de puntos de conexión de servicio

En la tabla siguiente se resumen los modelos admitidos para el pago por token. Consulte Modelos admitidos para de pago por token para obtener información adicional sobre el modelo.

Si quiere probar y chatear con estos modelos, puede hacerlo mediante AI Playground. Consulte Chatear con LLM y crear prototipos de aplicaciones GenAI mediante AI Playground.

Importante

  • A partir del 23 de julio de 2024, Meta-Llama-3.1-70B-Instruct reemplaza la compatibilidad con Meta-Llama-3-70B-Instruct en la API Foundation Modelde pago por token.
  • Meta-Llama-3.1-405B-Instruct es el modelo de lenguaje grande disponible públicamente más grande, creado y entrenado por Meta y distribuido por Azure Machine Learning mediante el catálogo de modelo de AzureML.
  • Ahora se retiran los siguientes modelos. Vea Modelos retirados para ver los modelos sustitutos recomendados.
    • Llama 2 70B Chat
    • MPT 7B Instruct
    • MPT 30B Instruct
Modelo Tipo de tarea Punto de conexión Notas
GTE Large (inglés) Embedding databricks-gte-large-en No genera incrustaciones normalizadas.
Meta-Llama-3.1-70B-Instruct Chat databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* Chat databricks-meta-llama-3-1-405b-instruct Vea los límites de la API de Foundation Model para obtener disponibilidad regional.
DBRX Instruct Chat databricks-dbrx-instruct Vea los límites de la API de Foundation Model para obtener disponibilidad regional.
Mixtral-8x7B Instruct Charlar databricks-mixtral-8x7b-instruct Vea los límites de la API de Foundation Model para obtener disponibilidad regional.
BGE Large (inglés) Embedding databricks-bge-large-en Vea los límites de la API de Foundation Model para obtener disponibilidad regional.

* Póngase en contacto con el equipo de la cuenta de Databricks si encuentra errores de punto de conexión o de estabilización al usar este modelo.

API de modelos fundacionales de rendimiento aprovisionado

El rendimiento aprovisionado proporciona puntos de conexión con inferencia optimizada para cargas de trabajo del modelo de base que requieren garantías de rendimiento. Databricks recomienda el rendimiento aprovisionado para cargas de trabajo de producción. Consulte API de modelo Foundation de rendimiento aprovisionado para obtener instrucciones paso a paso sobre cómo implementar las API de Foundation Model en el modo aprovisionado a lo largo del modo.

La compatibilidad con el rendimiento aprovisionado incluye:

  • Modelos base de todos los tamaños, como DBRX Base. A los modelos base se puede acceder mediante Databricks Marketplace, o bien se pueden descargar desde Hugging Face, o desde cualquier otro origen externo, y registrarlos en Unity Catalog. Este último enfoque funciona con cualquier variante ajustada de los modelos admitidos, independientemente del método de ajuste preciso empleado.
  • Variantes optimizadas de modelos base, como LlamaGuard-7B o meta-llama/Llama-3.1-8B. Esto incluye modelos que están optimizados en datos bajo propiedad.
  • Pesos y tokenizadores totalmente personalizados, como los entrenados desde cero o las variaciones previamente entrenadas u otras variaciones mediante la arquitectura del modelo base (como CodeLlama).

En la tabla siguiente se resumen las arquitecturas de modelo admitidas para el rendimiento aprovisionado.

Importante

Meta Llama 3.2 tiene licencia bajo la licencia LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved. Los clientes son responsables de garantizar su cumplimiento con los términos de esta licencia y la Directiva de uso aceptable de Llama 3.2.

Meta Llama 3.1 tiene la licencia LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Arquitectura del modelo Tipos de tarea Notas
Meta Llama 3.2 3B Chat o Completion Consulte Límites de rendimiento aprovisionados para conocer las variantes del modelo y la disponibilidad de regiones admitidas.
Meta Llama 3.2 1B Chat o Completion Consulte Límites de rendimiento aprovisionados para conocer las variantes del modelo y la disponibilidad de regiones admitidas.
Meta Llama 3.1 Chat o Completion Consulte Límites de rendimiento aprovisionados para conocer las variantes del modelo y la disponibilidad de regiones admitidas.
Meta Llama 3 Chat o Completion
Meta Llama 2 Chat o Completion
DBRX Chat o Completion Consulte Límites de rendimiento aprovisionados para la disponibilidad de regiones.
Mistral Chat o Completion
Mixtral Chat o Completion
MPT Chat o Completion
GTE v1.5 (inglés) Embedding No genera incrustaciones normalizadas.
BGE v1.5 (inglés) Embedding

Limitaciones

Consulte Límites de las API de Foundation Model.

Recursos adicionales