Compartir a través de


Inferencia por lotes mediante el rendimiento aprovisionado de las API de Foundation Model

En este artículo se proporciona un cuaderno de ejemplo que realiza la inferencia por lotes en un punto de conexión de rendimiento aprovisionado mediante las API de Foundation Model y ai_query.

Requisitos

  • Un área de trabajo en una región compatible de las API de Foundation Model.
  • Uno de los siguientes:
    • Proceso de uso completo con tamaño i3.2xlarge de proceso o mayor que ejecute Databricks Runtime 15.4 ML LTS o superior con al menos 2 trabajos.
    • SQL Warehouse mediano y más grande.

Ejecutar la inferencia por lotes

Por lo general, la configuración de la inferencia por lotes implica dos pasos:

  1. Creación del punto de conexión que se va a usar para la inferencia por lotes.
  2. Construir las solicitudes por lotes y enviar esas solicitudes al punto de conexión de inferencia por lotes mediante ai_query.

En el cuaderno de ejemplo se describen estos pasos y se muestra la inferencia por lotes mediante el modelo meta Llama 3.1 70B.

Realización de la inferencia por lotes en un cuaderno de punto de conexión de rendimiento aprovisionado

Obtener el cuaderno

Recursos adicionales