Inferencia por lotes mediante el rendimiento aprovisionado de las API de Foundation Model
En este artículo se proporciona un cuaderno de ejemplo que realiza la inferencia por lotes en un punto de conexión de rendimiento aprovisionado mediante las API de Foundation Model y ai_query.
Requisitos
- Un área de trabajo en una región compatible de las API de Foundation Model.
- Uno de los siguientes:
- Proceso de uso completo con tamaño
i3.2xlarge
de proceso o mayor que ejecute Databricks Runtime 15.4 ML LTS o superior con al menos 2 trabajos. - SQL Warehouse mediano y más grande.
- Proceso de uso completo con tamaño
Ejecutar la inferencia por lotes
Por lo general, la configuración de la inferencia por lotes implica dos pasos:
- Creación del punto de conexión que se va a usar para la inferencia por lotes.
- Construir las solicitudes por lotes y enviar esas solicitudes al punto de conexión de inferencia por lotes mediante
ai_query
.
En el cuaderno de ejemplo se describen estos pasos y se muestra la inferencia por lotes mediante el modelo meta Llama 3.1 70B.