Referencia: Finalizaciones de chat | Azure Machine Learning

Artículo
09/04/2024

Crea una respuesta de modelo para la conversación de chat dada.

POST /chat/completions?api-version=2024-04-01-preview

Parámetros de identificador URI

Nombre	En	Obligatorio	Type	Descripción
api-version	Query	True	string	La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".

Encabezado de solicitud

Nombre	Obligatorio	Type	Descripción
parámetros adicionales		string	El comportamiento de la API cuando se indican parámetros adicionales en la carga. El uso de `pass-through` hace que la API pase el parámetro al modelo subyacente. Use este valor cuando desee pasar parámetros que sepa que el modelo subyacente puede admitir. El uso de `ignore` hace que la API quite cualquier parámetro no compatible. Use este valor cuando necesite usar la misma carga en diferentes modelos, pero uno de los parámetros adicionales puede hacer que se produzca un error en un modelo si no se admite. El uso de `error` hace que la API rechace cualquier parámetro adicional en la carga. Solo se pueden indicar los parámetros especificados en esta API o se devuelve un error 400.
azureml-model-deployment		string	Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones.

Cuerpo de la solicitud

Nombre	Obligatorio	Type	Descripción
messages	True	ChatCompletionRequestMessage	Una lista de mensajes que componen la conversación hasta ahora. Devuelve un error 422 si el modelo no puede entender al menos algunos de los mensajes.
frequency_penalty		number	Ayuda a evitar repeticiones de palabras al reducir la posibilidad de que se seleccione una palabra si ya se ha usado. Cuanto mayor sea la penalización de frecuencia, menos probable es que el modelo repita las mismas palabras en su salida. Devuelve un error 422 si el modelo no admite el valor o el parámetro.
max_tokens		integer	Número máximo de tokens que se pueden generar en la finalización del chat. La longitud total de los tokens de entrada y los tokens generados está limitado por la longitud de contexto del modelo. Pasar un valor nulo hace que el modelo use su longitud máxima de contexto.
presence_penalty		number	Ayuda a evitar que se repitan los mismos temas penalizando una palabra si ya existe en la finalización, aunque sea solo una vez. Devuelve un error 422 si el modelo no admite el valor o el parámetro.
response_format		ChatCompletionResponseFormat
seed		integer	Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista, de modo que las solicitudes repetidas con un mismo `seed` y parámetros deben devolver el mismo resultado. No se garantiza el determinismo y debe hacer referencia al parámetro de respuesta `system_fingerprint` para supervisar los cambios en el back-end.
stop			Secuencias en las que la API dejará de generar más tokens.
flujo		boolean	Si se establece, se enviarán deltas de mensajes parciales. Los tokens se enviarán como eventos enviados por el servidor solo de datos a medida que estén disponibles, con la transmisión terminada por un mensaje `data: [DONE]`.
temperatura		number	Número no negativo. Devuelve 422 si el modelo no admite el valor.
tool_choice		ChatCompletionToolChoiceOption	Controla la función (si existe) a la que llama el modelo. `none` significa que el modelo no llamará a una función y, en su lugar, generará un mensaje. `auto` significa que el modelo puede elegir entre generar un mensaje o llamar a una función. Especificar una función determinada a través de `{"type": "function", "function": {"name": "my_function"}}` obliga al modelo a llamar a esa función. `none` es el valor predeterminado cuando no hay funciones presentes. `auto` es el valor predeterminado si hay funciones. Devuelve un error 422 si el modelo no admite la herramienta.
tools		ChatCompletionTool[]	Una lista de herramientas a las que puede llamar el modelo. Actualmente, solo se admiten funciones como una herramienta. Úselo para proporcionar una lista de funciones para las que el modelo puede generar entradas JSON. Devuelve un error 422 si el modelo no admite la herramienta.
top_p		number	Una alternativa al muestreo con temperatura, llamada muestreo de núcleo, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así, 0,1 significa que solo se consideran los tokens que comprenden la masa de probabilidad del 10% superior. Por lo general, recomendamos modificar esto o `temperature`, pero no ambos.

Respuestas

Nombre	Escribir	Descripción
200 OK	CreateChatCompletionResponse	OK (CORRECTO)
401 No autorizado	UnauthorizedError	Falta el token de acceso o no es válido encabezados x-ms-error-code: cadena
404 No encontrado	NotFoundError	Modalidad no compatible con el modelo. Compruebe la documentación del modelo para ver qué rutas están disponibles. encabezados x-ms-error-code: cadena
422 Entidad no procesable	UnprocessableContentError	La solicitud contiene contenido no procesable encabezados x-ms-error-code: cadena
429 Demasiadas solicitudes	TooManyRequestsError	Ha alcanzado el límite de tasa asignado y su solicitud necesita controlarse. encabezados x-ms-error-code: cadena
Otros códigos de estado	ContentFilterError	Solicitud incorrecta encabezados x-ms-error-code: cadena

Seguridad

Authorization

El token con el prefijo Bearer:, por ejemplo, Bearer abcde12345

Tipo: apiKey
En: encabezado

AADToken

Autenticación OAuth2 de Azure Active Directory

Tipo: oauth2
Flujo: aplicación
Dirección URL del token: https://login.microsoftonline.com/common/oauth2/v2.0/token

Ejemplos

Crea una respuesta de modelo para la conversación de chat determinada

Solicitud de muestra

POST /chat/completions?api-version=2024-04-01-preview

{
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant"
    },
    {
      "role": "user",
      "content": "Explain Riemann's conjecture"
    },
    {
      "role": "assistant",
      "content": "The Riemann Conjecture is a deep mathematical conjecture around prime numbers and how they can be predicted. It was first published in Riemann's groundbreaking 1859 paper. The conjecture states that the Riemann zeta function has its zeros only at the negative even integers and complex numbers with real part 1/21. Many consider it to be the most important unsolved problem in pure mathematics. The Riemann hypothesis is a way to predict the probability that numbers in a certain range are prime that was also devised by German mathematician Bernhard Riemann in 18594."
    },
    {
      "role": "user",
      "content": "Ist it proved?"
    }
  ],
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1,
  "response_format": { "type": "text" }
}

Respuesta de ejemplo

Código de estado: 200

{
  "id": "1234567890",
  "model": "llama2-70b-chat",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "message": {
        "role": "assistant",
        "content": "No, it has never been proved"
      }
    }
  ],
  "created": 1234567890,
  "object": "chat.completion",
  "usage": {
    "prompt_tokens": 205,
    "completion_tokens": 5,
    "total_tokens": 210
  }
}

Definiciones

Nombre	Descripción
ChatCompletionRequestMessage
ChatCompletionMessageContentPart
ChatCompletionMessageContentPartType
ChatCompletionToolChoiceOption	Controla la función (si existe) a la que llama el modelo. `none` significa que el modelo no llamará a una función y, en su lugar, generará un mensaje. `auto` significa que el modelo puede elegir entre generar un mensaje o llamar a una función. Especificar una función determinada a través de `{"type": "function", "function": {"name": "my_function"}}` obliga al modelo a llamar a esa función. `none` es el valor predeterminado cuando no hay funciones presentes. `auto` es el valor predeterminado si hay funciones. Devuelve un error 422 si el modelo no admite la herramienta.
ChatCompletionFinishReason	Motivo por el que el modelo dejó de generar tokens. Esto será `stop` si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, `length` si se ha alcanzado el número máximo de tokens especificados en la solicitud, `content_filter` si se ha omitido el contenido debido a una marca de nuestros filtros de contenido, `tool_calls` si el modelo llamó a una herramienta.
ChatCompletionMessageToolCall
ChatCompletionObject	Tipo de objeto, que siempre es `chat.completion`.
ChatCompletionResponseFormat	Formato de respuesta para la respuesta del modelo. La configuración en `json_object` habilita el modo JSON, lo que garantiza que el mensaje que genera el modelo es JSON válido. Al usar el modo JSON, también debe indicar al modelo que genere JSON usted mismo mediante un mensaje de usuario o sistema. Tenga en cuenta que el contenido del mensaje puede cortarse parcialmente si `finish_reason="length"`, lo que indica que la generación superó `max_tokens` o la conversación superó la longitud máxima del contexto.
ChatCompletionResponseFormatType	Tipo de formato de respuesta.
ChatCompletionResponseMessage	Mensaje de finalización del chat generado por el modelo.
ChatCompletionTool
ChatMessageRole	Rol del autor de este mensaje.
Choices	Una lista de opciones de finalización de chat.
CompletionUsage	Estadísticas de uso de la solicitud de finalización.
ContentFilterError	Se produce un error en la llamada API cuando el mensaje desencadena un filtro de contenido tal como está configurado. Modifique el comando de entrada e inténtelo de nuevo.
CreateChatCompletionRequest
CreateChatCompletionResponse	Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.
Detalle	Detalles del error UnprocessableContentError.
Function	Función a la que llamó el modelo.
FunctionObject	Definición de una función a la que tiene acceso el modelo.
ImageDetail	Especifica el nivel de detalle de la imagen.
NotFoundError	La ruta no es válida para el modelo implementado.
ToolType	El tipo de la herramienta. Actualmente, solo se admite `function`.
TooManyRequestsError	Ha alcanzado el límite de tasa asignado y sus solicitudes necesitan controlarse.
UnauthorizedError	Falta la autenticación o no es válida.
UnprocessableContentError	La solicitud contiene contenido no procesable. El error se devuelve cuando la carga indicada es válida según esta especificación. Sin embargo, el modelo subyacente no admite algunas de las instrucciones indicadas en la carga. Use la sección `details` para comprender el parámetro infractor.

ChatCompletionFinishReason

Motivo por el que el modelo dejó de generar tokens. Esto será stop si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, length si se ha alcanzado el número máximo de tokens especificados en la solicitud, content_filter si se ha omitido el contenido debido a una marca de nuestros filtros de contenido, tool_calls si el modelo llamó a una herramienta.

Nombre	Escribir	Descripción
content_filter	string
length	string
stop	string
tool_calls	string

ChatCompletionMessageToolCall

Nombre	Escribir	Descripción
function	Function	Función a la que llamó el modelo.
Identificador	string	Identificador de la llamada a la herramienta.
type	ToolType	El tipo de la herramienta. Actualmente, solo se admite `function`.

ChatCompletionObject

Tipo de objeto, que siempre es chat.completion.

Nombre	Escribir	Descripción
chat.completion	string

ChatCompletionResponseFormat

Formato de respuesta para la respuesta del modelo. La configuración en json_object habilita el modo JSON, lo que garantiza que el mensaje que genera el modelo es JSON válido. Al usar el modo JSON, también debe indicar al modelo que genere JSON usted mismo mediante un mensaje de usuario o sistema. Tenga en cuenta que el contenido del mensaje puede cortarse parcialmente si finish_reason="length", lo que indica que la generación superó max_tokens o la conversación superó la longitud máxima del contexto.

Nombre	Escribir	Descripción
type	ChatCompletionResponseFormatType	Tipo de formato de respuesta.

ChatCompletionResponseFormatType

Tipo de formato de respuesta.

Nombre	Escribir	Descripción
json_object	string
text	string

ChatCompletionResponseMessage

Mensaje de finalización del chat generado por el modelo.

Nombre	Escribir	Descripción
contenido	string	Contenido del mensaje.
rol	ChatMessageRole	Rol del autor de este mensaje.
tool_calls	ChatCompletionMessageToolCall[]	Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.

ChatCompletionTool

Nombre	Escribir	Descripción
function	FunctionObject
type	ToolType	El tipo de la herramienta. Actualmente, solo se admite `function`.

ChatMessageRole

Rol del autor de este mensaje.

Nombre	Escribir	Descripción
assistant	string
sistema	string
herramienta	string
usuario	string

Opciones

Una lista de opciones de finalización de chat. Puede ser más de uno si n es mayor que 1.

Nombre	Escribir	Descripción
finish_reason	ChatCompletionFinishReason	Motivo por el que el modelo dejó de generar tokens. Esto será `stop` si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, `length` si se ha alcanzado el número máximo de tokens especificados en la solicitud, `content_filter` si se ha omitido el contenido debido a una marca de nuestros filtros de contenido, `tool_calls` si el modelo llamó a una herramienta.
índice	integer	Índice de la elección en la lista de opciones.
message	ChatCompletionResponseMessage	Mensaje de finalización del chat generado por el modelo.

CompletionUsage

Estadísticas de uso de la solicitud de finalización.

Nombre	Escribir	Descripción
completion_tokens	integer	Número de tokens en la finalización generada.
prompt_tokens	integer	Número de tokens en el símbolo del sistema.
total_tokens	integer	Número total de tokens usados en la solicitud (solicitud + finalización).

ContentFilterError

Se produce un error en la llamada API cuando el mensaje desencadena un filtro de contenido tal como está configurado. Modifique el comando de entrada e inténtelo de nuevo.

Nombre	Escribir	Descripción
código	string	Código de error.
error	string	Descripción del error.
message	string	El mensaje de error.
param	string	Parámetro que desencadenó el filtro de contenido.
status	integer	El código de estado HTTP.

CreateChatCompletionRequest

Nombre	Type	Valor predeterminado	Descripción
frequency_penalty	number	0	Ayuda a evitar repeticiones de palabras al reducir la posibilidad de que se seleccione una palabra si ya se ha usado. Cuanto mayor sea la penalización de frecuencia, menos probable es que el modelo repita las mismas palabras en su salida. Devuelve un error 422 si el modelo no admite el valor o el parámetro.
max_tokens	integer		Número máximo de tokens que se pueden generar en la finalización del chat. La longitud total de los tokens de entrada y los tokens generados está limitado por la longitud de contexto del modelo. Pasar un valor nulo hace que el modelo use su longitud máxima de contexto.
messages	ChatCompletionRequestMessage[]		Una lista de mensajes que componen la conversación hasta ahora. Devuelve un error 422 si el modelo no puede entender al menos algunos de los mensajes.
presence_penalty	number	0	Ayuda a evitar que se repitan los mismos temas penalizando una palabra si ya existe en la finalización, aunque sea solo una vez. Devuelve un error 422 si el modelo no admite el valor o el parámetro.
response_format	ChatCompletionResponseFormat	text
seed	integer		Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista, de modo que las solicitudes repetidas con un mismo `seed` y parámetros deben devolver el mismo resultado. No se garantiza el determinismo y debe hacer referencia al parámetro de respuesta `system_fingerprint` para supervisar los cambios en el back-end.
stop			Secuencias en las que la API dejará de generar más tokens.
flujo	boolean	False	Si se establece, se enviarán deltas de mensajes parciales. Los tokens se enviarán como eventos enviados por el servidor solo de datos a medida que estén disponibles, con la transmisión terminada por un mensaje `data: [DONE]`.
temperatura	number	1	Número no negativo. Devuelve 422 si el modelo no admite el valor.
tool_choice	ChatCompletionToolChoiceOption		Controla la función (si existe) a la que llama el modelo. `none` significa que el modelo no llamará a una función y, en su lugar, generará un mensaje. `auto` significa que el modelo puede elegir entre generar un mensaje o llamar a una función. Especificar una función determinada a través de `{"type": "function", "function": {"name": "my_function"}}` obliga al modelo a llamar a esa función. `none` es el valor predeterminado cuando no hay funciones presentes. `auto` es el valor predeterminado si hay funciones. Devuelve un error 422 si el modelo no admite la herramienta.
tools	ChatCompletionTool[]		Una lista de herramientas a las que puede llamar el modelo. Actualmente, solo se admiten funciones como una herramienta. Úselo para proporcionar una lista de funciones para las que el modelo puede generar entradas JSON. Devuelve un error 422 si el modelo no admite la herramienta.
top_p	number	1	Una alternativa al muestreo con temperatura, llamada muestreo de núcleo, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así, 0,1 significa que solo se consideran los tokens que comprenden la masa de probabilidad del 10% superior. Por lo general, recomendamos modificar esto o `temperature`, pero no ambos.

ChatCompletionRequestMessage

Nombre	Escribir	Descripción
content	cadena o ChatCompletionMessageContentPart[]	Contenido del mensaje.
rol	ChatMessageRole	Rol del autor de este mensaje.
tool_calls	ChatCompletionMessageToolCall[]	Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.

ChatCompletionMessageContentPart

Nombre	Escribir	Descripción
contenido	string	Dirección URL de la imagen o datos de imagen codificados en base64.
detail	ImageDetail	Especifica el nivel de detalle de la imagen.
type	ChatCompletionMessageContentPartType	Tipo del elemento de contenido.

ChatCompletionMessageContentPartType

Nombre	Escribir	Descripción
text	string
imagen	string
image_url	string

ChatCompletionToolChoiceOption

Controla la herramienta (si existe) a la que llama el modelo.

Nombre	Escribir	Descripción
None	string	El modelo no llamará a ninguna herramienta y, en su lugar, generará un mensaje.
auto	string	El modelo puede elegir entre generar un mensaje o llamar a una o varias herramientas.
requerido	string	El modelo debe llamar a una o varias herramientas.
	string	Especificar una herramienta determinada a través de `{"type": "function", "function": {"name": "my_function"}}` obliga al modelo a llamar a esa herramienta.

ImageDetail

Especifica el nivel de detalle de la imagen.

Nombre	Escribir	Descripción
auto	string
low	string
high	string

CreateChatCompletionResponse

Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.

Nombre	Escribir	Descripción
opciones	Choices[]	Una lista de opciones de finalización de chat. Puede ser más de uno si `n` es mayor que 1.
created	integer	Marca de tiempo de Unix (en segundos) de cuando se creó la finalización de chat.
Identificador	string	Identificador único para la finalización del chat.
model	string	Modelo usado para la finalización de chat.
objeto	ChatCompletionObject	Tipo de objeto, que siempre es `chat.completion`.
system_fingerprint	string	Esta huella digital representa la configuración de back-end con la que se ejecuta el modelo. Se puede usar junto con el parámetro de solicitud `seed` para comprender cuándo se han realizado cambios de back-end que podrían afectar al determinismo.
usada	CompletionUsage	Estadísticas de uso de la solicitud de finalización.

Detalle

Detalles del error UnprocessableContentError.

Nombre	Escribir	Descripción
loc	string[]	Parámetro que causa el problema
value	string	Valor pasado al parámetro que provoca problemas.

Función

Función a la que llamó el modelo.

Nombre	Escribir	Descripción
argumentos	string	Argumentos para llamar a la función, según lo generado por el modelo en formato JSON. Tenga en cuenta que el modelo no siempre genera JSON válido y puede generar parámetros incorrectos no definidos por el esquema de función. Valide los argumentos del código antes de llamar a la función.
name	cadena	El nombre de la función que se va a llamar.

FunctionObject

Definición de una función a la que tiene acceso el modelo.

Nombre	Escribir	Descripción
descripción	string	Descripción de lo que hace la función, que usa el modelo para elegir cuándo y cómo llamar a la función.
nombre	cadena	El nombre de la función que se llamará. Debe ser a-z, A-Z, 0-9, o contener caracteres de subrayado y guiones, con una longitud máxima de 64.
parámetros	object	Los parámetros que aceptan las funciones, que se describen como un objeto de Esquema JSON. Al omitir `parameters` se define una función con una lista de parámetros vacía.

NotFoundError

Nombre	Escribir	Descripción
error	string	Descripción del error.
message	string	El mensaje de error.
status	integer	El código de estado HTTP.

ToolType

El tipo de la herramienta. Actualmente, solo se admite function.

Nombre	Escribir	Descripción
function	string

TooManyRequestsError

Nombre	Escribir	Descripción
error	string	Descripción del error.
message	string	El mensaje de error.
status	integer	El código de estado HTTP.

UnauthorizedError

Nombre	Escribir	Descripción
error	string	Descripción del error.
message	string	El mensaje de error.
status	integer	El código de estado HTTP.

UnprocessableContentError

La solicitud contiene contenido no procesable. El error se devuelve cuando la carga indicada es válida según esta especificación. Sin embargo, el modelo subyacente no admite algunas de las instrucciones indicadas en la carga. Use la sección details para comprender el parámetro infractor.

Nombre	Escribir	Descripción
código	string	Código de error.
detalles	Detalle
error	string	Descripción del error.
message	string	El mensaje de error.
status	integer	El código de estado HTTP.

Compartir a través de