Referencia: finalizaciones | Inteligencia artificial de Azure Studio
Importante
Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
Crea una finalización para el símbolo del sistema y los parámetros proporcionados.
POST /completions?api-version=2024-04-01-preview
Nombre | En | Obligatorio | Type | Descripción |
---|---|---|---|---|
api-version | Query | True | string | La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview". |
Encabezado de solicitud
Nombre | Obligatorio | Type | Descripción |
---|---|---|---|
parámetros adicionales | string | El comportamiento de la API cuando se indican parámetros adicionales en la carga. El uso de pass-through hace que la API pase el parámetro al modelo subyacente. Use este valor cuando desee pasar parámetros que sepa que el modelo subyacente puede admitir. El uso de ignore hace que la API quite cualquier parámetro no compatible. Use este valor cuando necesite usar la misma carga en diferentes modelos, pero uno de los parámetros adicionales puede hacer que se produzca un error en un modelo si no se admite. El uso de error hace que la API rechace cualquier parámetro adicional en la carga. Solo se pueden indicar los parámetros especificados en esta API o se devuelve un error 400. |
|
azureml-model-deployment | string | Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones. |
Cuerpo de la solicitud
Nombre | Obligatorio | Type | Descripción |
---|---|---|---|
símbolo del sistema | True | Se solicita que genere finalizaciones para, codificadas como una cadena, una matriz de cadenas, una matriz de tokens o una matriz de matrices de tokens. Tenga en cuenta que <\|endoftext\|> es el separador de documentos que ve el modelo durante el entrenamiento, por lo que si no se especifica un mensaje, el modelo genera como si fuera el principio de un nuevo documento. |
|
frequency_penalty | number | Los valores positivos penalizan los nuevos tokens en función de su frecuencia existente en el texto hasta el momento, disminuyendo la probabilidad del modelo de repetir la misma línea textualmente. | |
max_tokens | integer | Número máximo de tokens que se pueden generar en la finalización. El número de tokens de su pregunta más max_tokens no puede exceder la longitud del contexto del modelo. |
|
presence_penalty | number | Los valores positivos penalizan los nuevos tokens en función de su aparición en el texto hasta el momento, aumentando la probabilidad de que el modelo hable de nuevos temas. | |
seed | integer | Si se especifica, el modelo realiza un mejor esfuerzo para muestrear de manera determinista, de modo que las solicitudes repetidas con la misma seed y los parámetros deben devolver el mismo resultado.No se garantiza el determinismo y debe hacer referencia al parámetro de respuesta system_fingerprint para supervisar los cambios en el back-end. |
|
stop | Secuencias en las que la API dejará de generar más tokens. El texto devuelto no contendrá la secuencia de detención. | ||
flujo | boolean | Si se transmite el progreso parcial. Si se establece, los tokens se enviarán como eventos enviados servidor a medida que estén disponibles, con la secuencia terminada por un mensaje data: [DONE] . |
|
temperatura | number | Temperatura de muestreo que se vaya a usar, entre 0 y 2. Los valores más altos, como 0,8, harán que la salida sea más aleatoria, mientras que los valores más bajos, como 0,2, la harán más enfocada y determinista. Por lo general, recomendamos modificar temperature o top_p , pero no ambos. |
|
top_p | number | Una alternativa al muestreo con temperatura, llamada muestreo de núcleo, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así, 0,1 significa que solo se consideran los tokens que comprenden la masa de probabilidad del 10% superior. Por lo general, recomendamos modificar top_p o temperature , pero no ambos. |
Respuestas
Nombre | Escribir | Descripción |
---|---|---|
200 OK | CreateCompletionResponse | OK (CORRECTO) |
401 No autorizado | UnauthorizedError | Falta el token de acceso o no es válido encabezados x-ms-error-code: cadena |
404 No encontrado | NotFoundError | Modalidad no compatible con el modelo. Compruebe la documentación del modelo para ver qué rutas están disponibles. encabezados x-ms-error-code: cadena |
422 Entidad no procesable | UnprocessableContentError | La solicitud contiene contenido no procesable encabezados x-ms-error-code: cadena |
429 Demasiadas solicitudes | TooManyRequestsError | Ha alcanzado el límite de tasa asignado y su solicitud necesita controlarse. encabezados x-ms-error-code: cadena |
Otros códigos de estado | ContentFilterError | Solicitud incorrecta encabezados x-ms-error-code: cadena |
Seguridad
Authorization
El token con el prefijo Bearer:
, por ejemplo, Bearer abcde12345
Tipo: apiKey
En: encabezado
AADToken
Autenticación OAuth2 de Azure Active Directory
Tipo: oauth2
Flujo: aplicación
Dirección URL del token: https://login.microsoftonline.com/common/oauth2/v2.0/token
Ejemplos
Crea una finalización para el símbolo del sistema y los parámetros proporcionados
Solicitud de muestra
POST /completions?api-version=2024-04-01-preview
{
"prompt": "This is a very good text",
"frequency_penalty": 0,
"presence_penalty": 0,
"max_tokens": 256,
"seed": 42,
"stop": "<|endoftext|>",
"stream": false,
"temperature": 0,
"top_p": 1
}
Respuesta de ejemplo
Código de estado: 200
{
"id": "1234567890",
"model": "llama2-7b",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"text": ", indeed it is a good one."
}
],
"created": 1234567890,
"object": "text_completion",
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}
Definiciones
Nombre | Descripción |
---|---|
Choices | Una lista de opciones de finalización de chat. |
CompletionFinishReason | Motivo por el que el modelo dejó de generar tokens. Esto es stop si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, length si se ha alcanzado el número máximo de tokens especificados en la solicitud, content_filter si se ha omitido el contenido debido a una marca de nuestros filtros de contenido. |
CompletionUsage | Estadísticas de uso de la solicitud de finalización. |
ContentFilterError | Se produce un error en la llamada API cuando el mensaje desencadena un filtro de contenido tal como está configurado. Modifique el comando de entrada e inténtelo de nuevo. |
CreateCompletionRequest | |
CreateCompletionResponse | Representa una respuesta de finalización de la API. |
Detalle | |
TextCompletionObject | Tipo de objeto, que siempre es "text_completion" |
UnprocessableContentError |
Opciones
Una lista de opciones de finalización de chat.
Nombre | Escribir | Descripción |
---|---|---|
finish_reason | CompletionFinishReason | Motivo por el que el modelo dejó de generar tokens. Esto es stop si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, length si se ha alcanzado el número máximo de tokens especificados en la solicitud, content_filter si se ha omitido el contenido debido a una marca de nuestros filtros de contenido, tool_calls si el modelo llamó a una herramienta. |
índice | integer | Índice de la elección en la lista de opciones. |
text | string | Texto generado. |
CompletionFinishReason
Motivo por el que el modelo dejó de generar tokens. Esto es stop
si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada, length
si se ha alcanzado el número máximo de tokens especificados en la solicitud, content_filter
si se ha omitido el contenido debido a una marca de nuestros filtros de contenido.
Nombre | Escribir | Descripción |
---|---|---|
content_filter | string | |
length | string | |
stop | string |
CompletionUsage
Estadísticas de uso de la solicitud de finalización.
Nombre | Escribir | Descripción |
---|---|---|
completion_tokens | integer | Número de tokens en la finalización generada. |
prompt_tokens | integer | Número de tokens en el símbolo del sistema. |
total_tokens | integer | Número total de tokens usados en la solicitud (solicitud + finalización). |
ContentFilterError
Se produce un error en la llamada API cuando el mensaje desencadena un filtro de contenido tal como está configurado. Modifique el comando de entrada e inténtelo de nuevo.
Nombre | Escribir | Descripción |
---|---|---|
código | string | Código de error. |
error | string | Descripción del error. |
message | string | El mensaje de error. |
param | string | Parámetro que desencadenó el filtro de contenido. |
status | integer | El código de estado HTTP. |
CreateCompletionRequest
Nombre | Type | Valor predeterminado | Descripción |
---|---|---|---|
frequency_penalty | number | 0 | Los valores positivos penalizan los nuevos tokens en función de su frecuencia existente en el texto hasta el momento, disminuyendo la probabilidad del modelo de repetir la misma línea textualmente. |
max_tokens | integer | 256 | Número máximo de tokens que se pueden generar en la finalización. El número de tokens de su pregunta más max_tokens no puede exceder la longitud del contexto del modelo. |
presence_penalty | number | 0 | Los valores positivos penalizan los nuevos tokens en función de su aparición en el texto hasta el momento, aumentando la probabilidad de que el modelo hable de nuevos temas. |
símbolo del sistema | <\|endoftext\|> |
Se solicita que genere finalizaciones para, codificadas como una cadena, una matriz de cadenas, una matriz de tokens o una matriz de matrices de tokens. Tenga en cuenta que <\|endoftext\|> es el separador de documentos que ve el modelo durante el entrenamiento, por lo que si no se especifica un mensaje, el modelo genera como si fuera el principio de un nuevo documento. |
|
seed | integer | Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista, de modo que las solicitudes repetidas con un mismo seed y parámetros deben devolver el mismo resultado.No se garantiza el determinismo y debe hacer referencia al parámetro de respuesta system_fingerprint para supervisar los cambios en el back-end. |
|
stop | Secuencias en las que la API dejará de generar más tokens. El texto devuelto no contendrá la secuencia de detención. | ||
flujo | boolean | False | Si se transmite el progreso parcial. Si se establece, los tokens se enviarán como eventos enviados servidor a medida que estén disponibles, con la secuencia terminada por un mensaje data: [DONE] . |
temperatura | number | 1 | Temperatura de muestreo que se vaya a usar, entre 0 y 2. Los valores más altos, como 0,8, harán que la salida sea más aleatoria, mientras que los valores más bajos, como 0,2, la harán más enfocada y determinista. Por lo general, recomendamos modificar esto o top_p , pero no ambos. |
top_p | number | 1 | Una alternativa al muestreo con temperatura, llamada muestreo de núcleo, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así, 0,1 significa que solo se consideran los tokens que comprenden la masa de probabilidad del 10% superior. Por lo general, recomendamos modificar esto o temperature , pero no ambos. |
CreateCompletionResponse
Representa una respuesta de finalización de la API. Nota: Los objetos de respuesta transmitidos y no transmitidos comparten la misma forma (a diferencia del punto de conexión de chat).
Nombre | Escribir | Descripción |
---|---|---|
opciones | Opciones[] | La lista de opciones de finalización que el modelo generó para el mensaje de entrada. |
created | integer | Marca de tiempo de Unix (en segundos) de cuando se creó la finalización. |
Identificador | string | Identificador único para la finalización. |
model | string | Modelo usado para la finalización. |
objeto | TextCompletionObject | Tipo de objeto, que siempre es "text_completion" |
system_fingerprint | string | Esta huella digital representa la configuración de back-end con la que se ejecuta el modelo. Se puede usar con el parámetro de solicitud seed para comprender cuándo se han realizado cambios de back-end que podrían afectar al determinismo. |
usada | CompletionUsage | Estadísticas de uso de la solicitud de finalización. |
Detalle
Nombre | Escribir | Descripción |
---|---|---|
loc | string[] | Parámetro que causa el problema |
value | string | Valor pasado al parámetro que provoca problemas. |
TextCompletionObject
Tipo de objeto, que siempre es "text_completion"
Nombre | Escribir | Descripción |
---|---|---|
text_completion | string |
ListObject
Tipo de objeto, que siempre es "list".
Nombre | Escribir | Description |
---|---|---|
list | string |
NotFoundError
Nombre | Escribir | Descripción |
---|---|---|
error | string | Descripción del error. |
message | string | El mensaje de error. |
status | integer | El código de estado HTTP. |
TooManyRequestsError
Nombre | Escribir | Descripción |
---|---|---|
error | string | Descripción del error. |
message | string | El mensaje de error. |
status | integer | El código de estado HTTP. |
UnauthorizedError
Nombre | Escribir | Descripción |
---|---|---|
error | string | Descripción del error. |
message | string | El mensaje de error. |
status | integer | El código de estado HTTP. |
UnprocessableContentError
Nombre | Escribir | Descripción |
---|---|---|
código | string | Código de error. |
detalles | Detalle | |
error | string | Descripción del error. |
message | string | El mensaje de error. |
status | integer | El código de estado HTTP. |