Referência da API de Assistentes (versão prévia)

Artigo
02/27/2025

Observação

A pesquisa de arquivos pode ingerir até 10.000 arquivos por assistente – 500 vezes mais do que antes. Ela é rápida, dá suporte a consultas paralelas por meio de pesquisas com vários threads e recursos aprimorados de reclassificação e reescrita de consulta.
- O repositório de vetores é um novo objeto na API. Depois que um arquivo é adicionado a um repositório de vetores, ele é analisado automaticamente, em partes e inserido, pronto para ser pesquisado. Os repositórios de vetores podem ser usados entre assistentes e threads, simplificando o gerenciamento de arquivos e a cobrança.
Adicionamos suporte para o parâmetro tool_choice que pode ser usado para forçar o uso de uma ferramenta específica (como pesquisa de arquivo, interpretador de código ou uma função) em uma execução específica.

Este artigo fornece documentação de referência para Python e REST para a nova API de Assistentes (Versão prévia). Diretrizes passo a passo mais detalhadas são fornecidas no guia de introdução.

Criar um assistente

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants?api-version=2024-05-01-preview

Crie um assistente com um modelo e instruções.

Corpo da solicitação

Nome	Digitar	Obrigatória	Descrição
modelo	string	Obrigatório	Nome da implantação de modelo a ser usado.
name	cadeia de caracteres ou nulo	Opcional	O nome do assistente. O tamanho máximo é de 256 caracteres.
descrição	cadeia de caracteres ou nulo	Opcional	A descrição do assistente. O tamanho máximo é de 512 caracteres.
instruções	cadeia de caracteres ou nulo	Opcional	As instruções do sistema que o assistente usa. O tamanho máximo é de 256.000 caracteres.
manuais	matriz	Opcional	Usa [] como padrão. Uma lista de ferramentas habilitadas no assistente. Pode haver no máximo 128 ferramentas por assistente. Atualmente, as ferramentas podem ser de tipos `code_interpreter` ou `function`. Uma descrição de `function` pode ter, no máximo, 1.024 caracteres.
metadata	map	Opcional	Conjunto de 16 pares chave-valor que podem ser anexados a um objeto. Isso pode ser útil para armazenar informações adicionais sobre o objeto em um formato estruturado. As chaves podem ter no máximo 64 caracteres e os valores podem ter no máximo 512 caracteres.
temperatura	número ou nulo	Opcional	O valor padrão é 1. Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos, como 0,8, tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.
top_p	número ou nulo	Opcional	O valor padrão é 1. Uma alternativa à amostragem com temperatura, chamada de amostragem de núcleo, onde o modelo considera os resultados dos tokens com massa de probabilidade top_p. Portanto, 0,1 significa que apenas os tokens que compõem a massa de probabilidade de 10% do topo são considerados. Geralmente, é recomendável alterar este ou a temperatura, mas não ambos.
response_format	cadeia de caracteres ou objeto	Opcional	Especifica o formato que o modelo precisa gerar. Compatível com GPT-4 Turbo e todos os modelos GPT-3.5 Turbo a partir do gpt-3.5-turbo-1106. Definir esse parâmetro para `{ "type": "json_object" }` habilita o modo JSON, o que garante que a mensagem gerada pelo modelo seja um JSON válido. É importante ressaltar que, ao usar o modo JSON, você também precisa instruir o modelo a produzir JSON por conta própria usando um sistema ou mensagem de usuário. Sem essa instrução, o modelo pode gerar um fluxo sem fim de espaço em branco até que a geração atinja o limite de token, resultando em uma solicitação de execução longa e aparentemente "paralisada". Além disso, o conteúdo da mensagem pode ser parcialmente cortado se você usa `finish_reason="length"`, o que indica que a geração excedeu `max_tokens` ou a conversa excedeu o comprimento máximo do contexto.
tool_resources	objeto	Opcional	Um conjunto de recursos que são usados pelas ferramentas do assistente. Os recursos são específicos para o tipo de ferramenta. Por exemplo, a ferramenta `code_interpreter` requer uma lista de IDs de arquivo, enquanto a ferramenta `file_search` requer uma lista de IDs do repositório de vetores.

tipos de response_format

cadeia de caracteres

auto é o valor padrão.

object

Valores possíveis de type: text, json_object, json_schema.

json_schema

Nome	Tipo	Descrição	Padrão	Obrigatório/Opcional
`description`	string	Uma descrição do formato de resposta usado pelo modelo para determinar como responder no formato.		Opcional
`name`	string	O nome do formato de resposta. Deve ser a-z, A-Z, 0-9 ou conter sublinhados e traços, com um comprimento máximo de 64.		Necessário
`schema`	objeto	O esquema para o formato de resposta, descrito como um objeto de esquema JSON.		Opcional
`strict`	booliano ou nulo	Se deseja habilitar a adesão estrita do esquema ao gerar a saída. Se definido como true, o modelo sempre seguirá o esquema exato definido no `schema` campo. Somente um subconjunto de esquema JSON tem suporte quando `strict` é `true`.	false	Opcional

propriedades tool_resources

code_interpreter

Nome	Tipo	Descrição	Padrão
`file_ids`	matriz	Uma lista de IDs de arquivo disponibilizadas para a ferramenta code_interpreter. Pode haver no máximo 20 arquivos associados à ferramenta.	`[]`

file_search

Nome	Tipo	Descrição	Obrigatório/Opcional
`vector_store_ids`	matriz	O repositório de vetores anexado a esse thread. Pode haver um máximo de 1 repositório de vetores anexado ao thread.	Opcional
`vector_stores`	matriz	Um auxiliar para criar um repositório de vetores com file_ids e anexá-lo a esse thread. Pode haver um máximo de 1 repositório de vetores anexado ao thread.	Opcional

vector_stores

Nome	Tipo	Descrição	Obrigatório/Opcional
`file_ids`	matriz	Uma lista de IDs de arquivo a serem adicionadas ao repositório de vetores. Pode haver um máximo de 10.000 arquivos em um repositório de vetores.	Opcional
`chunking_strategy`	objeto	A estratégia de divisão em partes usada para dividir os arquivos. Se não estiver definido, usará a estratégia automática.	Opcional
`metadata`	map	Conjunto de 16 pares chave-valor que podem ser anexados a um repositório de vetores. Isso pode ser útil para armazenar informações adicionais sobre o repositório de vetores em um formato estruturado. As chaves podem ter no máximo 64 caracteres e os valores podem ter no máximo 512 caracteres.	Opcional

chunking_strategy

Nome	Tipo	Descrição	Obrigatório/opcional
`Auto Chunking Strategy`	objeto	A estratégia padrão. Atualmente, essa estratégia usa um `max_chunk_size_tokens` de `800` e `chunk_overlap_tokens` de `400`. `type` é sempre `auto`	Necessário
`Static Chunking Strategy`	objeto	`type` Sempre `static`	Necessário

Estratégia de agrupamento estático

Nome	Tipo	Descrição	Obrigatório/Opcional
`max_chunk_size_tokens`	Número inteiro	O número máximo de tokens em cada parte. O valor padrão é `800`. O valor mínimo é `100` e o valor máximo é `4096`.	Necessário
`chunk_overlap_tokens`	Número inteiro	O número de tokens que se sobrepõem entre as partes. O valor padrão é `400`. Observe que a sobreposição não deve exceder metade de `max_chunk_size_tokens`.	Necessário

Retornos

Um objeto de assistente.

Exemplo de solicitação de assistente de criação

Python 1.x
REST

from openai import AzureOpenAI
    
client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2024-08-01-preview",
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )

assistant = client.beta.assistants.create(
  instructions="You are an AI assistant that can write code to help answer math questions",
  model="<REPLACE WITH MODEL DEPLOYMENT NAME>", # replace with model deployment name. 
  tools=[{"type": "code_interpreter"}]
)

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants?api-version=2024-08-01-preview \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "instructions": "You are an AI assistant that can write code to help answer math questions.",
    "tools": [
      { "type": "code_interpreter" }
    ],
    "model": "gpt-4-1106-preview"
  }'

Listar assistentes

GET https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants?api-version=2024-05-01-preview

Retorna uma lista de todos os assistentes.

Parâmetros de consulta

Parâmetro	Type	Obrigatória	Descrição
`limit`	Número inteiro	Opcional	Um limite no número de objetos a serem retornados. "Limit" pode variar entre 1 e 100 e o padrão é 20.
`order`	string	Opcional – Os padrões para desc	Ordem de classificação pelo carimbo de data/hora de created_at dos objetos. "asc" para ordem crescente e "desc" para ordem decrescente.
`after`	string	Opcional	Um cursor para uso na paginação. `after` é uma ID de objeto que define seu lugar na lista. Por exemplo, caso faça uma solicitação de lista e receba 100 objetos, terminando com obj_foo, sua chamada subsequente poderá incluir after=obj_foo, para buscar a próxima página da lista.
`before`	string	Opcional	Um cursor para uso na paginação. `before` é uma ID de objeto que define seu lugar na lista. Por exemplo, caso faça uma solicitação de lista e receba 100 objetos, terminando com obj_foo, sua chamada subsequente poderá incluir before=obj_foo, para buscar a página anterior da lista.

Retornos

Uma lista de objetos de assistente

from openai import AzureOpenAI
    
client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2024-08-01-preview",
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )

my_assistants = client.beta.assistants.list(
    order="desc",
    limit="20",
)
print(my_assistants.data)

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants?api-version=2024-08-01-preview  \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -H 'Content-Type: application/json'

Assistente de recuperação

GET https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant_id}?api-version=2024-08-01-preview

Recupera um assistente.

Parâmetros de caminho

Parâmetro	Type	Obrigatória	Descrição
`assistant_id`	string	Obrigatório	A ID do assistente a ser recuperado.

Retorna

O objeto de assistente que corresponde à ID especificada.

Exemplo de assistente de recuperação

Python 1.x
REST

client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2024-08-01-preview",
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )

my_assistant = client.beta.assistants.retrieve("asst_abc123")
print(my_assistant)

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant-id}?api-version=2024-08-01-preview  \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -H 'Content-Type: application/json'

Assistente de modificação

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant_id}?api-version=2024-08-01-preview

Modifica um assistente.

Parâmetros de caminho

Parâmetro	Type	Obrigatória	Descrição
assistant_id	string	Obrigatório	A ID do assistente à qual o arquivo pertence.

Corpo da solicitação

Parâmetro	Type	Obrigatória	Descrição
`model`		Opcional	O nome de implantação do modelo a ser usado.
`name`	cadeia de caracteres ou nulo	Opcional	O nome do assistente. O tamanho máximo é de 256 caracteres.
`description`	cadeia de caracteres ou nulo	Opcional	A descrição do assistente. O tamanho máximo é de 512 caracteres.
`instructions`	cadeia de caracteres ou nulo	Opcional	As instruções do sistema que o assistente usa. O tamanho máximo é de 32.768 caracteres.
`tools`	matriz	Opcional	Usa [] como padrão. Uma lista de ferramentas habilitadas no assistente. Pode haver no máximo 128 ferramentas por assistente. As ferramentas podem ser de tipos code_interpreter ou função. Uma descrição de `function` pode ter, no máximo, 1.024 caracteres.
`metadata`	map	Opcional	Conjunto de 16 pares chave-valor que podem ser anexados a um objeto. Isso pode ser útil para armazenar informações adicionais sobre o objeto em um formato estruturado. As chaves podem ter no máximo 64 caracteres e os valores podem ter no máximo 512 caracteres.
`temperature`	número ou nulo	Opcional	O valor padrão é 1. Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos, como 0,8, tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.
`top_p`	número ou nulo	Opcional	O valor padrão é 1. Uma alternativa à amostragem com temperatura, chamada de amostragem de núcleo, onde o modelo considera os resultados dos tokens com massa de probabilidade top_p. Portanto, 0,1 significa que apenas os tokens que compõem a massa de probabilidade de 10% do topo são considerados. Geralmente, é recomendável alterar este ou a temperatura, mas não ambos.
`response_format`	cadeia de caracteres ou objeto	Opcional	Especifica o formato que o modelo precisa gerar. Compatível com GPT-4 Turbo e todos os modelos GPT-3.5 Turbo a partir do gpt-3.5-turbo-1106. Definir esse parâmetro para `{ "type": "json_object" }` habilita o modo JSON, o que garante que a mensagem gerada pelo modelo seja um JSON válido. É importante ressaltar que, ao usar o modo JSON, você também precisa instruir o modelo a produzir JSON por conta própria usando um sistema ou mensagem de usuário. Sem essa instrução, o modelo pode gerar um fluxo sem fim de espaço em branco até que a geração atinja o limite de token, resultando em uma solicitação de execução longa e aparentemente "paralisada". Além disso, o conteúdo da mensagem pode ser parcialmente cortado se você usa `finish_reason="length"`, o que indica que a geração excedeu `max_tokens` ou a conversa excedeu o comprimento máximo do contexto.
`tool_resources`	objeto	Opcional	Um conjunto de recursos que são usados pelas ferramentas do assistente. Os recursos são específicos para o tipo de ferramenta. Por exemplo, a ferramenta `code_interpreter` requer uma lista de IDs de arquivo, enquanto a ferramenta `file_search` requer uma lista de IDs do repositório de vetores.

Retorna

O objeto de assistente modificado.

Exemplo de assistente de modificação

Python 1.x
REST

client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2024-08-01-preview",
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )

my_updated_assistant = client.beta.assistants.update(
  "asst_abc123",
  instructions="You are an HR bot, and you have access to files to answer employee questions about company policies. Always respond with info from either of the files.",
  name="HR Helper",
  tools=[{"type": "code-interpreter"}],
  model="gpt-4", #model = model deployment name
)

print(my_updated_assistant)

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant-id}?api-version=2024-08-01-preview  \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
      "instructions": "You are an HR bot, and you have access to files to answer employee questions about company policies. Always response with info from either of the files.",
      "tools": [{"type": "code-interpreter"}],
      "model": "gpt-4"
    }'

Excluir assistente

DELETE https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant_id}?api-version=2024-08-01-preview

Excluir um assistente.

Parâmetros de caminho

Parâmetro	Type	Obrigatória	Descrição
`assistant_id`	string	Obrigatório	A ID do assistente à qual o arquivo pertence.

Retorna

Status da exclusão.

Exemplo de assistente de exclusão

Python 1.x
REST

client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2024-08-01-preview",
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )

response = client.beta.assistants.delete("asst_abc123")
print(response)

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/assistants/{assistant-id}?api-version=2024-08-01-preview  \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X DELETE

Referência da API de upload de arquivo

Os assistentes usam a mesma API para upload de arquivo que ajuste fino. Ao carregar um arquivo, você precisa especificar um valor apropriado para o parâmetro de finalidade.

Objeto de Assistente

Campo	Type	Descrição
`id`	string	O identificador, que pode ser referenciado em pontos de extremidade de API.
`object`	string	O tipo de objeto, que é sempre assistente.
`created_at`	Número inteiro	O carimbo de data/hora do Unix (em segundos), para quando o assistente foi criado.
`name`	cadeia de caracteres ou nulo	O nome do assistente. O tamanho máximo é de 256 caracteres.
`description`	cadeia de caracteres ou nulo	A descrição do assistente. O tamanho máximo é de 512 caracteres.
`model`	string	Nome do nome da implantação de modelo a ser usado.
`instructions`	cadeia de caracteres ou nulo	As instruções do sistema que o assistente usa. O tamanho máximo é de 32.768 caracteres.
`tools`	matriz	Uma lista de ferramentas habilitada no assistente. Pode haver no máximo 128 ferramentas por assistente. As ferramentas podem ser de tipos code_interpreter ou função. Uma descrição de `function` pode ter, no máximo, 1.024 caracteres.
`metadata`	map	Conjunto de 16 pares chave-valor que podem ser anexados a um objeto. Isso pode ser útil para armazenar informações adicionais sobre o objeto em um formato estruturado. As chaves podem ter no máximo 64 caracteres e os valores podem ter no máximo 512 caracteres.
`temperature`	número ou nulo	O valor padrão é 1. Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos, como 0,8, tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.
`top_p`	número ou nulo	O valor padrão é 1. Uma alternativa à amostragem com temperatura, chamada de amostragem de núcleo, onde o modelo considera os resultados dos tokens com massa de probabilidade top_p. Portanto, 0,1 significa que apenas os tokens que compõem a massa de probabilidade de 10% do topo são considerados. Geralmente, é recomendável alterar este ou a temperatura, mas não ambos.
`response_format`	cadeia de caracteres ou objeto	Especifica o formato que o modelo precisa gerar. Compatível com GPT-4 Turbo e todos os modelos GPT-3.5 Turbo a partir do gpt-3.5-turbo-1106. Definir esse parâmetro para `{ "type": "json_object" }` habilita o modo JSON, o que garante que a mensagem gerada pelo modelo seja um JSON válido. É importante ressaltar que, ao usar o modo JSON, você também precisa instruir o modelo a produzir JSON por conta própria usando um sistema ou mensagem de usuário. Sem essa instrução, o modelo pode gerar um fluxo sem fim de espaço em branco até que a geração atinja o limite de token, resultando em uma solicitação de execução longa e aparentemente "paralisada". Além disso, o conteúdo da mensagem pode ser parcialmente cortado se você usa `finish_reason="length"`, o que indica que a geração excedeu `max_tokens` ou a conversa excedeu o comprimento máximo do contexto.
`tool_resources`	objeto	Um conjunto de recursos que são usados pelas ferramentas do assistente. Os recursos são específicos para o tipo de ferramenta. Por exemplo, a ferramenta `code_interpreter` requer uma lista de IDs de arquivo, enquanto a ferramenta `file_search` requer uma lista de IDs do repositório de vetores.

Compartilhar via

Referência da API de Assistentes (versão prévia)

Criar um assistente

Corpo da solicitação

tipos de response_format

propriedades tool_resources

Retornos

Exemplo de solicitação de assistente de criação

Listar assistentes

Retornos

Exemplo de assistentes de lista

Assistente de recuperação

Exemplo de assistente de recuperação

Assistente de modificação

Exemplo de assistente de modificação

Excluir assistente

Exemplo de assistente de exclusão

Referência da API de upload de arquivo

Objeto de Assistente

Comentários

Recursos adicionais