Modelos de raciocínio do OpenAI do Azure

Artigo
02/28/2025

Os modelos de o-series do OpenAI do Azure são projetados para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade. Esses modelos gastam mais tempo processando e entendendo a solicitação do usuário, o que os torna excepcionalmente competentes em áreas como ciência, programação e matemática, em comparação com as iterações anteriores.

Principais funcionalidades dos modelos da série o:

Geração de Código Complexo: Capaz de gerar algoritmos e lidar com tarefas avançadas de codificação para dar suporte para desenvolvedores.
Resolução Avançada de Problemas: Ideal para sessões abrangentes de debates e solução de desafios multifacetados.
Comparação Complexa de Documentos: Perfeito para analisar contratos, arquivos de casos ou documentos legais para identificar diferenças sutis.
Seguir Instruções e Gerenciamento de Fluxos de Trabalho: Particularmente eficaz para gerenciar fluxos de trabalho que exigem contextos mais curtos.

Disponibilidade

Para acesso a o3-mini, o1e o1-preview, o registro é necessário e o acesso será concedido com base nos critérios de qualificação da Microsoft.

Os clientes que já aplicaram e receberam acesso a o1 ou o1-preview, não precisam reaplicar, pois estão automaticamente na lista de espera para o modelo mais recente.

Solicitar acesso: aplicativo de modelo de acesso limitado

Disponibilidade de região

Modelar	Region	Acesso limitado
`o3-mini`	Disponibilidade do modelo.	Aplicativo do modelo de acesso limitado
`o1`	Disponibilidade do modelo.	Aplicativo do modelo de acesso limitado
`o1-preview`	Disponibilidade do modelo.	Esse modelo só está disponível para clientes que receberam acesso como parte da versão de acesso limitado original. No momento, não estamos expandindo o acesso a `o1-preview`.
`o1-mini`	Disponibilidade do modelo.	Nenhuma solicitação de acesso é necessária para implantações Standard Globais. No momento, as implantações Standard (regionais) só estão disponíveis para clientes selecionados que receberam acesso anteriormente como parte da versão `o1-preview`.

Suporte a API e aos recursos

Recurso	o3-mini, 31/01/2025	o1, 2024-12-17	o1-preview, 2024-09-12	o1-mini, 2024-09-12
Versão da API	`2024-12-01-preview` `2025-01-01-preview`	`2024-12-01-preview` `2025-01-01-preview`	`2024-09-01-preview` `2024-10-01-preview` `2024-12-01-preview`	`2024-09-01-preview` `2024-10-01-preview` `2024-12-01-preview`
Mensagens de Desenvolvedor	✅	✅	-	-
Saídas Estruturadas	✅	✅	-	-
Janela de Contexto	Entrada: 200.000 Saída: 100.000	Entrada: 200.000 Saída: 100.000	Input: 128,000 Saída: 32.768	Input: 128,000 Saída: 65.536
Esforço de raciocínio	✅	✅	-	-
Suporte à Visão	-	✅	-	-
Funções/Ferramentas	✅	✅	-	-
`max_completion_tokens`^*	✅	✅	✅	✅
Mensagens do Sistema^**	✅	✅	-	-
Streaming	✅	-	-	-

^* Modelos de raciocínio só funcionarão com o parâmetro max_completion_tokens.

O modelo ^**mais recente da série o^* dá suporte a mensagens do sistema para facilitar a migração. Quando você usa uma mensagem do sistema com o3-mini e o1 ela é tratada como uma mensagem de desenvolvedor. Você não deve usar uma mensagem de desenvolvedor e uma mensagem do sistema na mesma solicitação de API.

Sem suporte

No momento, não há suporte para os modelos de raciocínio a seguir:

Chamada de ferramenta paralela
temperature, top_p, presence_penalty, frequency_penalty, logprobs, top_logprobs, logit_bias, max_tokens

Uso

Esses modelos atualmente não dão suporte ao mesmo conjunto de parâmetros que outros modelos que usam a API de conclusões de chat.

Python (Microsoft Entra ID)
Python (autenticação baseada em chave)

Você precisará atualizar sua biblioteca de clientes do OpenAI para ter acesso aos parâmetros mais recentes.

pip install openai --upgrade

Se você é novo no uso do Microsoft Entra ID para autenticação, veja Como configurar o Serviço OpenAI do Azure com autenticação do Microsoft Entra ID.

from openai import AzureOpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  azure_ad_token_provider=token_provider,
  api_version="2024-12-01-preview"
)

response = client.chat.completions.create(
    model="o1-new", # replace with the model deployment name of your o1-preview, or o1-mini model
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Talvez seja necessário atualizar sua versão da biblioteca OpenAI Python para aproveitar o novo parâmetro como max_completion_tokens.

pip install openai --upgrade


from openai import AzureOpenAI

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-12-01-preview"
)

response = client.chat.completions.create(
    model="o1-new", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Saída:

{
  "id": "chatcmpl-AEj7pKFoiTqDPHuxOcirA9KIvf3yz",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Writing your first Python API is an exciting step in developing software that can communicate with other applications. An API (Application Programming Interface) allows different software systems to interact with each other, enabling data exchange and functionality sharing. Here are the steps you should consider when creating your first Python API...truncated for brevity.",
        "refusal": null,
        "role": "assistant",
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1728073417,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_503a95a7d8",
  "usage": {
    "completion_tokens": 1843,
    "prompt_tokens": 20,
    "total_tokens": 1863,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 448
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "custom_blocklists": {
          "filtered": false
        },
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Esforço de raciocínio

Observação

Os modelos de raciocínio têm reasoning_tokens como parte de completion_tokens_details na resposta do modelo. Esses são tokens ocultos que não são retornados como parte do conteúdo da resposta da mensagem, mas são usados pelo modelo para ajudar a gerar uma resposta final para sua solicitação. 2024-12-01-preview adiciona um novo parâmetro adicional reasoning_effort que pode ser definido como low, mediumou high com o modelo o1 mais recente. Quanto maior a configuração de esforço, mais tempo o modelo gastará processando a solicitação, o que geralmente resultará em um número maior de reasoning_tokens.

Mensagens do desenvolvedor

Funcionalmente, as mensagens do desenvolvedor "role": "developer" são as mesmas que as mensagens do sistema.

Adicionar uma mensagem de desenvolvedor ao exemplo de código anterior teria a seguinte aparência:

Python (Microsoft Entra ID)
Python (autenticação baseada em chave)

Você precisará atualizar sua biblioteca de clientes do OpenAI para ter acesso aos parâmetros mais recentes.

pip install openai --upgrade

Se você é novo no uso do Microsoft Entra ID para autenticação, veja Como configurar o Serviço OpenAI do Azure com autenticação do Microsoft Entra ID.

from openai import AzureOpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  azure_ad_token_provider=token_provider,
  api_version="2024-12-01-preview"
)

response = client.chat.completions.create(
    model="o1-new", # replace with the model deployment name of your o1-preview, or o1-mini model
    messages=[
        {"role": "developer","content": "You are a helpful assistant."}, # optional equivalent to a system message for reasoning models 
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Talvez seja necessário atualizar sua versão da biblioteca OpenAI Python para aproveitar o novo parâmetro como max_completion_tokens.

pip install openai --upgrade


from openai import AzureOpenAI

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-12-01-preview"
)

response = client.chat.completions.create(
    model="o1-new", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "developer","content": "You are a helpful assistant."}, # optional equivalent to a system message for reasoning models 
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000
)

print(response.model_dump_json(indent=2))

Saída do Markdown

Por padrão, os modelos o3-mini e o1 não tentarão produzir uma saída que inclua a formatação de markdown. Um caso de uso comum em que esse comportamento é indesejável é quando você quer que o modelo produza o código contido em um bloco de código de markdown. Quando o modelo gera saída sem formatação de markdown, você perde recursos como realce de sintaxe e blocos de código copiáveis em experiências interativas de playground. Para substituir esse novo comportamento padrão e incentivar a inclusão de markdown em respostas de modelo, adicione a cadeia de caracteres Formatting re-enabled ao início da mensagem do desenvolvedor.

A adição de Formatting re-enabled ao início de sua mensagem do desenvolvedor não garante que o modelo incluirá a formatação de markdown em sua resposta, só aumenta a probabilidade. Descobrimos por meio de testes internos que Formatting re-enabled é menos eficaz por si só com o modelo o1 do que com o3-mini.

Para melhorar o desempenho de Formatting re-enabled, você pode aumentar ainda mais o início da mensagem do desenvolvedor, o que geralmente resultará na saída desejada. Em vez de apenas adicionar Formatting re-enabled ao início da sua mensagem do desenvolvedor, você pode experimentar com a adição de uma instrução inicial mais descritiva, como um dos exemplos abaixo:

Formatting re-enabled - please enclose code blocks with appropriate markdown tags.
Formatting re-enabled - code output should be wrapped in markdown.

Dependendo da saída esperada, talvez seja necessário personalizar ainda mais a mensagem inicial do desenvolvedor para uma direcionamento ao seu caso de uso específico.

Compartilhar via