你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 服务模型

Azure OpenAI 服务由一组具有不同功能和价位的模型提供支持。 模型可用性因区域和云而异。 有关 Azure 政府模型可用性,请参阅 Azure 政府 OpenAI 服务

模型 说明
o1-preview 和 o1-mini 有限访问模型,专门设计用于处理推理和问题解决任务,具有更好的针对性和功能。
GPT-4o、GPT-4o mini 和 GPT-4 Turbo 功能最强大的最新 Azure OpenAI 模型具有多模态版本,可以接受文本和图像作为输入。
GPT-4o-Realtime-Preview GPT-4o 模型,支持低延迟的“语音传入,语音传出”对话交互。
GPT-4 一组在 GPT-3.5 的基础上进行了改进的模型,可以理解并生成自然语言和代码。
GPT-3.5 一组在 GPT-3 的基础上进行了改进的模型,可以理解并生成自然语言和代码。
嵌入 一组模型,可将文本转换为数字矢量形式,以提高文本相似性。
DALL-E 一系列可从自然语言生成原始图像的模型。
Whisper 一系列预览版模型,可将语音转录和翻译为文本。
文本转语音(预览版) 预览版中的一系列模型,可将文本合成为语音。

o1-preview 和 o1-mini 模型受限访问

Azure OpenAI o1-previewo1-mini 模型专门设计用于处理推理和问题解决任务,具有更好的针对性和功能。 这些模型将更多时间花费在处理和理解用户的请求上,与以前的更迭版本相比,它们在科学、编码和数学等领域表现得异常强大。

模型 ID 说明 最大请求(令牌) 训练数据(上限)
o1-preview (2024-09-12) o1 系列中功能最强大的模型,提供增强的推理能力。 输入:128,000
输出:32,768
2023 年 10 月
o1-mini (2024-09-12) o1 系列中速度更快、更具成本效益的选项,非常适合需要速度和更低资源消耗的编码任务。 输入:128,000
输出:65,536
2023 年 10 月

可用性

现在可使用 o1-previewo1-mini 模型进行 API 访问和模型部署。 需要完成注册,并且会根据 Microsoft 的资格条件授予访问权限

请求访问:受限访问模型应用程序

授予访问权限后,需要为每个模型创建部署。

API 支持

API 版本 2024-09-01-preview 中添加了对 o1 系列模型的支持

max_tokens 参数已弃用,并替换为新的 max_completion_tokens 参数。 o1 系列模型仅适用于 max_completion_tokens 参数

使用情况

这些模型当前不支持与使用聊天补全 API 的其他模型相同的参数集。 目前仅支持非常有限的子集,因此,常见的参数(如 temperaturetop_p)不可用,包含它们将导致请求失败。 o1-previewo1-mini 模型也不会接受系统消息角色作为消息数组的一部分。

可能需要升级 OpenAI Python 库的版本才能利用新的 max_completion_tokens 参数。

pip install openai --upgrade

如果对使用 Microsoft Entra ID 进行身份验证不熟悉,请参阅如何使用 Microsoft Entra ID 身份验证配置 Azure OpenAI 服务

from openai import AzureOpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
)

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  azure_ad_token_provider=token_provider,
  api_version="2024-09-01-preview"
)

response = client.chat.completions.create(
    model="o1-preview-new", # replace with the model deployment name of your o1-preview, or o1-mini model
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

上市区域

适用于美国东部、美国东部 2、美国中北部、美国中南部、瑞典中部、美国西部和美国西部 3 的标准和全球标准部署,供已批准的客户使用。

GPT-4o-Realtime-Preview

gpt-4o-realtime-preview 模型是 GPT-4o 模型系列的一部分,支持低延迟的“语音传入,语音传出”对话交互。 GPT-4o 音频旨在处理实时、低延迟的对话交互,非常适合支持代理、助理、翻译和其他需要与用户进行高度交互式响应的用例。

GPT-4o 音频在美国东部 2 (eastus2) 和瑞典中部 (swedencentral) 区域可用。 若要使用 GPT-4o 音频,需要创建或使用某个受支持区域中的现有资源。

创建资源后,可以部署 GPT-4o 音频模型。 如果你要执行编程部署,则模型名称为 gpt-4o-realtime-preview。 有关如何使用 GPT-4o 音频的详细信息,请参阅 GPT-4o 音频文档

下表提供了有关请求令牌上限和训练数据的详细信息。

模型 ID 说明 最大请求(令牌) 训练数据(上限)
gpt-4o-realtime-preview (2024-10-01-preview)
GPT-4o 音频
用于实时音频处理的音频模型 输入:128,000
输出:4,096
2023 年 10 月

GPT-4o 和 GPT-4 Turbo

GPT-4o 在单个模型中集成文本和图像,从而能够同时处理多个数据类型。 这种多模式方法提高了人机交互的准确性和响应能力。 GPT-4o 在英语文本和编码任务方面与 GPT-4 Turbo 相当,但在非英语语言和视觉任务方面具有更优越的性能,为 AI 功能设定了新的基准。

如何访问 GPT-4o 和 GPT-4o mini 模型?

GPT-4o 和 GPT-4o mini 适用于标准和全局标准模型部署

需要在该模型可用的受支持标准全球标准区域中创建或使用现有资源。

创建资源后,可以部署 GPT-4o 模型。 如果你要执行编程部署,则模型名称如下

  • gpt-4o 版本 2024-08-06
  • gpt-4o,版本 2024-05-13
  • gpt-4o-mini 版本 2024-07-18

GPT-4 Turbo

GPT-4 Turbo 是一个大型多模态模型(接受文本或图像输入并生成文本),它可以比 OpenAI 的任何以前的模型更准确地解决难题。 与 GPT-3.5 Turbo 和较旧的 GPT-4 模型一样,GPT-4 Turbo 针对聊天进行了优化,能够很好地完成传统的补全任务。

GPT-4 Turbo 的最新 GA 版本是:

  • gpt-4 版本: turbo-2024-04-09

这是以下预览版模型的替代品:

  • gpt-4 版本: 1106-Preview
  • gpt-4 版本: 0125-Preview
  • gpt-4 版本: vision-preview

OpenAI 与 Azure OpenAI GPT-4 Turbo GA 模型之间的差异

  • OpenAI 的最新 0409 turbo 模型的版本支持所有推理请求的 JSON 模式和函数调用。
  • Azure OpenAI 的最新 turbo-2024-04-09 的版本目前不支持在使用图像(视觉)输入发出推理请求时使用 JSON 模式和函数调用。 基于文本的输入请求(没有 image_url 和内联图像的请求)支持 JSON 模式和函数调用。

与 gpt-4 vision-preview 的差异

  • gpt-4 版本 turbo-2024-04-09 不支持将 Azure AI 特定视觉增强功能与 GPT-4 Turbo with Vision 集成。 这包括光学字符识别 (OCR)、对象接地、视频提示以及改进的图像数据处理。

重要

gpt-4 版本 vision-preview 升级到 turbo-2024-04-09 后,视觉增强预览版功能(包括光学字符识别 (OCR)、对象上下文关联、视频提示)将会停用且不再可供使用。 如果你当前依赖上述任何预览版功能,进行这种自动模型升级将给你的系统造成中断性变更。

GPT-4 Turbo 预配的托管可用性

  • gpt-4 版本: turbo-2024-04-09 可用于标准部署和预配部署。 目前,此模型的预配版本不支持图像/视觉推理请求。 此模型的预配部署仅接受文本输入。 标准模型部署同时接受文本和图像/视觉推理请求。

部署 GPT-4 Turbo with Vision GA

若要从 Studio UI 部署 GA 模型,请选择 GPT-4,然后从下拉菜单中选择 turbo-2024-04-09 版本。 gpt-4-turbo-2024-04-09 模型的默认配额将与 GPT-4-Turbo 的当前配额相同。 请参阅区域配额限制

GPT-4

GPT-4 是 GPT-4 Turbo 的前身。 GPT-4 模型和 GPT-4 Turbo 模型的基础模型名称均为 gpt-4。 可以通过检查模型版本来区分 GPT-4 模型和 Turbo 模型。

  • gpt-4 版本 0314
  • gpt-4 版本 0613
  • gpt-4-32k 版本 0613

可以看到模型摘要表中的每个模型支持的令牌上下文长度。

GPT-4 模型和 GPT-4 Turbo 模型

  • 这些模型只能与聊天补全 API 一起使用。

请参阅模型版本,了解 Azure OpenAI 服务如何处理模型版本升级,使用模型了解如何查看和配置 GPT-4 部署的模型版本设置。

模型 ID 说明 最大请求(令牌) 训练数据(上限)
gpt-4o (2024-08-06)
GPT-4o (Omni)
最新的大型 GA 模型
- 结构化输出
- 文本、图像处理
- JSON 模式
- 并行函数调用
- 提高准确性和响应能力
- 在英语文本和编码任务方面与支持视觉的 GPT-4 Turbo 相当
- 在非英语语言和视觉任务方面具有更优越的性能
输入:128,000
输出:16,384
2023 年 10 月
gpt-4o-mini (2024-07-18)
GPT-4o mini
最新的小型 GA 模型
- 速度快、价格低廉、功能强大的模型,是替代 GPT-3.5 Turbo 系列型号的理想选择。
- 文本、图像处理
- JSON 模式
- 并行函数调用
输入:128,000
输出:16,384
2023 年 10 月
gpt-4o (2024-05-13)
GPT-4o (Omni)
文本、图像处理
- JSON 模式
- 并行函数调用
- 提高准确性和响应能力
- 在英语文本和编码任务方面与支持视觉的 GPT-4 Turbo 相当
- 在非英语语言和视觉任务方面具有更优越的性能
输入:128,000
输出:4,096
2023 年 10 月
gpt-4 (turbo-2024-04-09)
具有视觉的 GPT-4 Turbo
新版 GA 模型
- 替代了所有以前的 GPT-4 预览版模型(vision-preview1106-Preview0125-Preview)。
- 功能可用性目前因输入的方法和部署类型而异。
输入:128,000
输出:4,096
2023 年 12 月
gpt-4 (0125-Preview)*
GPT-4 Turbo 预览版
预览模型
- 替换了 1106-Preview
- 更好的代码生成性能
- 减少模型未完成任务的情况
- JSON 模式
- 并行函数调用
- 可重现的输出(预览版)
输入:128,000
输出:4,096
2023 年 12 月
gpt-4 (vision-preview)
包含视觉功能预览版的 GPT-4 Turbo
预览模型
- 接受文本和图像输入。
- 支持增强功能
- JSON 模式
- 并行函数调用
- 可重现的输出(预览版)
输入:128,000
输出:4,096
2023 年 4 月
gpt-4 (1106-Preview)
GPT-4 Turbo 预览版
预览模型
- JSON 模式
- 并行函数调用
- 可重现的输出(预览版)
输入:128,000
输出:4,096
2023 年 4 月
gpt-4-32k (0613) 旧版 GA 模型
- 使用工具调用基本函数
32,768 2021 年 9 月
gpt-4 (0613) 旧版 GA 模型
- 使用工具调用基本函数
8,192 2021 年 9 月
gpt-4-32k(0314) 旧版 GA 模型
- 停用信息
32,768 2021 年 9 月
gpt-4 (0314) 旧版 GA 模型
- 停用信息
8,192 2021 年 9 月

注意

我们不建议在生产环境中使用预览模型。 我们会将预览模型的所有部署升级到未来的预览版本或最新的稳定 GA 版本。 指定的模型预览版不遵循标准的 Azure OpenAI 模型生命周期。

  • GPT-4 版本 0125-preview 是以前发布的 1106-preview 版 GPT-4 Turbo 预览版的更新版本。
  • 与 gpt-4-1106-preview 相比,GPT-4 版本 0125-preview 更完整地完成了代码生成等任务。 因此,根据任务的不同,客户可能会发现 GPT-4-0125-preview 比 gpt-4-1106-preview 生成更多输出。 我们建议客户比较新模型的输出。 GPT-4-0125-preview 还解决了 gpt-4-1106-preview 中针对非英语语言的 UTF-8 处理中的 bug。
  • GPT-4 版本 turbo-2024-04-09 是最新的 GA 版本,取代了 0125-Preview1106-previewvision-preview

重要

将来会使用 gpt-4 稳定版本升级 GPT-4 (gpt-4) 版本 1106-Preview0125-Previewvision-preview

  • 设置为“自动更新为默认版本”和“过期时升级”的 gpt-4 版本 1106-Preview0125-Previewvision-preview 部署将在稳定版本发布后开始升级。 对于每次部署,将会进行模型版本升级,API 调用服务不会出现中断。 升级按区域分阶段进行,整个升级过程预期需要 2 周时间。
  • 设置为“不自动升级”的 gpt-4 版本 1106-Preview0125-Previewvision-preview 部署将不会升级,并且当预览版在区域中升级时将停止运行。 有关升级时间安排的详细信息,请参阅 Azure OpenAI 模型停用和弃用

GPT-3.5

GPT-3.5 模型可以理解和生成自然语言或代码。 GPT-3.5 系列中功能最强大且最具成本效益的模型是 GPT-3.5 Turbo,该模型已针对聊天进行了优化,且能够很好地完成传统的补全任务。 GPT-3.5 Turbo 可用于聊天完成 API。 GPT-3.5 Turbo 指令具有与使用完成 API 而不是聊天完成 API 类似的功能 text-davinci-003。 我们建议使用 GPT-3.5 Turbo 和 GPT-3.5 Turbo Instruct,而不是 GPT-3.5 和 GPT-3 两种旧模型

模型 ID 说明 最大请求(令牌) 训练数据(上限)
gpt-35-turbo (0125) 最新 GA 模型
- JSON 模式
- 并行函数调用
- 可重现的输出(预览版)
- 以请求的格式响应的准确度更高。
- 修复了导致非英语函数调用的文本编码问题的 bug。
输入:16,385
输出:4,096
2021 年 9 月
gpt-35-turbo (1106) 旧版 GA 模型
- JSON 模式
- 并行函数调用
- 可重现的输出(预览版)
输入:16,385
输出:4,096
2021 年 9 月
gpt-35-turbo-instruct (0914) 仅限完成终结点
- 替换旧版补全模型
4,097 2021 年 9 月
gpt-35-turbo-16k (0613) 旧版 GA 模型
- 使用工具调用基本函数
16,384 2021 年 9 月
gpt-35-turbo (0613) 旧版 GA 模型
- 使用工具调用基本函数
4,096 2021 年 9 月
gpt-35-turbo1 (0301) 旧版 GA 模型
- 停用信息
4,096 2021 年 9 月

若要详细了解如何与 GPT-3.5 Turbo 以及聊天补全 API 进行交互,请查看我们的操作方法详解

1 此模型将接受 > 4,096 个令牌的请求。 不建议超过 4,096 个输入令牌限制,因为较新版本的模型上限为 4,096 个令牌。 如果使用此模型超过 4,096 个输入令牌时遇到问题,则此配置不受正式支持。

嵌入

text-embedding-3-large 是最新且能力最强的嵌入模型。 无法在嵌入模型之间进行升级。 若要从使用 text-embedding-ada-002 转移到 text-embedding-3-large,你需要生成新的嵌入内容。

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

在测试中,OpenAI 报告显示,大型和小型第三代嵌入模型在 MIRACL 基准中提供了更好的平均多语言检索性能,同时仍在 MTEB 基准中保持了英语任务的性能。

评估基准 text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
MIRACL 平均值 31.4 44.0 54.9
MTEB 平均值 61.0 62.3 64.6

第三代嵌入模型支持通过新的 dimensions 参数减小嵌入的大小。 通常,从计算、内存和存储的角度来看,更大的嵌入成本更高。 调整维度数量的功能让你可以更好地控制总体成本和性能。 OpenAI 1.x Python 库的所有版本都不支持 dimensions 参数,为了利用此参数,我们建议升级到最新版本:pip install openai --upgrade

OpenAI 的 MTEB 基准测试发现,即使第三代模型的维度减少到了小于 text-embeddings-ada-002 1,536 个维度,性能还是要稍好一些。

DALL-E

DALL-E 模型根据用户提供的文本提示生成图像。 DALL-E 3 可通过 REST API 供公众使用。 配备客户端 SDK 的 DALL-E 2 和 DALL-E 3 处于预览状态。

Whisper

Whisper 模型可用于实现语音转文本。

还可以通过 Azure AI 语音 批量听录 API 使用 Whisper 模型。 请查看什么是 Whisper 模型?,详细了解使用 Azure AI 语音与 Azure OpenAI 服务的场景。

文本转语音(预览版)

OpenAI 文本转语音模型(目前为预览版)可用于将文本合成为语音。

还可以通过 Azure AI 语音使用 OpenAI 文本转语音声音。 要了解详细信息,请参阅通过 Azure OpenAI 服务或通过 Azure AI 语音实现 OpenAI 文本转语音声音指南。

模型摘要表和区域可用性

按部署类型划分的模型

Azure OpenAI 为客户提供了适合其业务和使用模式的托管结构选择。 该服务提供两种主要部署类型:

  • “标准”类型提供全球部署选项,可在全球范围内路由流量以提供更高的吞吐量
  • “预配”类型也提供全球部署选项,允许客户在 Azure 全球基础结构中购买和部署预配的吞吐量单位

所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。 要详细了解 Azure OpenAI 部署,请参阅我们的部署类型指南

全球标准模型可用性

区域 o1-preview2024-09-12 o1-mini2024-09-12 gpt-4o,2024-05-13 gpt-4o,2024-08-06 gpt-4o-mini,2024-07-18 gpt-4o-realtime-preview2024-10-01 gpt-4,turbo-2024-04-09
australiaeast - - - -
巴西南部 - - - -
canadaeast - - - -
eastus -
eastus2
francecentral - - - -
germanywestcentral - - - -
日本东部 - - - -
koreacentral - - - -
northcentralus -
norwayeast - - - -
polandcentral - - - -
southafricanorth - - - -
southcentralus -
southindia - - - -
spaincentral - - -
瑞典中部
瑞士北部 - - - -
uaenorth - - - -
uksouth - - - -
westeurope - - - -
westus -
westus3 -

此表未包括微调区域可用性信息。 有关此信息,请参阅微调部分

按终结点划分的标准模型

聊天完成

区域 o1-preview2024-09-12 o1-mini2024-09-12 gpt-4o,2024-05-13 gpt-4o,2024-08-06 gpt-4o-mini,2024-07-18 gpt-40613 gpt-41106-Preview gpt-40125-Preview gpt-4vision-preview gpt-4,turbo-2024-04-09 gpt-4-32k0613 gpt-35-turbo0301 gpt-35-turbo0613 gpt-35-turbo1106 gpt-35-turbo0125 gpt-35-turbo-16k0613
australiaeast - - - - - - - - -
canadaeast - - - - - - - - -
eastus - - - - -
eastus2 - - - - - -
francecentral - - - - - - - - -
日本东部 - - - - - - - - - - - -
northcentralus - - - - - -
norwayeast - - - - - - - - - - - - - - -
southcentralus - - - - - - -
southindia - - - - - - - - - - - - - -
瑞典中部 - - -
瑞士北部 - - - - - - - - - - -
uksouth - - - - - - - - -
westeurope - - - - - - - - - - - - - - -
westus - - - - - -
westus3 - - - - - - - -

GPT-4 和 GPT-4 Turbo 模型可用性

精选客户访问权限

除上述可供所有 Azure OpenAI 客户使用的区域外,一些精选的现有客户还有权访问其他区域中的 GPT-4 版本:

模型 区域
gpt-4 (0314)
gpt-4-32k (0314)
美国东部
法国中部
美国中南部
英国南部
gpt-4 (0613)
gpt-4-32k (0613)
美国东部
美国东部 2
日本东部
英国南部

GPT-3.5 模型

请参阅模型版本,了解 Azure OpenAI 服务如何处理模型版本升级,使用模型了解如何查看和配置 GPT-3.5 Turbo 部署的模型版本设置。

微调模型

注意

gpt-35-turbo - 此模型的微调仅限于一小部分区域,并且基础模型在可用的每个区域中都不可用。

如果在 AI Studio 项目内部(而不是在某个项目外部)使用 Azure OpenAI 模型,则支持微调的区域可能会有所不同。

模型 ID 微调区域 最大请求(令牌) 训练数据(上限)
babbage-002 美国中北部
瑞典中部
瑞士西部
16,384 2021 年 9 月
davinci-002 美国中北部
瑞典中部
瑞士西部
16,384 2021 年 9 月
gpt-35-turbo (0613) 美国东部 2
美国中北部
瑞典中部
瑞士西部
4,096 2021 年 9 月
gpt-35-turbo (1106) 美国东部 2
美国中北部
瑞典中部
瑞士西部
输入:16,385
输出:4,096
2021 年 9 月
gpt-35-turbo (0125) 美国东部 2
美国中北部
瑞典中部
瑞士西部
16,385 2021 年 9 月
gpt-4 (0613) 1 美国中北部
瑞典中部
8192 2021 年 9 月
gpt-4o-mini 1 (2024-07-18) 美国中北部
瑞典中部
输入:128,000
输出:16,384
训练示例上下文长度:64,536
2023 年 10 月
gpt-4o 1 (2024-08-06) 美国东部 2
美国中北部
瑞典中部
输入:128,000
输出:16,384
训练示例上下文长度:64,536
2023 年 10 月

1 GPT-4 目前为公共预览版。

助手(预览版)

对于助手,支持的模型和支持的区域的组合。 某些工具和功能需要最新的模型。 助手 API、SDK 和 Azure AI Studio 中可使用以下模型。 下表适用于即用即付。 有关预配吞吐量单位 (PTU) 的详细信息,请参阅预配吞吐量。 列出的模型和区域可用于助手 v1 和 v2。 如果下面列出的区域支持全局标准模型,则可以使用全局标准模型

区域 gpt-35-turbo (0613) gpt-35-turbo (1106) fine tuned gpt-3.5-turbo-0125 gpt-4 (0613) gpt-4 (1106) gpt-4 (0125) gpt-4o (2024-05-13) gpt-4o-mini (2024-07-18)
澳大利亚东部
美国东部
美国东部 2
法国中部
日本东部
挪威东部
瑞典中部
英国南部
美国西部
美国西部 3

模型停用

有关模型停用的最新信息,请参阅模型停用指南

后续步骤