你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 服务的业务连续性和灾难恢复 (BCDR) 注意事项

Azure OpenAI 在多个区域中提供。 创建 Azure OpenAI 资源时,指定一个区域。 然后,你的资源及其所有操作都将与该 Azure 服务器区域保持关联。

有时我们会遇到影响整个区域的网络问题,这种情况比较罕见,但也不是没有可能。 如果你的服务需要始终保持可用,则应将其设计为可故障转移到另一区域,或者将工作负载分散到两个或更多个区域。 这两种方法都至少需要两个不同区域中的 Azure OpenAI 资源。 本文提供有关如何为 Azure OpenAI 应用程序实现业务连续性和灾难恢复 (BCDR) 的一般建议。

BCDR 需要自定义代码

现在客户会调用部署期间提供的终结点进行推理。 推理操作是无状态的,因此在区域不可用的情况下不会丢失任何数据。

如果某个区域处于不正常运行状态,客户必须采取措施来确保服务连续性。

基础模型和自定义模型的 BCDR

如果你在使用基础模型,则应将客户端代码配置为监视错误,如果错误仍然存在,请准备好重定向到你选择的另一 Azure OpenAI 订阅区域。

请按照以下步骤配置客户端以监视错误:

  1. 使用“模型”页选择适合你的数据中心和区域。

  2. 从列表中选择一个主要区域以及一个(或多个)次要/备份区域。

  3. 为所选的每个区域创建 Azure OpenAI 资源。

  4. 对于主要区域和任何备份区域,代码需要知道:

    • 资源的基 URI
    • 区域访问密钥或 Microsoft Entra ID 访问
  5. 配置代码以监视连接错误(常见错误为连接超时和服务不可用)。

    • 由于网络遇到暂时性错误,因此对于出现的个别连接问题,建议重试。
    • 对于持久的连接问题,请将流量重定向到区域中你创建的备份资源。

如果你已微调主要区域中的模型,则需要使用相同的训练数据重新训练次要区域中的基础模型。 然后按照上述步骤操作。