你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

AI 就绪 - 在 Azure 中生成 AI 工作负载的过程

项目
11/01/2024

本文概述了在 Azure 中生成 AI 工作负荷的组织过程。本文提供有关大规模采用 AI 工作负荷的关键设计和流程决策的建议。重点介绍特定于 AI 的区域选择、资源组织和网络指南。

建立 AI 可靠性

AI 可靠性涉及选择适当的区域来托管 AI 模型，以确保一致的性能、合规性和可用性。组织必须解决冗余、故障转移和性能优化问题，以便维护可靠的 AI 服务。

使用多个区域托管 AI 模型终结点。 对于生产工作负荷，至少在两个区域中托管 AI 终结点，以提供冗余并确保高可用性。尽管生成式 AI 模型是无状态的，但在多个区域中托管它们可确保在发生区域故障期间更快地进行故障转移和恢复。对于 Azure OpenAI 服务模型，可以使用全局部署。这些多区域部署可以自动且透明地将请求路由到容量足够的区域。如果选择非全局部署（也称为区域部署），请使用 Azure API 管理对 AI 终结点的 API 请求进行负载均衡。
确认服务可用性。 在部署之前，请确保你所需的 AI 资源在区域中有可用性。某些区域可能不提供特定的 AI 服务，或者可能具有有限的功能，这可能会影响解决方案的功能。此限制还会影响部署的可伸缩性。例如，Azure OpenAI 服务可用性可能因部署模型而异。这些部署模型包括全局标准、全局预配、区域标准和区域预配。检查 AI 服务，确认你有权访问必要的资源。
评估区域配额和容量。 随着 AI 工作负荷的增长，请考虑所选区域中的配额或订阅限制。 Azure 服务具有区域订阅限制。这些限制可能会影响大规模 AI 模型部署，例如大型推理工作负荷。为了防止中断，如果预见到需要额外的容量，请提前联系 Azure 支持。
评估性能。 生成需要检索数据的应用程序（如检索扩充生成 (RAG) 应用程序）时，请务必考虑数据存储位置以优化性能。无需将数据与 RAG 应用中的模型并置，但这样做可以通过降低延迟并确保高效的数据检索来提高性能。
为操作的连续性做好准备。 为了确保业务连续性和灾难恢复，请复制关键资产，例如优化的模型、RAG 数据、训练的模型和次要区域中的训练数据集。如果发生停机，这种冗余可以实现更快的恢复，并确保持续的服务可用性。

建立 AI 治理

AI 治理包括组织资源和应用策略来管理 AI 工作负荷和成本。涉及构建管理组和订阅，以确保跨不同工作负荷的合规性和安全性。适当的 AI 治理可防止未经授权的访问、管理风险，并确保 AI 资源在组织内高效运行。

独立的面向 Internet 的 AI 工作负荷和内部 AI 工作负荷。至少，使用管理组将 AI 工作负荷分为面向 Internet（“联机”）和仅限内部（“公司”）。这种区别提供了一个重要的数据治理边界。有助于将内部数据与公共数据分开。你不希望外部用户访问内部工作所需的敏感业务信息。面向 Internet 的工作负荷和内部工作负荷的这种区别与 Azure 登陆区域管理组保持一致。
将 AI 策略应用于每个管理组。 从每个工作负荷类型的基线策略开始，例如 Azure 登陆区域中使用的策略。将更多 Azure Policy 定义添加到基线，以推动 Azure AI 服务、Azure AI 搜索、Azure机器学习和 Azure 虚拟机的统一治理。
在工作负荷订阅中部署 AI 资源。 AI 资源需要从工作负荷管理组（内部或面向 Internet）继承工作负荷治理策略。将它们与平台资源分开。由平台团队控制的 AI 资源往往会造成开发瓶颈。在 Azure 登陆区域的上下文中，将 AI 工作负荷部署到应用程序登陆区域订阅。

建立 AI 网络

AI 网络是指 AI 工作负荷的网络基础结构的设计和实施，包括安全性和连接性。涉及使用中心辐射型拓扑、应用安全措施（如 DDoS 防护）以及确保高效数据传输。有效的 AI 网络对于安全可靠的通信至关重要，可防止基于网络的中断并维护性能。

激活面向 Internet 的 AI 工作负荷的 Azure DDoS 防护。Azure DDoS 防护可保护 AI 服务免受分布式拒绝服务攻击造成的潜在中断和停机。在虚拟网络级别启用 Azure DDoS 防护，以防范针对面向 Internet 的应用程序的流量洪水。
与本地网络连接。 使用跳板机和 Azure Bastion 确保对 AI 工作负载的操作访问安全。如果需要，某些服务（如 Azure AI Foundry）可以访问本地资源。对于将数据从本地源传输到云环境的组织，请使用高带宽连接。
- 请考虑使用 Azure ExpressRoute。 Azure ExpressRoute 非常适合需要一致性能的高数据量、实时处理或工作负荷。它具有 FastPath 功能，可提高数据路径性能。
- 请考虑使用 Azure VPN 网关。 将 Azure VPN 网关用于中等数据量、不频繁的数据传输或需要公共 Internet 访问时。 与 ExpressRoute 相比，对于较小的数据集，它的设置更简单，成本效益更高。为 AI 工作负荷使用正确的拓扑和设计。使用站点到站点 VPN 实现跨界和混合连接。使用点到站点 VPN 进行安全设备连接。有关详细信息，请参阅将本地网络连接到 Azure。
准备域名解析服务。 使用专用终结点时，将专用终结点与 DNS 集成，以获取正确的 DNS 解析和成功的专用终结点功能。将 Azure DNS 基础结构部署为 Azure 登陆区域的一部分，并从现有 DNS 服务为相应区域配置条件转发器。有关详细信息，请参阅 Azure 登陆区域的大规模专用链接和 DNS 集成。
配置网络访问控制。 利用网络安全组 (NSG) 定义和应用访问策略，以控制进出 AI 工作负荷的入站和出站流量。这些控件可用于实现最小特权原则，确保只允许必要的通信。
使用网络监视服务。 使用 Azure Monitor 网络见解和 Azure 网络观察程序等服务来了解网络性能和运行状况。此外，使用 Microsoft Sentinel 在整个 Azure 网络中进行高级威胁检测和响应。
部署 Azure 防火墙以检查和保护出站 Azure 工作负荷流量。Azure 防火墙在传出流量到达 Internet 之前强制实施安全策略。使用它来控制和监视传出流量，并通过将专用 IP 转换为防火墙的公共 IP，使 SNAT 能够隐藏内部 IP 地址。它确保了安全且可识别的出站流量，以实现更好的监视和安全性。
将 Azure Web 应用程序防火墙 (WAF) 用于面向 Internet 的工作负荷。Azure WAF 可帮助保护 AI 工作负荷免受常见的 Web 漏洞的攻击，包括 SQL 注入和跨站点脚本攻击。在应用程序网关上为需要针对恶意 Web 流量增强安全性的工作负荷配置 Azure WAF。

建立 AI 基础

AI 基础提供支持 Azure 中 AI 工作负荷的核心基础结构和资源层次结构。它包括建立与治理和运营需求相一致的可扩展、安全的环境。强大的 AI 基础能够高效地部署和管理 AI 工作负荷。它还确保了未来增长的安全性和灵活性。

使用 Azure 登陆区域

建议使用 Azure 登陆区域来准备 Azure 环境。它为平台和应用程序资源提供预定义的设置。平台就位后，就可以将 AI 工作负荷部署到专用应用程序登陆区域。下图 2 说明了 AI 工作负荷如何在 Azure 登陆区域中集成。

图 2. Azure 登陆区域中的 AI 工作负荷。

构建 AI 环境

如果不使用 Azure 登陆区域，请按照本文中的建议生成 AI 环境。下图显示了基线资源层次结构。它将内部 AI 工作负荷和面向 Internet 的 AI 工作负荷进行细分，如建立 AI 治理中所述。内部工作负荷使用策略拒绝客户联机访问。这种分离可以防止内部数据暴露给外部用户。 AI 开发应使用 jumpbox 来管理 AI 资源和数据。

图 3. AI 工作负荷的基线资源层次结构。