你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
在 Azure 容器应用中使用无服务器 GPU(预览版)
使用 Azure 容器应用,可以按需访问 GPU,而无需管理底层基础结构。 借助这一项无服务器功能,你只需为使用的 GPU 付费。 启用此功能后,应用所使用的 GPU 数量会根据应用程序的负载需求而增减。 通过无服务器 GPU,你可以使用自动缩放、优化的冷启动、按秒计费来无缝运行工作负载,并在不使用时缩减到零,从而减少运营开销。
无服务器 GPU 仅适用于消耗工作负载配置文件。 该功能不适用于仅消耗环境。
注意
只有在请求 GPU 配额后,才能访问 GPU。 可以通过客户支持案例提交 GPU 配额请求。
好处
使用 GPU 时,无服务器 GPU 可让你专注于核心 AI 代码,减少对基础结构的管理,从而加速 AI 开发。 此功能在 Azure AI 模型目录的无服务器 API 和托管计算上的托管模型之间提供了一个中间层选项。
容器应用的无服务器 GPU 支持提供了全面的数据管理,因为数据始终保留在容器的边界内,同时仍然提供一个托管的无服务器平台,用于构建你的应用程序。
在容器应用中使用无服务器 GPU 时,应用将获得以下功能:
缩放到零的 GPU:支持 NVIDIA A100 和 NVIDIA T4 GPU 的自动无服务器缩放。
按秒计费:仅为使用的 GPU 计算付费。
内置的数据管理:数据始终保留在容器边界内。
灵活的计算选项:可以在 NVIDIA A100 或 T4 GPU 类型之间进行选择。
用于 AI 开发的中间层:在托管的无服务器计算平台上使用自带模型。
常见应用场景
以下场景虽然不够详尽,但描述了无服务器 GPU 的常见用例。
实时和批量推理:使用具有快速启动时间、自动缩放和按秒计费模型特征的自定义开源模型。 无服务器 GPU 非常适用于动态应用程序。 只需为使用的计算付费,应用会自动横向扩展和缩减以满足需求。
机器学习场景:显著加速实现了微调自定义生成式 AI 模型、深度学习、神经网络或大规模数据分析的应用程序。
高性能计算 (HPC):需要复杂计算和模拟的应用程序(如科学计算、金融建模或天气预报)使用 GPU 作为资源来满足高计算需求。
渲染和可视化:涉及 3D 渲染、图像处理或视频转码的应用程序通常使用 GPU 来加速渲染过程并实现实时可视化。
大数据分析:GPU 可以加速大规模数据集中的数据处理和分析。
注意事项
在使用无服务器 GPU 时,请注意以下事项:
CUDA 版本:无服务器 GPU 支持最新的 CUDA 版本
支持限制:
- 应用中一次只能有一个容器使用 GPU。
- 多个应用可以共享同一个 GPU 工作负载配置文件,但每个应用都需要自己的副本。
- 不支持多 GPU 副本和部分 GPU 副本。
- 应用程序中的第一个容器将获得对 GPU 的访问权限。
IP 地址:当你将无服务器 GPU 与自己的虚拟网络集成时,每个副本使用一个 IP 地址。
请求无服务器 GPU 配额
只有在具有无服务器 GPU 配额后,才能访问此功能。 可以通过客户支持案例提交 GPU 配额请求。 打开 GPU 配额请求的支持案例时,请选择问题类型“技术”。
注意
具有企业协议的客户默认已启用单个 T4 GPU 配额。
支持的区域
无服务器 GPU 在美国西部 3 和澳大利亚东部区域中提供预览版。
使用无服务器 GPU
通过 Azure 门户创建容器应用时,可以将容器设置为使用 GPU 资源。
在创建过程的“容器”选项卡中,进行以下设置:
在“容器资源分配”部分下,选中“GPU”复选框。
对于“GPU 类型”*,请选择“NVIDIA A100”或“NVIDIA T4”选项。
管理无服务器 GPU 工作负载配置文件
无服务器 GPU 在消耗 GPU 工作负载配置文件上运行。 可以像管理任何其他工作负载配置文件一样管理消耗 GPU 工作负载配置文件。 可以使用 CLI 或 Azure 门户来管理工作负载配置文件。
改进 GPU 冷启动
通过在 Azure 容器注册表上启用生成工件流式处理,可以改进已启用 GPU 的容器上的冷启动。
注意
要使用生成工件流式处理,容器映像必须托管在 Azure 容器注册表中。
使用以下步骤启用映像流式处理:
在 Azure 门户中打开 Azure 容器注册表。
搜索“存储库”,并选择“存储库”。
选择你的存储库名称。
在“存储库”窗口中,选择“启动生成工件流式处理”。
选择要流式处理的映像标记。
在弹出的窗口中,选择“创建流式处理生成工件”。
提交反馈
将问题提交到 Azure 容器应用 GitHub 存储库。