在 Azure Container Apps 中使用無伺服器 GPU (預覽)
Azure Container Apps 可讓您隨選存取 GPU,而不需要管理基礎結構。 身為無伺服器功能,您只需支付使用中的 GPU 費用。 啟用時,應用程式所使用的 GPU 數目會上升和下降,以符合應用程式的負載需求。 無伺服器 GPU 可讓您使用自動調整、優化的冷啟動、每秒相應減少為零的計費方式,順暢地執行工作負載,並在不使用時縮減為零,並減少作業負荷。
無伺服器 GPU 僅支援取用工作負載配置檔。 僅限耗用量環境不支援此功能。
注意
只有在您要求 GPU 配額之後,才能存取 GPU。 您可以透過 客戶支援案例提交 GPU 配額要求。
福利
無伺服器 GPU 可讓您專注於核心 AI 程式代碼,且在使用 GPU 時更不專注於管理基礎結構, 來加速 AI 開發。 這項功能提供 Azure AI 模型目錄的無伺服器 API 與在受控計算上裝載模型之間的中間層選項。
Container Apps 無伺服器 GPU 支援提供完整的數據控管,因為您的數據永遠不會離開容器的界限,同時仍提供受控無伺服器平臺來建置應用程式。
當您在容器應用程式中使用無伺服器 GPU 時,您的應用程式會取得:
調整為零 GPU:支援自動調整 NVIDIA A100 和 NVIDIA T4 GPU 的無伺服器調整。
每秒計費:僅支付您使用的 GPU 計算費用。
內建數據控管:您的數據永遠不會離開容器界限。
彈性計算選項:您可以選擇 NVIDIA A100 或 T4 GPU 類型。
AI 開發的仲介層:將您自己的模型放在受控無伺服器計算平臺上。
常見案例
下列案例雖然不全面,但描述無伺服器 GPU 的常見使用案例。
即時和批次推斷:使用具有快速啟動時間、自動調整和每秒計費模型的自定義開放原始碼模型。 無伺服器 GPU 適用於動態應用程式。 您只需支付您使用的計算費用,而您的應用程式會自動相應縮小和相應放大以符合需求。
機器學習案例:大幅加快應用程式,以實作微調的自定義產生 AI 模型、深度學習、神經網路或大規模數據分析。
高效能運算 (HPC):需要複雜計算和仿真的應用程式,例如科學運算、財務模型化或天氣預報,會使用 GPU 作為高計算需求的資源。
轉譯和視覺效果:涉及 3D 轉譯、影像處理或視訊轉碼的應用程式通常會使用 GPU 來加速轉譯程式,並啟用即時視覺效果。
巨量數據分析:GPU 可以加速大規模數據集之間的數據處理和分析。
考量
當您使用無伺服器 GPU 時,請記住下列專案:
CUDA 版本:無伺服器 GPU 支援最新的 CUDA 版本
支援限制:
- 應用程式中只能有一個容器一次使用 GPU。
- 多個應用程式可以共用相同的 GPU 工作負載配置檔,但每個應用程式都需要自己的複本。
- 不支援多重和小數 GPU 複本。
- 應用程式中的第一個容器會取得 GPU 的存取權。
IP 位址:當您設定與您自己的虛擬網路整合時,取用 GPU 會針對每個復本使用一個 IP 位址。
要求無伺服器 GPU 配額
只有無伺服器 GPU 配額之後,才能存取這項功能。 您可以透過 客戶支援案例提交 GPU 配額要求。
注意
企業合約的客戶預設會啟用單一 T4 GPU 配額。
支援的區域
無伺服器 GPU 可在美國西部 3 和澳大利亞東部區域預覽。
使用無伺服器 GPU
當您透過 Azure 入口網站 建立容器應用程式時,您可以設定容器以使用 GPU 資源。
在建立程式的 [ 容器 ] 索引標籤中,設定下列設定:
在 [ 容器資源配置 ] 區段底下,核取 [GPU ] 複選框。
針對 GPU 類型*,選取 [NVIDIA A100] 或 [NVIDIA T4] 選項。
管理無伺服器 GPU 工作負載配置檔
無伺服器 GPU 會在取用 GPU 工作負載配置檔上執行。 您可以使用與任何其他工作負載設定檔相同的方式管理取用 GPU 工作負載設定檔。 您可以使用 CLI 或 Azure 入口網站 來管理工作負載設定檔。
改善 GPU 冷啟動
您可以藉由在 Azure Container Registry 上啟用成品串流,改善已啟用 GPU 的容器的冷啟動。
注意
若要使用成品串流,您的容器映像必須裝載在 Azure Container Registry 中。
使用下列步驟來啟用影像串流:
在 Azure 入口網站 中開啟您的 Azure Container Registry。
搜尋存放 庫,然後選取 [ 存放庫]。
選取您的存放庫名稱。
從 [存放 庫] 視窗中,選取 [ 啟動成品串流]。
選取您想要串流的影像標籤。
在快顯的視窗中,選取 [ 建立串流成品]。
提交意見反應
將問題提交至 Azure Container Apps GitHub 存放庫。