AI 就緒 – 在 Azure 中建置 AI 工作負載的組織建議
本文概述在 Azure 中建置 AI 工作負載的組織程式。 本文提供針對大規模採用 AI 工作負載進行重要設計和程式決策的建議。 其著重於區域選取、資源組織和網路功能的 AI 特定指引。
建立 AI 可靠性
AI 可靠性牽涉到選取適當的區域來裝載 AI 模型,以確保一致的效能、合規性和可用性。 組織必須解決備援、故障轉移和效能優化的問題,才能維護可靠的 AI 服務。
使用多個區域來裝載 AI 模型端點。 針對生產工作負載,至少在兩個區域中裝載 AI 端點,以提供備援並確保高可用性。 雖然產生 AI 模型是無狀態的,但在多個區域中裝載它們可確保在區域失敗期間更快速地故障轉移和復原。 針對 Azure OpenAI 服務模型,您可以使用 全域部署。 這些多區域部署可以自動且透明地將要求路由傳送至具有足夠容量的區域。 如果您選擇非全域部署,也稱為區域部署,請使用 Azure API 管理 對 AI 端點的 API 要求進行負載平衡。
確認服務可用性。 在部署之前,請確定您所需的 AI 資源區域有 可用性 。 某些區域可能無法提供特定的 AI 服務,或可能有有限的功能,可能會影響解決方案的功能。 這項限制也會影響部署的延展性。 例如,Azure OpenAI 服務可用性可能會根據您的部署模型而有所不同。 這些部署模型包括全域標準、全域布建、區域標準和區域布建。 請檢查 AI 服務,以確認您可以存取必要的資源。
評估區域配額和容量。 隨著 AI 工作負載的成長,請考慮所選區域中的配額或訂用帳戶限制。 Azure 服務具有區域訂用帳戶限制。 這些限制可能會影響大規模的 AI 模型部署,例如大型推斷工作負載。 若要避免中斷,如果您預見到需要額外的容量,請事先連絡 Azure 支援。
評估效能。 當您建置需要擷取數據的應用程式,例如擷取擴增世代 (RAG) 應用程式時,請務必考慮數據儲存位置以將效能優化。 您不需要在RAG應用程式中與模型共置數據,但這樣做可以藉由降低延遲並確保有效率的數據擷取來改善效能。
準備作業的持續性。 為了確保商務持續性和災害復原,請復寫重要資產,例如微調的模型、RAG 數據、定型的模型,以及次要區域中的定型數據集。 如果中斷並確保持續服務可用性,此備援可加快復原速度。
建立 AI 治理
AI 治理包含組織資源和套用原則來管理 AI 工作負載和成本。 其牽涉到建構管理群組和訂用帳戶,以確保不同工作負載的合規性和安全性。 適當的 AI 治理可防止未經授權的存取、管理風險,並確保 AI 資源在組織內有效率地運作。
個別因特網面向和內部 AI 工作負載。 至少,使用管理群組將 AI 工作負載分成因特網對向(「在線」)和僅限內部(「公司」)。 差別提供重要的數據控管界限。 它可協助您將內部與公用數據分開。 您不希望外部使用者存取內部工作所需的敏感性商務資訊。 因特網對向和內部工作負載之間的差異與 Azure 登陸區域管理群組一致。
將 AI 原則套用至每個管理群組。 從每個工作負載類型的基準原則開始,例如用於 Azure 登陸區域的原則。 將更多 Azure 原則 定義新增至您的基準,以推動 Azure AI 服務、Azure AI 搜尋服務、Azure 機器學習 和 Azure 虛擬機器 的統一治理。
在工作負載訂用帳戶中部署 AI 資源。 AI 資源需要從工作負載管理群組繼承工作負載治理原則(內部或因特網面向)。 將它們與平台資源分開。 由平臺小組控制的 AI 資源通常會建立開發瓶頸。 在 Azure 登陸區域的內容中,將 AI 工作負載部署到應用程式登陸區域訂用帳戶。
建立 AI 網路
AI 網路是指 AI 工作負載的網路基礎結構設計和實作,包括安全性和連線能力。 它牽涉到使用中樞和輪輻等拓撲、套用安全性措施,例如 DDoS 保護,並確保有效率的數據傳輸。 有效的 AI 網路對於安全且可靠的通訊至關重要,可避免網路型中斷和維護效能。
針對因特網對向 AI 工作負載啟用 Azure DDoS 保護。Azure DDoS 保護可保護您的 AI 服務,避免因分散式阻斷服務攻擊所造成的潛在中斷和停機時間。 在虛擬網路層級啟用 Azure DDoS 保護,以防範以因特網對向應用程式為目標的流量洪水。
聯機到內部部署數據。 對於將大量數據從內部部署來源傳輸到雲端環境的組織,請使用高頻寬連線。
請考慮使用 Azure ExpressRoute。 Azure ExpressRoute 適用於需要一致效能的高數據量、實時處理或工作負載。 它有 FastPath 功能可改善資料路徑效能。
請考慮 Azure VPN 閘道。 使用 Azure VPN 閘道 進行中度數據量、不常數據傳輸,或需要公用因特網存取時。 設定和符合成本效益的數據集比 ExpressRoute 更簡單。 針對您的 AI 工作負載使用正確的 拓撲和設計 。 使用站對站 VPN 進行跨單位和混合式連線。 使用點對站 VPN 進行安全的裝置連線。 如需詳細資訊,請參閱將內部部署網路連線至 Azure。
準備功能變數名稱解析服務。 當您使用私人端點時, 請整合私人端點與 DNS ,以取得適當的 DNS 解析和成功的私人端點功能。 將 Azure DNS 基礎結構部署為 Azure 登陸區域的一部分,併為適當的區域設定現有 DNS 服務的條件式轉寄站。 如需詳細資訊,請參閱 Azure 登陸區域的私用連結和 DNS 大規模整合。
設定網路訪問控制。 利用 網路安全組 (NSG) 來定義和套用存取原則,以控管進出 AI 工作負載的輸入和輸出流量。 這些控件可用來實作最低許可權原則,確保只允許必要的通訊。
使用網路監視服務。 使用 Azure 監視器網路深入解析和 Azure 網路監看員 等服務,以深入了解網路效能和健康情況。 此外,使用 Microsoft Sentinel,在您的 Azure 網路上進行進階威脅偵測和回應。
部署 Azure 防火牆 來檢查及保護輸出 Azure 工作負載流量。 Azure 防火牆 會先針對連出流量強制執行安全策略,再到達因特網。 使用它來控制和監視傳出流量,並讓 SNAT 將私人 IP 轉譯為防火牆的公用 IP,以隱藏內部 IP 位址。 其可確保安全且可識別的輸出流量,以取得更佳的監視和安全性。
針對因特網對向工作負載使用 Azure Web 應用程式防火牆 (WAF)。 Azure WAF 可協助保護您的 AI 工作負載免於常見的 Web 弱點,包括 SQL 插入式攻擊和跨網站腳本攻擊。 針對需要針對惡意 Web 流量增強安全性的工作負載,在 應用程式閘道 上設定 Azure WAF。
建立 AI 基礎
AI 基礎提供核心基礎結構和資源階層,可支援 Azure 中的 AI 工作負載。 它包含設定可調整、安全的環境,以符合治理和作業需求。 強大的 AI 基礎可讓您有效率地部署和管理 AI 工作負載。 它也可確保未來成長的安全性和彈性。
使用 Azure 登陸區域
Azure 登陸區域是準備 Azure 環境的建議起點。 它為平臺和應用程式資源提供預先定義的設定。 平臺就緒后,您可以將 AI 工作負載部署到專用的應用程式登陸區域。 下圖 2 說明 AI 工作負載如何在 Azure 登陸區域內整合。
建置 AI 環境
如果您未使用 Azure 登陸區域,請遵循本文中的建議來建置您的 AI 環境。 下圖顯示基準資源階層。 它會分割內部 AI 工作負載和因特網面向 AI 工作負載,如建立 AI 治理中所述。 內部工作負載會使用原則來拒絕客戶的在線存取。 此區隔可保護內部數據不受外部用戶公開。 AI 開發會使用 jumpbox 來管理 AI 資源和數據。
下一步
下一個步驟是建置 AI 工作負載並將其部署至您的 AI 環境。 使用下列連結來尋找符合您需求的架構指引。 從平臺即服務 (PaaS) 架構開始。 PaaS 是Microsoft採用 AI 的建議方法。