AI の準備完了 – Azure で AI ワークロードを構築するプロセス

[アーティクル]
11/01/2024

この記事では、Azure で AI ワークロードを構築するための組織のプロセスの概要を説明します。この記事では、大規模な AI ワークロードを導入するための主要な設計とプロセスの決定を行う際の推奨事項を紹介します。リージョンの選択、リソースの編成、ネットワークに関する AI 固有のガイダンスに焦点を当てています。

AI の信頼性を確立する

AI の信頼性には、一貫したパフォーマンス、コンプライアンス、可用性を確保するための、AI モデルをホストする適切なリージョンの選択が含まれます。組織は、信頼性の高い AI サービスを維持するために、冗長性、フェールオーバー、パフォーマンスの最適化に対処する必要があります。

複数のリージョンを使用して AI モデルエンドポイントをホストします。 運用環境のワークロードでは、冗長性を提供し、高可用性を確保するために、少なくとも 2 つのリージョンで AI エンドポイントをホストします。生成 AI モデルはステートレスですが、複数のリージョンでホストすることで、地域的なの障害が発生した場合でも迅速なフェールオーバーや復旧が保証されます。 Azure OpenAI Service モデルの場合は、グローバルデプロイを使用できます。これらのマルチリージョンデプロイでは、十分な容量を持つリージョンに要求を自動的かつ透過的にルーティングできます。非グローバルデプロイ (リージョンデプロイとも呼ばれます) を選択した場合は、AZURE API Management を使用して、API 要求を AI エンドポイントに負荷分散します。
サービスの可用性を確認します。 デプロイの前に、必要な AI リソースがそのリージョンで利用可能であることを確認します。特定のリージョンでは、特定の AI サービスが提供されない場合や、機能が限られている場合があり、貴社のソリューションの機能に影響を与える可能性があります。この制限は、デプロイのスケーラビリティにも影響する可能性があります。たとえば、Azure OpenAI Service の可用性は、デプロイモデルによって異なる場合があります。これらのデプロイモデルには、グローバル標準、グローバルプロビジョニング、リージョン標準、およびリージョンプロビジョニングなどがあります。 AI サービスを調べて、必要なリソースにアクセスできるかどうかを確認してください。
リージョンのクォータと容量を評価します。 AI ワークロードの増加に合わせて、選択したリージョンのクォータまたはサブスクリプションの制限を検討してください。 Azure サービスにはリージョンによるサブスクリプション制限があります。これらの制限は、大規模な推論ワークロードなど、大規模な AI モデルデプロイに影響を与える可能性があります。中断を防ぐために、追加の容量が必要になると予想される場合は、事前に Azure サポートにお問い合わせください。
パフォーマンスを評価します。 取得拡張生成 (RAG) アプリケーションなど、データを取得する必要があるアプリケーションを構築する場合は、パフォーマンスを最適化するためにデータストレージの場所を考慮することが重要です。 RAG アプリ内のモデルとデータを同一の場所に配置する必要はありませんが、そうすることで待機時間の短縮と効率的なデータ取得が確保され、パフォーマンスを向上させることができます。
操作の継続性に備えます。 ビジネス継続性とディザスターリカバリーを確保するために、微調整されたモデル、RAG データ、トレーニング済みモデル、トレーニング済みデータセットなどの重要な資産をセカンダリリージョンにレプリケートします。この冗長性により、障害が発生した場合でも迅速な復旧が可能となり、継続的なサービス可用性が確保されます。

AI ガバナンスを確立する

AI ガバナンスには、リソースの整理と、AI ワークロードとコストを管理するためのポリシーの適用が含まれます。これは、さまざまなワークロードにわたるコンプライアンスとセキュリティを確保するための管理グループとサブスクリプションの構築を伴います。適切な AI ガバナンスは、不正アクセスを防ぎ、リスクを管理し、組織内で AI リソースが効率的に運用されることを保証します。

インターネットに接続するワークロードと社内 AI ワークロードを分離します。最低限、管理グループを使用して、AI ワークロードをインターネット接続用 ("オンライン") と内部専用 ("コーポレート") に分けます。この区別は、重要なデータガバナンス境界になります。これにより、内部データと公開データを分けて管理することができます。社内の業務に必要な機密情報に外部ユーザーがアクセスすることは避けたいでしょう。インターネットに接続するワークロードと内部ワークロードのこの区別は、Azure ランディングゾーン管理グループと一致しています。
各管理グループに AI ポリシーを適用します。 まず、Azure ランディングゾーンで使用されるポリシーなど、ワークロードの種類ごとにベースラインポリシーを設定します。 Azure AI サービス、Azure AI 検索、Azure Machine Learning、Azure Virtual Machines で統一されたガバナンスを推進するために、ベースラインにさらに多くの Azure Policy 定義を追加します。
ワークロードサブスクリプションに AI リソースをデプロイします。 AI リソースは、ワークロード管理グループ (内部用またはインターネット接続用) からワークロードガバナンスポリシーを継承する必要があります。プラットフォームリソースとは別に保持します。プラットフォームチームによって制御される AI リソースは、開発のボトルネックになる傾向があります。 Azure ランディングゾーンのコンテキストでは、AI ワークロードをアプリケーションランディングゾーンサブスクリプションにデプロイします。

AI ネットワークを確立する

AI ネットワークとは、セキュリティや接続性など、AI ワークロード用のネットワークインフラストラクチャの設計と実装を指します。これには、ハブアンドスポークなどのトポロジの使用、DDoS 保護のようなセキュリティ対策の適用、効率的なデータ転送の確保などが含まれます。効果的な AI ネットワークは、セキュリティで保護された信頼性の高い通信に不可欠であり、ネットワークベースの中断を防ぎ、パフォーマンスを維持します。

インターネットに接続する AI ワークロードに対して Azure DDoS Protection をアクティブ化します。Azure DDoS Protection は、分散型サービス拒否攻撃による潜在的な中断やダウンタイムから AI サービスを保護します。仮想ネットワークレベルで Azure DDoS Protection を有効にし、インターネットに接続するアプリケーションを標的とするトラフィックの洪水から防御します。
オンプレミスネットワークと接続します。 ジャンプボックスと Azure Bastion を使用して、AI ワークロードへの運用アクセスをセキュリティで保護します。必要に応じて、Azure AI Foundry などの一部のサービスは、オンプレミスリソースにアクセスできます。オンプレミスのソースからクラウド環境に大量のデータを転送する組織では、高帯域幅接続を使用します。
- Azure ExpressRoute を検討してみましょう。 Azure ExpressRoute は、大量のデータ、リアルタイム処理、または一貫したパフォーマンスを必要とするワークロードに最適です。それにはデータパスのパフォーマンスを向上させる FastPath 機能があります。
- Azure VPN Gateway について考えてみましょう。 中程度のデータボリューム、頻度の低いデータ転送、またはパブリックインターネットへのアクセスが必要な場合は、Azure VPN Gateway を使用します。 ExpressRoute よりもセットアップが簡単な上、データセットが小規模なため、コスト効率が高くなっています。 AI ワークロードに適したトポロジと設計を使用してください。クロスプレミス接続やハイブリッド接続にはサイト間 VPN を使用します。セキュリティで保護されたデバイス接続には、ポイント対サイト VPN を使用します。詳しくは、「オンプレミスネットワークの Azure への接続」をご覧ください。
ドメイン名解決サービスを準備します。 プライベートエンドポイントを使用する場合は、適切な DNS 解決とプライベートエンドポイントの正常な機能のために、プライベートエンドポイントを DNS と統合してください。 Azure DNS インフラストラクチャを Azure ランディングゾーンの一部としてデプロイし、既存の DNS サービスから適切なゾーンの条件付きフォワーダーを構成します。詳細については、「Azureランディングゾーンのプライベートリンクと DNS の大規模な統合」を参照してください。
ネットワークアクセス制御を構成する ネットワークセキュリティグループ (NSG) を活用して、AI ワークロードとの間の送受信トラフィックを制御するアクセスポリシーを定義および適用します。これらの制御を最小特権の原則を実行するために使用して、重要な通信のみが許可されるようにすることができます。
ネットワーク監視サービスを使用します。 Azure Monitor のネットワーク分析情報や Azure Network Watcher などのサービスを使用して、ネットワークのパフォーマンスと正常性を可視化します。さらに、Microsoft Sentinel を使用して、Azure ネットワーク全体の詳細な脅威検出と対応を行います。
Azure Firewall をデプロイして、Azure ワークロードの送信トラフィックを検査し、セキュリティで保護します。Azure Firewall では、インターネットに到達する前に、送信トラフィックのセキュリティポリシーが適用されます。これを使用して送信トラフィックを制御および監視し、プライベート IP をファイアウォールのパブリック IP に変換して SNAT が内部 IP アドレスを隠せるようにします。これにより、セキュリティで保護され、識別可能な送信トラフィックが保証され、監視とセキュリティが向上します。
インターネットに接続するワークロードには、Azure Web Application Firewall (WAF) を使用します。Azure WAF は、SQL インジェクションやクロスサイトスクリプティング攻撃など、一般的な Web の脆弱性から AI ワークロードを保護するのに役立ちます。悪意のある Web トラフィックに対するセキュリティ強化を必要とするワークロードには、Application Gateway で Azure WAF を構成します。

AI 基盤を確立する

AI 基盤は、Azure の AI ワークロードをサポートするコアインフラストラクチャとリソース階層を提供します。これには、ガバナンスと操作のニーズに合った、スケーラブルで安全な環境の設定も含まれます。強力な AI 基盤により、AI ワークロードの効率的なデプロイと管理が可能になります。また、将来の成長に備えたセキュリティと柔軟性も確保することができます。

Azure ランディングゾーンの使用

Azure ランディングゾーンは、Azure 環境を準備するための推奨される開始点です。それは、プラットフォームとアプリケーションリソースのための定義済みセットアップを提供します。プラットフォームが整ったら、専用のアプリケーションランディングゾーンに AI ワークロードをデプロイできます。次の図 2 は、AI ワークロードが Azure ランディングゾーン内でどのように統合されるかを示しています。

図 2. Azure ランディングゾーンの AI ワークロード。

AI 環境を構築する

Azure ランディングゾーンを使用しない場合は、この記事のレコメンデーションに従って AI 環境を構築します。次の図は、ベースラインリソース階層を示しています。「AI ガバナンスの確立」で説明したように、内部向け AI ワークロードとインターネットに接続する AI ワークロードを区分します。内部向けワークロードでは、ポリシーを使用して顧客からのオンラインアクセスを拒否します。この分離により、内部データが外部ユーザーに公開されないように保護されます。 AI 開発では、ジャンプボックスを使用して AI リソースとデータを管理する必要があります。

図 3. AI ワークロードのベースラインリソース階層。

次のステップ

次の手順では、AI ワークロードを構築して貴社の AI 環境にデプロイします。次のリンクを使用して、貴社のニーズに合ったアーキテクチャガイダンスを見つけてください。サービスとしてのプラットフォーム (PaaS) アーキテクチャからスタートします。 PaaSは、Microsoft が推奨する AI 導入のアプローチです。

PaaS AI アーキテクチャのガイダンス

IaaS AI アーキテクチャのガイダンス

次の方法で共有

AI の準備完了 – Azure で AI ワークロードを構築するプロセス

AI の信頼性を確立する

AI ガバナンスを確立する

AI ネットワークを確立する

AI 基盤を確立する

Azure ランディングゾーンの使用

AI 環境を構築する

次のステップ

フィードバック

その他のリソース

次の方法で共有

AI の準備完了 – Azure で AI ワークロードを構築するプロセス

AI の信頼性を確立する

AI ガバナンスを確立する

AI ネットワークを確立する

AI 基盤を確立する

Azure ランディング ゾーンの使用

AI 環境を構築する

次のステップ

フィードバック

その他のリソース

Azure ランディングゾーンの使用