クラウド ファクトリー – Azure クラウド ネットワークの成長を支える同期化された最適化フレームワーク
このポストは、1 月 6 日に投稿された Cloud factory: The synchronized optimization framework behind Azure cloud network growth の翻訳です。
今回の記事は、Azure ネットワーキングのパートナー エンジニアリング マネージャーを務める Nasser Elawaar と共同で執筆しました。
私たちはマイクロソフト クラウドの継続的な成長を支える生産プロセスを「クラウド ファクトリー」と呼んでいます。これはグローバルに分散されたデータセンターのクラスターをつないでいる組立ラインと言えるでしょう。新規のリージョンと既存のリージョンにはそれぞれ異なる計画や設計があり、ネスト方式やクローズドループ方式で最適化されて接続されています。データセンターは大規模なウェアハウスに収められていますが、そのデプロイメントや接続は注意深く調整されたファクトリーの運用に従って行われています。
マイクロソフトのクラウドは、高度な柔軟性や回復性、効率性を世界的な規模で実現しています。地理冗長ストレージ (GRS) やゾーン冗長ストレージ (ZRS)、制御プレーン、トラフィック エンジニアリング レバーなどの各種機能を活用しながら規模を拡大しているため、各クラウド サービスはいくつもの独立したドメインで障害が発生しても耐えることができます。
この世界規模での運用は、ネットワーク効果 (ネットワークの価値は接続ノード数の 2 乗に比例するというメトカーフの法則により導かれる) を狙ったものです。この効果により、新規の開発者やユーザーがクラウドに誘導され、アプリケーションのデプロイメントやサービスが簡素化され、関連する優秀な人材の発掘も効率化されます。
Azure ネットワーキングのスケーリング操作 (スケール アップ/アウト/ダウン) は、新しいコラボレーションの機会につながり、革新的なビジネス インサイトを発見するきっかけとなります。また、「lift & shift」と呼ばれるオンプレミスから Azure リージョンへの移行戦略に欠かせないものとして、高い応答性を持つクラウド環境、需要の爆発的な増加への対応能力、全リージョンにわたるマクロ レベルのスケーリングを実現しています。
下に示すクラウド ネットワーク スタックは、新規または既存のデータセンター内部にデプロイされます。大都市圏/地方のファブリックにおける長距離ネットワーク セグメントの接続にはネットワーク グラフ理論が採用され、複数のウェアハウス規模のデータセンターが密接につながった 1 つのコンピューターとして動作しています。このほかにもクラウド ネットワーキングにはさまざまなファクトリー プロセスが用いられ、今後の成長スパートを占う主要な指標となっています。クラウド ネットワーキングの成長速度は、インフラストラクチャ全体の成長速度よりも 5 倍に上ります。高スループットのクラウド ネットワーキング ファクトリーにより、クラウドのサプライ チェーンの分離、クラウド インフラストラクチャの需要スパイクの鈍化、致命的な箇所でのサービス停止の回避といったことが可能になります。これができないと、能力不足による速度の低下やサービス停止によるクラウド全体の信頼性低下につながります。
ネットワーク トラフィック管理、制御プレーン ポリシー、ネットワーク設計の選択は、ネスト方式の最適化の問題として異なるタイムラインに配置されます。Azure ネットワーキングでは、これらの選択がクローズドループ方式として統合化されたフレームワークにまとめられています。これはすべて、サーバーやネットワーク、人材を含むマイクロソフト エコシステムの使用状況の最適化をプログラム的に実行するための方策です。このシステムは、デプロイメント関連の各種機能、インフラストラクチャの計画策定をネットワーク管理用のルール セットに基づいて自動化し、最先端の方法でクラウドの効率向上を継続的に行います。
Azure クラウド ファクトリーは、ブルウィップ効果を抑制することで、インフラストラクチャの成長曲線を継続的にコントロールしていきます。Azure は、安定的に最適化された規模でクラウド インフラストラクチャを成長させてお客様のニーズに対応し、現在の競争をリードしています。高効率のクラウド ファクトリーは、SKU の標準化、構成の標準化、ネットワーク ウィジェットの代替性確保およびサイズの規格化などにより実現されています。世界規模での最適化の結果として、Azure ネットワークでは IaaS (サービスとしてのインフラストラクチャ)、Virtual Network、Load Balancer、PaaS (サービスとしてのプラットフォーム) の各テクノロジにわたって大規模なリソースをプールすることが可能になり、Content Delivery Network や Traffic Manager といった新機能の提供につながっています。
ボトルネックを特定し、適切な場所、適切なタイミング、適切な品質でネットワークをスケーリングするというファクトリーの原則は、ネットワークのスケールと可用性の目標を実現するうえで非常に重要です。
サーバーからクライアントに至るまで、Azure ネットワーク全体のアセットは、複数のシステムの集合により下記のように最適化されています。
- ユーザーはネットワーク オペレーティング システムのメカニズムを学習することなく、ネットワークとリソースの使用をビジネス ルールとして定義することが可能。
- ネットワークがビジネス目標達成の障害とならないように、ネットワークの可視性ではなくアプリケーションのパフォーマンスの可視性を高めることで、サービスのパフォーマンスを向上。
- 迅速なスケーリング機能がすべてのシステムに組み込まれていて、ソフトウェアとハードウェアのスケーリングの分離を促進。
Azure ネットワークでは、この 12 か月の間にネットワーク密度が 2 倍になりました。ネットワーク密度の向上は追加設備や調達コストの削減につながるため、今後の拡大によるトランザクション コストも低減されます。ネットワーク密度の高さは、エンドツーエンドのパフォーマンスの向上につながります。同時に、Azure クラウド ネットワークは、エコシステムの中間点および終端点のピアリング ポイントまたは相互接続ポイントとしての魅力を高めています。
クラウド コンピューティングの分野ではこうしたネットワーク効果のおかげで、大規模にサービスを展開する企業がその地位を固めてきました。クラウド ネットワークの分野でもこれと同じ効果がサービス自体に対して発揮されるものと考えます。