人工知能 (AI) アーキテクチャの設計
人工知能 (AI) は、コンピューターがインテリジェントな人間の行動を模倣できるようにするテクノロジです。 AI を使用すると、マシンは次のことができます。
- データを分析して画像やビデオを作成します。
- 音声を分析して合成します。
- 自然な方法で口頭で対話します。
- 予測を行い、新しいデータを生成します。
アーキテクトは、人工知能を使用して機能を実行したり、従来のロジックや処理を実装することが不可能またはほぼ不可能な場合に決定を下したりするワークロードを設計します。 ソリューションを設計するアーキテクトとして、AI と機械学習のランドスケープと、Azure がワークロード設計に統合するためのソリューションをどのように提供しているかを理解することが重要です。
AI の概念
アルゴリズム
アルゴリズム または 機械学習アルゴリズム は、人間が複雑なデータ セットで意味を探索、分析、および見つけるのに役立つコードです。 各アルゴリズムが、特定の目標を達成するためにマシンが従うことができる、明確なステップバイステップ手順の有限集合になっています。 機械学習モデルでは、人間が予測を行ったり、情報を分類したりするために使用できるパターンを確立または検出することが目標です。 あるアルゴリズムでは、ペットが猫、犬、魚、鳥、トカゲのどれであるかを判断する方法を記述できます。 はるかに複雑な別のアルゴリズムでは、書き言葉または話し言葉を識別し、その単語を分析して、それらを別の言語に翻訳し、翻訳が正確かどうかをチェックする方法を記述できます。
ワークロードを設計するときは、タスクに適したアルゴリズム ファミリを選択し、使用可能なさまざまなアルゴリズムを評価して適切な適合を見つける必要があります。
機械学習
機械学習 は、アルゴリズムを使用して予測モデルを作成する AI 手法です。 アルゴリズムは、データ フィールドを解析し、その中にあるパターンを使用してそのデータから "学習" してモデルを生成するために使用されます。 その後、これらのモデルを使用して、新しいデータについて情報に基づく予測や意思決定を行います。
予測モデルは既知のデータに照らして検証され、特定のビジネス シナリオ用に選択されたパフォーマンス メトリックによって測定された後、必要に応じて調整されます。 学習と検証のこのプロセスは、"トレーニング" と呼ばれます。 定期的な再トレーニングにより、ML モデルは徐々に改善されます。
ワークロードの設計に関しては、過去の観察を確実に使用して将来の状況を予測できる状況がある場合は、機械学習の使用を検討します。 これらの観察は、ある形式の動物を別の動物から検出するコンピューター ビジョンなどの普遍的な真理である場合があります。また、これらの観察は、過去の保証請求データに基づいて、アセンブリ ラインの潜在的なアセンブリミスを検出するコンピューター ビジョンなどの状況に固有である場合があります。
ディープ ラーニング
ディープ ラーニング は、独自のデータ処理を通じて学習できる ML の一種です。 機械学習と同様に、アルゴリズムを使用してデータを分析しますが、多くの入力、出力、および処理レイヤーを含む人工ニューラル ネットワークを使用します。 各レイヤーは異なる方法でデータを処理でき、1 つのレイヤーの出力が次のレイヤーの入力になります。 これにより、ディープ ラーニングでは、従来の機械学習よりも複雑なモデルを作成できます。
ワークロード デザイナーとして、このオプションでは、高度にカスタマイズされたモデルまたは探索的モデルを生成するための大規模な投資が必要です。 一般に、ワークロードにディープ ラーニングを追加する前に、この記事に記載されている他のソリューションを検討します。
生成 AI
生成 AI は人工知能の一種であり、モデルは自然言語、コンピューター ビジョン、オーディオ、画像入力などの多くの形式のコンテンツに基づいて新しい元のコンテンツを生成するようにトレーニングされます。 生成 AI を使用すると、通常の日常言語で目的の出力を記述できます。モデルは、適切なテキスト、画像、コードなどを作成することで応答できます。 生成 AI アプリケーションの例をいくつか次に示します。
Microsoft Copilot は主に、ユーザーがコード、ドキュメント、およびその他のテキスト ベースのコンテンツを記述するのを支援できるユーザー インターフェイスです。 これは一般的な OpenAI モデルに基づいており、さまざまな Microsoft アプリケーションとユーザー エクスペリエンスに統合されています。
Azure OpenAI は、o1-preview、o1-mini、GPT-4o、GPT-4o mini、GPT-4 Turbo with Vision、GPT-4、GPT-3.5-Turbo、Embeddings モデル シリーズなど、OpenAI の強力な言語モデルへのアクセスを提供するサービスとしての開発プラットフォームです。 これらのモデルは、次のような特定のタスクに適合させることができます。
- コンテンツ生成
- コンテンツの概要
- 画像解釈
- セマンティック検索
- 自然言語からコードへの翻訳。
言語モデル
言語モデル は、テキスト生成やセンチメント分析などの自然言語処理 (NLP) タスクに焦点を当てた Generative AI のサブセットです。 これらのモデルは、特定のコンテキストで単語または単語のシーケンスが発生する確率に基づいて自然言語を表します。
従来の言語モデルは、特定のタスクに対して適切にラベル付けされたテキスト データセットでモデルをトレーニングする研究目的で、教師あり設定で使用されています。 事前トレーニング済みの言語モデルは、AI を開始するためのアクセシビリティの高い方法を提供し、近年より広く使用されています。 これらのモデルは、ディープ ラーニング ニューラル ネットワークを使用してインターネットから大規模なテキスト コーパスでトレーニングされ、特定のタスク用に小規模なデータセットで微調整できます。
言語モデルのサイズは、入力データを処理し、出力を生成する方法を決定するパラメーターの数 (または "重み") によって決まります。 パラメーターは、モデルのレイヤー内の重みを調整して、モデルの予測と実際のデータの間の差を最小限に抑えることによって、トレーニング プロセス中に学習されます。 モデルに含まれるパラメーターが多いほど、より複雑で表現力が豊かなものになりますが、トレーニングと使用に必要な計算コストも高くなります。
一般に、小規模言語モデルではパラメーター数は 100 億未満であり、大規模言語モデルではパラメーター数は 100 億を超えます。 たとえば、Microsoft Phi-3 モデル ファミリには、ミニ (38 億パラメーター)、小 (70 億パラメーター)、中 (140 億パラメーター) の 3 つのバージョンがあり、サイズが異なります。
Copilot
言語モデルの可用性により、デジタル副操縦士や接続されたドメイン固有のエージェントを通じてアプリケーションやシステムとやり取りする新しい方法が登場しました。 コパイロットは生成 AI アシスタントです。多くの場合、チャット インターフェイスとしてアプリケーションに統合されています。 そのようなアプリケーションの一般的なタスクに対して、コンテキストに応じたサポートを提供します。
Microsoft Copilot は、さまざまな Microsoft アプリケーションとユーザー エクスペリエンスに統合されています。 これは、サードパーティの開発者が独自のプラグインを作成して、Microsoft Copilot でユーザー エクスペリエンスを拡張またはカスタマイズできるようにするオープン アーキテクチャに基づいています。 さらに、サード パーティの開発者は、同じオープン アーキテクチャを使って独自のコパイロットを作成できます。
検索拡張生成 (RAG)
取得拡張生成 (RAG) は、パブリック データでのみトレーニングされた ChatGPT のような大規模言語モデル (LLM) の機能を拡張するアーキテクチャ パターンです。 このパターンを使用すると、ユーザー要求に関連するグラウンド データをコンテキストに提供する取得システムを追加できます。 情報取得システムを追加すると、言語モデルが応答を作成するときに使用される接地データを制御できます。 RAG アーキテクチャを使用すると、ベクター化されたドキュメント、画像、その他のデータ形式からソースを取得したコンテンツに対して、生成 AI のスコープを設定できます。 RAG はベクター検索ストレージに限定されませんが、パターンは任意のデータ ストア テクノロジと組み合わせて適用できます。
自動機械学習 (AutoML)
自動機械学習は自動 ML または AutoML とも呼ばれ、機械学習モデル開発の時間のかかる反復的なタスクを自動化するプロセスです。 これにより、データ サイエンティスト、アナリスト、開発は、モデルの品質を維持しながら、高いスケール、効率性、生産性で ML モデルを構築することができます。
AI サービス
Azure AI サービスを使用すると開発者や組織は、すぐに使用できる事前構築済みのカスタマイズ可能な API とモデルを使用して、インテリジェントで市場に対応した責任あるアプリケーションを作成できます。 使用には、会話、検索、監視、翻訳、音声、ビジョン、意思決定のための自然言語処理が含まれます。
MLflow は、機械学習のライフサイクル全体を管理するように設計されたオープンソース フレームワークです。
AI 言語モデル
OpenAI の GPT モデルなどの大規模言語モデル (LLM) は、さまざまなドメインやタスクにわたって自然言語を生成できる強力なツールです。 これらのモデルの使用を検討するときは、データプライバシー、倫理的使用、正確性、バイアスなどの要因を考慮してください。
Phi オープン モデル は、生成 AI ソリューション用の小規模でコンピューティング集中型のモデルです。 小規模言語モデル (SLM) は、大規模な言語モデルよりも効率的で解釈可能で、説明可能な場合があります。
ワークロードを設計する場合、言語モデルは、従量制課金 API の背後にあるホステッド ソリューションとして使用することも、多数の小さな言語モデルに対して、プロセス内でホストすることも、少なくともコンシューマーと同じコンピューティング上でホストすることもできます。 ソリューションで言語モデルを使用する場合は、言語モデルとその使用可能なホスティング オプションを選択して、ユース ケースに最適化されたソリューションを確実に使用することを検討してください。
AI 開発プラットフォームとツール
Azure Machine Learning service
Azure Machine Learning は、モデルを構築してデプロイするための機械学習サービスです。 Azure Machine Learning には Web インターフェイスと SDK が用意されているため、機械学習モデルとパイプラインを大規模にトレーニングしてデプロイできます。 PyTorch、TensorFlow、scikit-learn など、オープンソースの Python フレームワークと共にこれらの機能を使用します。
Azure Machine Learning とは 多数の学習リソース、SDK、ドキュメントなどへのリンクを含む一般的なオリエンテーション
Azure の Machine Learning リファレンス アーキテクチャ
ベースライン OpenAI のエンド ツー エンド チャット参照アーキテクチャ は、OpenAI の GPT モデルを使用してエンド ツー エンドのチャット アーキテクチャを構築する方法を示す参照アーキテクチャです。
Azure ランディング ゾーンの Azure OpenAI チャット ベースライン アーキテクチャ では、Azure ランディング ゾーンにデプロイするときの変更と期待に対処するために、Azure OpenAI ベースライン アーキテクチャを構築する方法を示します。
自動機械学習 (AutoML)
Azure Machine Learning の AutoML 機能を使用して ML モデルを大規模に構築し、タスクを自動化します。
MLflow
Azure Machine Learning ワークスペースは MLflow と互換性があります。つまり、MLflow サーバーを使うのと同じ方法で Azure Machine Learning ワークスペースを使用できます。 この互換性には、次の利点があります。
- Azure Machine Learning は MLflow サーバー インスタンスをホストしませんが、MLflow API を直接使用できます。
- Azure Machine Learning ワークスペースは、MLflow コードが Azure Machine Learning で実行されるかどうかにかかわらず、そのコードの追跡サーバーとして使用できます。 追跡が行われるワークスペースを指すように MLflow を構成するだけで済みます。
- MLflow を使用する任意のトレーニング ルーチンを、変更することなく Azure Machine Learning で実行できます。
詳細については、「 MLflow と Azure Machine Learning」を参照してください。
生成 AI ツール
プロンプト フロー は、イデーション、プロトタイプ作成、テスト、評価、運用のデプロイと監視まで、生成 AI アプリケーションのエンド ツー エンドの開発サイクルを合理化するように設計された一連の開発ツールです。 モジュール式オーケストレーションおよびフロー エンジンでアクションを表現することで、プロンプト エンジニアリングをサポートします。
azure AI Foundry
は、包括的なプラットフォームを使用して、生成型 AI アプリと API を責任を持って実験、開発、デプロイするのに役立ちます。 Azure AI Foundry ポータルを使用すると、AZURE AI サービス、基盤モデル、プレイグラウンド、リソースにアクセスして、AI モデルの構築、トレーニング、微調整、デプロイに役立ちます。 また、モデルの応答を評価し、プロンプト フローを使用してプロンプト アプリケーション コンポーネントを調整してパフォーマンスを向上させることもできます。 Azure Copilot Studio は、Microsoft 365 で Microsoft Copilot を拡張し、内部および外部のシナリオ用にカスタム の副操縦を構築するために使用されます。 Copilot Studio を使用すると、ユーザーは包括的なオーサリング キャンバスを使用して、副操縦を設計、テスト、発行できます。 ユーザーは、生成型 AI 対応の会話を簡単に作成し、既存の副操縦者の応答をより細かく制御し、特定の自動化されたワークフローを使用して生産性を向上させることができます。
AI 用のデータ プラットフォーム
Microsoft Fabric
Microsoft Fabric は、統合ソリューションを必要とする企業向けに設計されたエンドツーエンドの分析およびデータ プラットフォームです。 ワークロード チームには、これらのシステム内のデータへのアクセス権を付与できます。 これには、データ移動、処理、インジェスト、変換、リアルタイム イベント ルーティング、およびレポート作成が含まれます。 Data Engineering、Data Factory、Data Science、Real Time Analytics、Data Warehouse、データベースなどの包括的なサービス スイートを提供します。
Microsoft Fabric は、個別のコンポーネントをまとまりのあるスタックに統合します。 さまざまなデータベースや Data Warehouse に依存する代わりに、OneLake を使用してデータ ストレージを一元化できます。 AI 機能は Fabric 内に埋め込まれており、手動で統合する必要がなくなります。
ファブリックのコピロート
Copilot やその他の生成 AI 機能を使用すると、Microsoft Fabric と Power BI でデータの変換と分析、分析情報の生成、視覚化とレポートの作成を行えます。 独自の副操縦を作成することも、次の事前構築済みの副操縦士のいずれかを選択することもできます。
Fabric での AI スキル
Microsoft Fabric AI スキルを使用すると、データに関する質問に回答するクエリを生成するように生成 AI システムを構成できます。 AI スキルを構成した後は、同僚と共有できます。同僚は、平易な英語で質問できます。 AI は、質問に基づいて、それらの質問に回答するデータに対するクエリを生成します。
AI 用の Apache Spark ベースのデータ プラットフォーム
Apache Spark は、ビッグ データ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする並列処理フレームワークです。 Spark には、クラスターの計算処理をインメモリで行うための基本的な要素が備わっています。 Spark ジョブは、データをメモリに読み込んでキャッシュし、繰り返しクエリを実行できます。これは、Hadoop などのディスク ベースのアプリケーションよりも高速です。
Azure Fabric の Apache Spark
Microsoft Fabric Runtime は、Apache Spark に基づく Azure 統合プラットフォームであり、データ エンジニアリングとデータ サイエンスのエクスペリエンスの実行と管理を可能にします。 内部ソースとオープンソースの両方の主要コンポーネントを組み合わせ、包括的なソリューションを顧客に提供します。
Fabric Runtime の主なコンポーネントは以下のとおりです。
Apache Spark - 大規模なデータ処理と分析タスクを可能にする強力なオープンソースの分散コンピューティング ライブラリです。 Apache Spark は、データ エンジニアリングとデータ サイエンスのエクスペリエンスに適した、汎用的で高パフォーマンスのプラットフォームを提供します。
Delta Lake - ACID トランザクションやその他のデータ信頼性機能を Apache Spark に提供するオープンソースのストレージ レイヤー。 Fabric Runtime 内に統合された Delta Lake は、データ処理機能を強化し、複数の同時実行操作間でデータの一貫性を確保します。
デフォルトレベルの Java/Scala、Python、R 用のパッケージ - さまざまなプログラミング言語と環境をサポートするパッケージ。 これらのパッケージは自動的にインストールおよび構成されるため、開発者はデータ処理タスクに好みのプログラミング言語を適用できます。
Microsoft Fabric Runtime は堅牢なオープンソース オペレーティング システムに基づいて構築されているので、さまざまなハードウェア構成やシステム要件との互換性が確保されます。
Azure Databricks Runtime for Machine Learning
Azure Databricks は、Apache Spark ベースの分析プラットフォームです。ワンクリックでのセットアップと効率的なワークフローを実現し、データ サイエンティスト、エンジニア、ビジネス アナリストが共同作業できる対話型ワークスペースを提供します。
Databricks Runtime for Machine Learning (Databricks Runtime ML) では、分散トレーニングに必要なライブラリをすべて備えた Databricks クラスターを開始できます。 機械学習とデータ サイエンスのための環境を提供します。 さらに、TensorFlow、PyTorch、Keras、XGBoost など、複数の一般的なライブラリが含まれています。 Horovod を使用した分散トレーニングもサポートします。
Azure HDInsight の Apache Spark
Azure HDInsight の Apache Spark は、クラウドでの Apache Spark の Microsoft の実装です。 HDInsight の Spark クラスターは、Azure Storage および Azure Data Lake Storage と互換性があるため、HDInsight Spark クラスターを使用して、Azure に保存されているデータを処理できます。
Microsoft Machine Learning Library for Apache Spark は SynapseML (旧称 MMLSpark) です。 このオープンソース ライブラリは、多数のディープ ラーニングツールとデータ サイエンス ツール、ネットワーク機能、運用レベルのパフォーマンスを Spark エコシステムに追加します。 SynapseML の特徴と機能について詳細をご確認ください。
Azure HDInsight の概要: 機能、クラスター アーキテクチャ、ユース ケースに関する基本情報と、クイックスタートおよびチュートリアルへのポインター。
SynapseML の GitHub リポジトリ: Microsoft Machine Learning Library for Apache Spark
AI 用データ ストレージ
Microsoft Fabric OneLake
Fabric の OneLake は、組織全体に合わせて調整された、統合された論理データ レイクです。 これは、すべての分析データの中央ハブとして機能し、すべての Microsoft Fabric テナントに含まれています。 Fabric の OneLake は、Data Lake Storage Gen2 の基盤上に構築されています。
Fabric の OneLake:
- 構造化ファイルの種類と非構造化ファイルの種類をサポートします。
- すべての表形式データをDelta Parquet形式で格納します。
- 既定で管理されるテナント境界内に単一のデータ レイクを提供します。
- 組織が所有権とアクセス ポリシーを配布できるように、テナント内のワークスペースの作成をサポートします。
- データにアクセスできるレイクハウスや倉庫など、さまざまなデータ項目の作成をサポートします。
詳細については、「OneLake、データ用の OneDrive」を参照してください。
Azure Data Lake Storage Gen2
Azure Data Lake Storage は、構造化されたデータと非構造化データの両方のすべてのデータを格納できる、単一の一元化されたリポジトリです。 データ レイクを使用すると、組織はさまざまなデータを 1 か所に格納して、すばやく簡単にアクセスおよび分析できます。 データ レイクでは、既存の構造にデータを適合させる必要がありません。 むしろ、データを生形式でもネイティブ形式でも格納でき、通常はファイルやバイナリ ラージ オブジェクト (BLOB) として格納できます。
Data Lake Storage Gen2 は、ファイル システムセマンティクス、ファイル レベルのセキュリティ、およびスケールを提供します。 これらの機能は BLOB ストレージに基づいて構築されているため、高可用性およびディザスター リカバリー機能を備えた低コストの階層型ストレージも利用できます。
Data Lake Storage Gen2 によって、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤となります。 Data Lake Storage Gen2 は、当初から、何百ものギガビット単位のスループットを維持しつつ、複数のペタバイト単位の情報を利用可能にする目的で設計されているため、大量のデータを簡単に管理することができます。
AI のデータ処理
Microsoft Fabric Data Factory
Data Factory を使用すると、複数のデータ ソース (データベース、データ ウェアハウス、Lakehouse、リアルタイム データなど) からデータを取り込み、準備し、変換できます。 ワークロードを設計する場合、これは DataOps の要件を満たす際にインストルメント化できるツールです。
Data Factory では、コード ソリューションとコードなし/低コード ソリューションの両方がサポートされています。
データ パイプライン クラウド規模でワークフロー機能を作成できます。 データ パイプラインを使用すると、ドラッグ アンド ドロップ インターフェイスを使用して、データフローの更新、ペタバイト サイズのデータの移動、制御フロー パイプラインの定義を行うことができるワークフローを構築できます。
データフロー は、数百のデータ ソースからデータを取り込み、300 以上のデータ変換を使用してデータを変換するためのローコード インターフェイスを提供します。
こちらもご覧ください。
Azure Databricks
Databricks Data Intelligence Platform では、feature エンジニアリングを使用して機械学習ワークフローを作成するコードを記述できます
- データ パイプラインでは、生データの取り込み、特徴テーブルの作成、モデルのトレーニング、バッチ推論の実行が行われます。 Unity Catalog 内で特徴エンジニアリングを使用してモデルのトレーニングとログを行うと、モデルは特徴量メタデータと共にパッケージ化されます。 バッチ スコアリングまたはオンライン推論にモデルを使用すると、モデルは自動的に特徴量値を取得します。 呼び出し元は、新しいデータをスコア付けするために機能を検索または結合するためのロジックを含める必要はありません。
- モデルおよび機能サービス エンドポイントは、1 回のクリックで利用でき、ミリ秒の待機時間を提供します。
- データとモデルの監視。
埋め込みの格納と取得に最適化された Mosaic AI Vector Search を使用することもできます。 埋め込みは、RAG (取得拡張生成)、レコメンデーション システム、画像認識など、類似性検索を必要とするアプリケーションにとって非常に重要です。
AI 用データ コネクタ
Azure Data Factory と Azure Synapse Analytics パイプラインでは、コピー、データ フロー、検索、メタデータの取得、および削除アクティビティを使用して、多くのデータ ストアと形式がサポートされます。 使用可能なデータ ストア コネクタ、サポートされている機能、対応する構成、および汎用 ODBC 接続オプションについては、「 Azure Data Factory と Azure Synapse Analytics コネクタの概要を参照してください。
カスタム AI
Azure Machine Learning
Azure Machine Learning は、機械学習 (ML) プロジェクトのライフサイクルを加速および管理するためのクラウド サービスです。 ML のプロフェッショナル、データ科学者、エンジニアが日常のワークフローでこれを使用して、モデルのトレーニングおよびデプロイや、機械学習の運用 (MLOps) の管理を行うことができます。
Azure Machine Learning には、次の機能があります。
アルゴリズムの選択 一部のアルゴリズムでは、データの構造や目的の結果に関して特定の想定が行われます。 ニーズに合うものが見つかれば、より役に立つ結果や正確な予測が得られたり、トレーニングが短時間で済みます。
ハイパーパラメーターの調整または最適化 は、最適なパフォーマンスをもたらすハイパーパラメーターの構成を見つけるプロセスです。 このプロセスは計算コストが高く、手動です。 ハイパーパラメーターは、モデルのトレーニング プロセスを制御できるようにする調整可能なパラメーターです。 たとえば、ニューラル ネットワークでは、隠れ層の数と各層内のノードの数を決定します。 モデルのパフォーマンスは、ハイパーパラメーターに大きく依存します。
Azure Machine Learning を使用すると、ハイパーパラメーターの調整を自動化し、実験を並列で行ってハイパーパラメーターを効率的に最適化できます。
モデルのトレーニング。 Azure Machine Learning では、アルゴリズムを繰り返し使用してモデルを作成または "教える" ことができます。 トレーニングが完了すると、これらのモデルを使用して、予測を行うことができるデータを分析できます。 トレーニング フェーズでは、個々のフィールドを識別できるように、質の高い既知のデータ セットのタグ付けが行われます。 タグ付けされたデータは、特定の予測を行うように構成されたアルゴリズムに入力されます。 完了すると、そのアルゴリズムによって、見つかったパターンを表すモデルが一連のパラメーターとして出力されます。 検証では、新しいデータがタグ付けされ、モデルのテストに使用されます。 必要に応じてアルゴリズムが調整され、場合によってはさらにトレーニングが行われます。 最後に、テスト フェーズでは、タグや事前に選択されたターゲットのない実際のデータが使用されます。 モデルの結果が正確であると仮定すると、使用できる状態と見なされ、デプロイできます。
自動機械学習 (AutoML) は、機械学習モデル開発の時間のかかる反復的なタスクを自動化するプロセスです。 すぐに運用できる ML モデルの取得に要する時間を大幅に短縮できます。 自動 ML は、プログラミングやドメインに関する広範な知識がなくても、モデル選択、ハイパーパラメーター調整、モデル トレーニング、その他のタスクを行えるよう支援します。
Azure Machine Learning で、指定されたターゲット メトリックを使用してモデルをトレーニングおよび調整する場合は、自動 ML を使用できます。 自動化された ML は、データ サイエンスの専門知識に関係なく使用して、あらゆる問題に対するエンドツーエンドの機械学習パイプラインを特定できます。
さまざまな業界の ML プロフェッショナルと開発者は、自動化された ML を使用して次のことができます。
広範なプログラミングや機械学習の知識なしで ML ソリューションを実装する
時間とリソースを節約する
データ サイエンスのベスト プラクティスを適用する
アジャイルな問題解決を提供する
"スコアリング" は "予測" とも呼ばれ、新しい入力データが与えられたトレーニング済み機械学習モデルに基づいて値を生成するプロセスです。 作成される値 (スコア) は将来の値の予測を表すことができますが、考えられるカテゴリや結果を表す場合もあります。
特徴エンジニアリングと特徴量化。 トレーニング データは行と列で構成されています。 各行は観測またはレコードで、各行の列は各レコードを表す特徴です。 通常は、予測モデルを作成するために選択されるのは、データ内のパターンを最もよく特徴付ける特徴です。
生のデータ フィールドの多くはモデルのトレーニングに直接使用できますが、多くの場合、データ内のパターンをより適切に識別する情報を提供するその他の (エンジニアリングされた) 特徴を作成する必要があります。 このプロセスは特徴エンジニアリングと呼ばれます。データのドメイン知識を活用して特徴を作成し、次にそれが、機械学習アルゴリズムの学習向上に寄与します。
Azure Machine Learning では、特徴エンジニアリングを容易にするために、データのスケーリングと正規化の手法が適用されます。 自動機械学習 (ML) の実験では、これらの手法と特徴エンジニアリングが、まとめて特徴量化と呼ばれています。
Azure OpenAI
Azure OpenAI Service では、 fine-tuning と呼ばれるプロセスを使用して、個人のデータセットに合わせて OpenAI モデルを調整できます。 このカスタマイズ手順では以下が提供されて、サービスをさらに活用できるようになります。
- プロンプト エンジニアリングからだけでは得られないより高品質な結果
- モデルの最大要求コンテキスト制限を超える多くの例を使用してトレーニングする機能。
- 短いプロンプトによるトークンの節約
- 低遅延の要求 (特に小規模なモデルを使用する場合)。
詳細については、以下を参照してください:
- ファインチューニングによってモデルをカスタマイズする
- Azure OpenAI GPT-4o-mini の微調整チュートリアル
- ベースライン OpenAI エンドツーエンド チャット リファレンス アーキテクチャ
カスタム AI 用の Azure AI サービス
Azure AI サービス には、カスタム AI モデルとアプリケーションを構築できる機能が用意されています。 このセクションでは、これらの主要な機能の概要について説明します。
カスタム音声
カスタム音声 は、Azure AI Speech サービスの機能です。 Custom Speech を使用すると、アプリケーションや製品の音声認識の正確性を評価して改善できます。 カスタム音声モデルは、リアルタイムの音声テキスト変換、音声翻訳、バッチ文字起こしに使用できます。
音声認識では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。 基本モデルは、さまざまな一般的なドメインを表す方言と発音で事前トレーニングされています。 音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。 この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。
カスタム モデルを使用すると、モデルをトレーニングするテキスト データを提供することによって、ベース モデルを拡張し、アプリケーションに特有のドメイン固有のボキャブラリの認識を向上させることができます。 また、参照文字起こしを含むオーディオ データを提供することで、アプリケーションの特定のオーディオ条件に基づいた認識を改善する際にも使用できます。
また、データがパターンに従う場合に構造化テキストを使用してモデルをトレーニングし、カスタムの発音を指定したり、カスタムの逆テキスト正規化、カスタムの書き換え、カスタムの不適切表現のフィルター処理を使用して表示テキストのフォーマットをカスタマイズしたりすることができます。
Custom Translator
Custom Translator は、 Azure AI Translator サービスの機能です。 Custom Translator を使用すると、企業、アプリ開発者、言語サービス プロバイダーは、カスタマイズされたニューラル機械翻訳 (NMT) システムを構築できます。 カスタマイズされた翻訳システムは、既存のアプリケーション、ワークフロー、および Web サイトにシームレスに統合されます。
このプラットフォームを使用すると、ユーザーは英語との間のカスタム翻訳システムを構築して公開できます。 Custom Translator では、36 を超える言語がサポートされ、NMT で利用可能な言語に直接マップされています。 完全な一覧については、 Translator 言語のサポートを参照してください。
Custom Translator には、次の機能があります。
機能 | 説明 |
---|---|
ニューラル機械翻訳テクノロジを適用 | カスタム翻訳ツールによって提供されるニューラル機械翻訳 (NMT) を適用して翻訳を改善します。 |
ビジネス用語を理解するシステムを構築 | お客様のビジネスや業界で使用されている用語が反映された対訳ドキュメントを使用して、翻訳システムをカスタマイズおよび構築できます。 |
辞書を使用してモデルを構築 | トレーニング データ セットがない場合は、辞書データのみを使用してモデルをトレーニングすることができます。 |
他の人と共同作業を行う | 他の人と作業を共有して、チームと共同作業を行います。 |
カスタム翻訳モデルにアクセス | Microsoft Translator Text API V3 を介して、既存のアプリケーション/プログラムからいつでもカスタム翻訳モデルにアクセスできます。 |
Document Intelligence カスタム モデル
Azure AI ドキュメント インテリジェンス では、高度な機械学習テクノロジを使用してドキュメントを識別し、フォームとドキュメントから情報を検出して抽出し、抽出されたデータを構造化された JSON 出力で返します。 ドキュメント インテリジェンスを使用すると、ドキュメント分析モデル、事前構築済み/事前トレーニング済み、またはトレーニング済みのスタンドアロン カスタム モデルを使用できます。
ドキュメント インテリジェンスのカスタム モデル 抽出モデルを呼び出す前にドキュメントの種類を識別する必要があるシナリオのカスタム分類モデルが含まれるようになりました。 分類モデルをカスタム抽出モデルと組み合わせて、ビジネスに固有のフォームやドキュメントからフィールドを分析および抽出できます。 スタンドアロンのカスタム抽出モデルを組み合わせて、作成済みモデルを作成できます。
カスタム AI ツール
事前構築済みの AI モデルは便利で柔軟性が高まっていますが、AI から必要なものを取得する最善の方法は、特定のニーズに合わせて調整されたモデルを構築することです。 カスタム AI モデルを作成するための主なツールには、生成 AI と従来の機械学習の 2 つがあります。
Azure Machine Learning Studio
Azure Machine Learning スタジオは、機械学習 (ML) プロジェクトのライフサイクルを加速および管理するためのクラウド サービスです。 ML の専門家、データ サイエンティスト、エンジニアは、日常的なワークフローでそれを使用して、モデルのトレーニングとデプロイ、機械学習操作 (MLOps) の管理を行うことができます。
- クラウド規模の大きな AI ワークロード用の Spark や GPU など、あらゆる種類のコンピューティングを使用して Azure Machine Learning モデルを構築し、トレーニングします。
- 自動 Azure Machine Learning (AutoML) とドラッグ アンド ドロップ UI を実行して、ロー コードの Azure Machine Learning を実現します。
- エンドツーエンドの Azure Machine LearningOps と反復可能な Azure Machine Learning パイプラインを実装します。
- バイアス検出とエラー分析には、責任ある AI ダッシュボードを使用しています。
- プロンプト エンジニアリングと LLM フローを調整および管理します。
- REST API エンドポイント、リアルタイム推論、バッチ推論を使用してモデルをデプロイします。
- ハブ (プレビュー) を使用して、コンピューティング、クォータ、セキュリティ、企業リソースへの接続をワークスペースのグループと共有しながら、IT のガバナンスを一元化します。 ハブを 1 回設定し、プロジェクトごとに Studio から直接セキュリティで保護されたワークスペースを作成します。 ハブを使用して、ML Studio と Azure AI Foundry ポータルの両方でチームの作業を管理します。
Azure AI Foundry
Azure AI Foundry
- 1 つのチームとして一緒に構築します。 Azure AI Foundry ハブは、エンタープライズ レベルのセキュリティと、事前トレーニング済みのモデル、データ、コンピューティングへの共有リソースと接続を備えたコラボレーション環境を提供します。
- 業務を整理する Azure AI Foundry プロジェクトは、状態を保存するのに役立ちます。これにより、最初のアイデアから最初のプロトタイプ、最初の運用環境のデプロイまでを反復処理できます。 また、この体験に沿って他のユーザーを気軽に共同作業に招待できます。
- GitHub、Visual Studio Code、LangChain、セマンティック カーネル、AutoGen など、希望する開発プラットフォームとフレームワークを使用します。
- 1,600 を超えるモデルから検出とベンチマークを行います。
- サーバーレス API とホストされた微調整を使用して、サービスとしてのモデル (MaaS) をプロビジョニングします。
- 複数のモデル、データ ソース、モダリティを組み込みます。
- 微調整を必要とせずに、保護されたエンタープライズ データを使用して、取得拡張生成 (RAG) を構築します。
- プロンプト エンジニアリングと大規模言語モデル (LLM) のフローを調整および管理します。
- 構成可能なフィルターとコントロールを使用してアプリと API を設計して保護します。
- 組み込みのカスタム評価フローを使用してモデルの応答を評価します。
- 環境全体で継続的な監視とガバナンスを使用して、Azure マネージド インフラストラクチャに AI イノベーションをデプロイします。
- 運用環境での安全性、品質、トークン使用量について、デプロイされたアプリを継続的に監視します。|
Azure Machine Learning Studio と Azure AI Foundry ポータルの詳細な比較については、Azure AI Foundry ポータルと Azure Machine Learning Studio
Azure AI Foundry ポータルでのプロンプト フロー
Azure AI Foundry ポータル の
- プロンプト フローは、フローの生成、カスタマイズ、または実行に使用できる機能です。
- フローは、AI ロジックを実装できる実行可能な命令セットです。 フローは、事前構築済みのキャンバス、LangChain などの複数のツールを使用して作成または実行できます。 フローの繰り返しはアセットとして保存することが可能で、フローがデプロイされると API になります。 すべてのフローがプロンプト フローであるわけではありません。むしろ、プロンプト フローはフローを作成する 1 つの方法です。
- プロンプトは、ユーザー入力、システム メッセージ、および任意の例から構成される、モデルに送信される入力のパッケージです。 ユーザー入力は、チャット ウィンドウで送信されたテキストです。 システム メッセージは、モデルの動作と機能をスコープするモデルに対する一連の命令です。
- サンプル フローは、フローがどのように機能するかを示す、シンプルな事前構築済みのオーケストレーション フローであり、カスタマイズできます。
- サンプル プロンプトは、特定のシナリオに対して定義されたプロンプトで、ライブラリからコピーしてそのまま使用したり、プロンプト デザインで変更したりすることができます。
カスタム AI コード言語
AI の中心概念は、アルゴリズムを使用してデータを分析し、有用な方法でそのデータを表す (または "スコア付けする") モデルを生成することです。 アルゴリズムは、プログラミング コードを使用して、開発者やデータ サイエンティスト (場合によっては他のアルゴリズム) によって記述されます。 現在、AI 開発の最も一般的な 2 つのプログラミング言語は Python と R です。
Python は、高度な汎用プログラミング言語です。 読みやすさを重視したシンプルで習得しやすい構文があります。 コンパイル手順はありません。 Python には大規模な標準ライブラリがありますが、モジュールやパッケージを追加する機能もサポートされています。 これにより、モジュール性が促進され、必要に応じて機能を拡張できます。 Python 用の AI および ML ライブラリ (Azure ですぐに利用できるものも多数あります) の拡大し続ける大規模なエコシステムがあります。
scikit-learn
. Python 用のオープンソースの ML ライブラリPyTorch: ディープ ラーニング、コンピューター ビジョン、自然言語処理などに使用できる、充実したエコシステムを備えたオープンソースの Python ライブラリ
TensorFlow: ML アプリケーションやニューラル ネットワークにも使用されるオープンソースの記号数学ライブラリ
チュートリアル: Python および TensorFlow を使用して Azure Functions で機械学習モデルを適用する
R は、統計的計算およびグラフィックス用の言語および環境です。 オンラインの広範なソーシャルおよびマーケティングの傾向のマッピングから、金融モデルや気候モデルの開発まで、あらゆる用途に使用できます。
Microsoft は R プログラミング言語を完全に採用しており、R 開発者が Azure でコードを実行するためのさまざまなオプションを提供しています。
Azure のカスタム AI に関する一般情報
Azure Machine Learning Python SDK ノートブック。 Azure Machine Learning Python SDK をデモで紹介するサンプル ノートブックの GitHub リポジトリ。
顧客事例
さまざまな業界が、革新的かつ刺激的な方法で AI を適用しています。 お客様のケース スタディと成功事例をいくつか次に示します。
- Volkswagen: 機械翻訳を活用して Volkswagen の各種コンテンツやテキストを 40 か国語で提供
- Azure Open AI を使用した Kry によるすべての医療
- PIMCO は、Azure AI 上に構築された AI を利用した検索プラットフォームを使用してクライアント サービスを強化します
- Legrand と Azure OpenAI Service: AI 駆動型ツールを使用したよりスマートなソリューションの実現
- C.H. 夫は、Azure AI を使用して物流業界を自動化するための数十年前の障壁を克服します
Microsoft AI に関する一般情報
Microsoft AI の詳細を確認し、関連ニュースで最新情報を常に把握してください。
次のステップ
Microsoft から入手できる人工知能開発製品については、 Microsoft AI を参照してください。
AI ソリューションを開発する方法のトレーニングについては、 AI ラーニング ハブに移動。
GitHub の Microsoft AI: Samples, reference architectures, and best practices (サンプル、リファレンス アーキテクチャ、ベスト プラクティス) には、Microsoft のオープンソース AI ベースのリポジトリが整理されており、チュートリアルや学習教材が提供されます。