Vision API サービスの種類
Azure AI Vision は、Azure AI サービスで最も広範なカテゴリの 1 つです。 API を使用すると、機械学習に関する知識が限られている場合でも、画像分析、顔検出、空間分析、光学式文字認識 (OCR) などの視覚機能をアプリケーションに組み込むことができます。
サービス
Vision API の広範なカテゴリのいくつかを次に示します。
- Computer Vision は、関心のある視覚的特徴に基づいて、画像を処理して情報を返す高度なアルゴリズムを提供します。 OCR、Face サービス、画像分析、空間分析の 4 つのサービスを提供します。 ドキュメント インテリジェンスは OCR の高度なバージョンです。
- Custom Vision は、独自の画像識別モデルを構築、デプロイ、改良するために使用できる画像認識サービスです。
- Face サービスは、画像に含まれている人の顔を検出、認識、分析する AI アルゴリズムを提供します。
サービスを選ぶ方法
次のフローチャートは、特定のユース ケースに対する Vision サービスを選択するのに役立ちます。
一般的なユース ケース
Computer Vision
- 画像を説明します。 画像を分析し、検出されたオブジェクトを評価し、人間が判読可能なように画像を説明する語句や文を生成します。
- 視覚的特徴にタグ付けを行います。 何千もの認識可能なオブジェクトのセットに基づくタグを適用します。
- オブジェクトを分類する。 内容に基づいて画像を分類します。
- OCR を実装します。 画像内の印刷されたテキストと手書きのテキストを検出します。
- 画像の種類を検出します。 たとえば、クリップ アートの画像や線画を識別します。
- 配色を検出します。 画像内の主要な前景、背景、および主要な色とアクセント色を識別します。
- サムネイルを生成します。 小さなバージョンの画像を作成します。
- コンテンツを調整します。 アダルト コンテンツを含んでいたり、不愉快なシーンを描写している画像を検出します。
- ドメイン固有のコンテンツを検出します。 次の 2 つの特殊なドメイン モデルを使用します。
- 有名人。 スポーツ、エンターテイメント、ビジネスのドメインの何千人ものよく知られた有名人を識別します。
- ランドマーク。 タージマハールや自由の女神のような有名なランドマークを識別します。
- 物体を検出します。 一般的なオブジェクトを識別し、境界ボックスの座標を返します。
- ブランドを検出します。 世界中で認識されている何千もの製品ロゴの既存のデータベースからロゴを識別します。
- 顔を検出します。 画像内の人間の顔を検出し、分析します。 被写体の年齢を判断して、顔の位置を特定する境界ボックスを返すことができます。 Computer Vision サービスの顔分析機能は、専用の Face サービスによって提供される機能のサブセットです。
Custom Vision
- 画像を分類します。 "特徴量" と呼ばれる一連の入力に基づいて、カテゴリや "クラス" を予測します。 考えられる各クラスの確率スコアを計算し、オブジェクトが属している可能性が最も高いクラスを示すラベルを返します。 このモデルを作成するには、特徴量とそのラベルで構成されるデータが必要です。
- 物体を検出します。 画像内のオブジェクトの座標を取得します。 このモデルを作成するには、特徴量とそのラベルで構成されるデータが必要です。
Face サービス
- 顔を検出します。 一般的には顔周りに長方形を形づくる境界ボックスを返すことで、人間の顔を含む画像の領域を識別します。
- 顔を分析します。 顔のランドマーク (鼻、目、眉毛、唇など) などの情報を返します。 これらの顔のランドマークを特徴量として使用して、認識された年齢や感情的な状態など、人に関する情報を推測できる機械学習モデルをトレーニングできます。
- 顔を認識します。 顔の特徴から既知の個人を識別するために機械学習モデルをトレーニングします。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパルの作成者:
- Ashish Chauhan | シニア クラウド ソリューション アーキテクト
- Kruti Mehta | Azure シニア Fast-Track エンジニア
その他の共同作成者:
- Mick Alberts | テクニカル ライター
- Brandon Cowen | シニア クラウド ソリューション アーキテクト
- Oscar Shimabukuro | シニア クラウド ソリューション アーキテクト
- Manjit Singh | ソフトウェア エンジニア
- Christina Skarpathiotaki | シニア クラウド ソリューション アーキテクト
- Nathan Widdup | Azure シニア Fast-Track エンジニア
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。
次のステップ
- Computer Vision とは
- Vision API のブログ記事
- ラーニング パス: Azure Cognitive Services を使用して言語理解ソリューションを作成する
- ラーニング パス: Azure Cognitive Services のプロビジョニングと管理
- ラーニング パス: コンピューター ビジョンを調べる
- ラーニング パス: Azure Cognitive Services を使用してコンピューター ビジョン ソリューションを作成する
- Azure IoT Edge と Azure Cognitive Services を使用して画像認識ソリューションを作成する