Azure AI 視覺

3 分鐘

雖然您可以為電腦視覺定型自己的機器學習模型，但是電腦視覺模型的結構可能相當複雜：而且您需要大量的定型影像和計算能力來執行定型程序。

Microsoft 的 Azure AI 視覺服務提供以 Florence 基礎模型為基礎的預先建置和可自訂電腦視覺模型，並提供各種強大的功能。透過 Azure AI 視覺，您可以快速且輕鬆地建立複雜的電腦視覺解決方案；利用許多常見電腦視覺案例的「現成」功能，同時保留使用您自己的影像來建立自訂模型的能力。

Azure AI 視覺服務的 Azure 資源

若要使用 Azure AI 視覺，您必須在 Azure AI 訂用帳戶中為其建立資源。您可使用下列兩種資源類型的任一種：

Azure AI 視覺：適用於 Azure AI 視覺服務的特定資源。如果不打算使用任何其他 Azure AI 服務，或若想要分別追蹤 Azure AI 視覺資源的使用量和成本，請使用此資源類型。
Azure AI 服務：包含 Azure AI 視覺和其他許多 Azure AI 服務的一般資源；例如 Azure AI 語言、Azure AI 自訂視覺、Azure AI 翻譯工具等等。如果打算使用多個 AI 服務，且想要簡化系統管理和開發作業，請使用此資源類型。

使用 Azure AI 視覺服務分析影像

在訂用帳戶中建立適當的資源之後，即可將影像提交至 Azure AI 視覺服務，以執行各種不同的分析工作。

Azure AI 視覺支援多個影像分析功能，包括：

光學字元辨識 (OCR) - 擷取影像中的文字。
產生影像的標題和描述。
偵測影像中的數千個通用物件。
標記影像中的視覺效果功能

您可以在 Azure AI 視覺工作室中執行這些工作和其他功能。

Screenshot of Vision Studio.

光學字元辨識

Azure AI 視覺服務可使用光學字元辨識 (OCR) 功能來偵測影像中的文字。例如，請考慮下圖雜貨店中的產品營養標籤：

Diagram of a nutrition label.

Azure AI 視覺服務可以分析此影像並擷取下列文字：

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

提示

您可以在 Microsoft Learn 上的使用 Azure AI 視覺閱讀文字課程模組中進一步探索 Azure AI 視覺的 OCR 功能。

使用標題描述影像

Azure AI 視覺能夠分析影像、評估偵測到的物件，並產生人類看得懂的片語或句子，以描述影像中偵測到的內容。例如，假設有下列影像：

Diagram of a man on a skateboard.

Azure AI 視覺會針對此影像傳回下列標題：

跳上滑板的人

偵測影像中的通用物件

Azure AI 視覺可以識別影像中的數千個通用物件。例如，當用來偵測先前所討論滑板影像中的物件時，Azure AI 視覺會傳回下列預測：

滑板 (90.40%)
人物 (95.5%)

預測包含信賴分數，指出模型針對預測物件計算的機率。

除了偵測到的物件標籤及其機率之外，Azure AI 視覺也會傳回周框方塊座標，指出所偵測到物件的頂端、左側、寬度和高度。您可以使用這些座標來判斷每個物件在影像中偵測到的位置，如下所示：

Diagram of a skateboarder with bounding boxes around detected objects.

為視覺特徵加上標籤

Azure AI 視覺可以根據影像的內容來建議影像的標記。這些標記可與影像建立關聯，以作為摘要影像屬性的中繼資料；如果想要為影像及一組可用來搜尋具有特定屬性或內容的影像其關鍵字詞編製索引，則可能會很有用。

例如，針對滑板影像傳回的標記 (具有相關聯的信賴分數) 包括：

運動 (99.60%)
人物 (99.56%)
鞋 (98.05%)
溜滑板 (96.27%)
板類運動 (95.58%)
滑板裝備 (94.43%)
服飾 (94.02%)
牆 (93.81%)
滑板 (93.78%)
滑板運動員 (93.25%)
個人運動 (92.80%)
街頭特技 (90.81%)
平衡 (90.81%)
跳躍 (89.87%)
運動裝備 (88.61%)
極限運動 (88.35%)
踢翻 (88.18%)
特技 (87.27%)
滑板 (86.87%)
特技表演者 (85.83%)
膝蓋 (85.30%)
運動 (85.24%)
長板 (84.61%)
長板 (84.45%)
騎乘 (73.37%)
滑板 (67.27%)
空氣 (64.83%)
年輕 (63.29%)
戶外 (61.39%)

定型自訂模型

如果 Azure AI 視覺所提供的內建模型不符合您的需求，您可以使用服務來定型自訂模型以進行影像分類或物件偵測。 Azure AI 視覺在預先定型的基礎模型上建置自訂模型，這表示您可以使用相對較少的定型影像來定型複雜的模型。

影像分類

影像分類模型可用來預測影像的分類或類別。例如，您可以定型模型來判斷影像中顯示的水果類型，如下所示：

Apple	香蕉	柳橙

物件偵測

物件偵測模型會偵測並分類影像中的物件，並傳回周框方塊座標來找出每個物件。除了 Azure AI 視覺中的內建物件偵測功能之外，您還可以使用自己的影像來定型自訂物件偵測模型。例如，您可以使用水果的相片來定型模型，偵測影像中的多個水果，如下所示：

Diagram of multiple detected fruits in an image.

注意

如何使用 Azure AI 視覺來定型自訂模型的詳細資料已超出本課程模組的範圍。您可以在 Azure AI 視覺文件中找到自訂模型定型的相關資訊。