選擇 Azure AI 影像和影片處理技術
Azure AI 服務可協助開發人員和組織透過開箱即用、預先建置和可自訂的 API 和模型,建立智慧、前沿、可立即投入市場且負責任的應用程式。
本文介紹提供影片和影像處理功能的 Azure AI 服務,例如視覺分析和影像生成、物件偵測、影像分類和臉部辨識。
服務
以下服務為 Azure AI 服務提供影片和影像處理功能:
-
- 使用 Azure OpenAI 透過預先訓練的生成成像模型從自然語言產生影像。 例如,按照需求生成客製化藝術作品。
- 當需要對影像執行非特定的廣泛分析時,請使用 Azure OpenAI。 例如,生成無障礙描述。
- 如果您要使用 Azure Machine Learning 中提供的開放原始碼影像生成模型,請勿使用 Azure OpenAI。
- 如果需要執行特定類型的影像處理 (例如表單擷取、臉部辨識或領域專用影像特徵偵測),請勿使用 Azure OpenAI。 對於這些情境,請使用或建立專為這些目的而設計的 AI 解決方案。
-
- 當您需要基本光學字元辨識(OCR)、影像分析或基本視訊分析來偵測動作和其他事件時,請使用 視覺服務。
- 請勿使用「視覺」服務進行大型多模態基礎模型已支援的分析。
- 請勿使用「視覺」服務來審查內容。 請改用「內容安全」服務。
-
- 當您有基本「視覺」服務的影像分析無法滿足的特定要求時,請使用該服務。 例如,它有助於識別不尋常的物件、製造缺陷或提供詳細的自訂分類。
- 如果您需要基本的物件偵測或臉部偵測,請勿使用該服務。 請改用臉部或視覺服務。
- 請勿使用該服務進行基本的視覺分析。 請改用 Azure OpenAI 中的視覺模型或 Azure Machine Learning 中的開放原始碼模型。
-
- 當您需要檢查臉部是即時的還是欺騙/偽造的,或者需要識別、分組或尋找相似的臉部時,請使用「臉部」服務。
- 請勿使用「臉部」服務來偵測臉部情緒,或對臉部執行其他進階推斷。 相反,請使用多模態語言模型來完成這些工作。
-
- 對於基本「視覺」服務無法處理的進階影片分析相關工作,請使用 Azure Video Indexer 服務。
- 請勿將 Azure Video Indexer 服務用於基本影片分析工作,例如人數統計以及動作和事件偵測。 「視覺」服務的基本影片分析對於這些工作來說更具成本效益。
Azure OpenAI
Azure OpenAI 可存取 OpenAI 的強大語言模型,包括最新一代的 GPT 模型。 這些支援視覺分析和影像生成,DALL-E 支援影像生成。
Azure AI 視覺
Azure AI 視覺提供了先進的演算法,可以根據您感興趣的視覺特徵處理影像並傳回資訊。 它提供四種服務:OCR、臉部服務、影像和空間分析。
Capabilities
下表提供了「Azure AI 視覺」服務中可用的功能清單。
功能 | 描述 |
---|---|
光學字元辨識 (OCR) | 光學字元辨識 (OCR) 服務會擷取影像中的文字。 您可以使用讀取 API,從相片和文件中擷取印刷和手寫的文字。 其使用深度學習型模型,並可搭配各種表面和背景上的文字使用。 這些包括商業文件、發票、收據、海報、名片、信件和白板。 OCR API 支援擷 取數種語言的印刷文字。 |
影像分析 | 影像分析服務從影像中提取許多視覺特徵,例如物件、臉部和自動生成的文字描述。 使用基於 Florence 基礎模型的 Image Analysis 4.0,您也可以建立自訂影像識別碼模型。 |
影片分析 | 影片分析包含影片相關功能,例如空間分析和影片擷取。 空間分析會分析影片摘要中人員的存在和移動,並產生其他系統可以加以回應的事件。 |
Azure AI 自訂視覺
Azure AI 自訂視覺服務是一項影像辨識服務,可讓您建立、部署和改進自己的影像識別碼模型。 影像識別工具可根據影像的視覺特性對影像套用標籤。 每個標籤都代表一個分類或物件。 自訂視覺可讓您指定標籤,並定型自訂模型來偵測標籤。
自訂視覺服務會使用機器學習演算法來分析影像的自訂特徵。 您提交具備和缺少所要尋找之視覺特性的影像集。 接著在提交時,您可以使用自己的標籤來標記影像。 演算法會針對這項資料進行訓練,並藉由對相同的影像進行自我測試,計算其本身的精確度。 在您定型模型之後,您可以測試、重新定型,最後在影像辨識應用程式中使用此演算法來分類影像或偵測物件。 您也可以匯出模型以供離線使用。
Capabilities
下表提供了 Azure AI 自訂視覺服務中可用的功能清單。
功能 | 描述 |
---|---|
影像分類 | 根據一組稱為特徵的輸入來預測類別。 計算每個可能類別的機率得分,並傳回一個標籤,指示該物件最可能屬於的類別。 要使用此模型,您需要由特徵及其標籤組成的資料 |
物件偵測 | 取得影像中物件的座標。 要使用此模型,您需要由特徵及其標籤組成的資料 |
使用案例
下表提供了 Azure AI 自訂視覺服務的可能使用案例清單。
使用案例 | 描述 |
---|---|
將自訂視覺與 IoT 裝置結合使用來報告視覺狀態 | 使用自訂視覺訓練帶有攝影機的裝置來偵測視覺狀態。 您可以使用匯出的 ONNX 模型,在 IoT 裝置上執行此偵測案例。 視覺狀態會描述影像的內容:空的房間或是有人的房間、空的車道或是停著卡車的車道等等。 |
識別相機照片中的標誌 | 分析照片,尋找特定的標誌。 |
Azure AI 臉部
「Azure AI 臉部」服務提供 AI 演算法,用於偵測、辨識和分析影像中的人臉。 臉部辨識軟體在許多案例中很重要,例如身分識別、無觸控存取控制,以及基於隱私的自動臉部模糊。
Capabilities
下表提供了「Azure AI 臉部」服務中可用的功能清單。
功能 | 描述 |
---|---|
臉部偵測與分析 | 辨識影像中包含臉部的區域,通常是透過傳回圍繞臉部形成矩形的邊界框座標。 |
尋找相似的臉部 | 「尋找類似項目操作」會在目標臉部和一組候選臉部之間進行臉部比對,以找出看起來與目標臉部相似的一小組臉部。 這適用於依影像執行臉部搜尋。 |
分組臉部 | 群組操作會根據相似度將一組陌生臉部分成數個較小的群組。 每個群組都是與原始臉部集合不相連的適當子集。 其也會傳回單一「messyGroup」陣列,其中包含找不到任何相似性的臉部識別碼。 |
識別 | 臉部辨識可將影像中一張臉部與安全存放庫中的一組臉部進行「一對多」比對。 會根據其臉部資料與查詢臉部的相符程度來傳回相符的候選項目。 |
臉部辨識作業 | 現代企業和應用程式可以使用臉部辨識技術,包括臉部驗證 (「一對一」比對) 和臉部識別 (「一對多」比對) 來確認使用者是否為其宣稱之人。 |
活體偵測 | 活體偵測是一種反欺騙功能,可檢查使用者是否實際出現在攝影機前。 其用來防止使用列印的相片、錄製的影片或使用者臉部的 3D 遮罩進行詐騙攻擊。 |
使用案例
下表提供了「Azure AI 臉部」服務的可能使用案例清單。
使用案例 | 描述 |
---|---|
驗證使用者識別。 | 根據可信的面部影像驗證一個人。 此驗證可用於授予對數位或實體財產的存取權。 在大部分情況下,受信任的臉部影像可能來自政府核發的身份證,例如護照或駕照,或者可能來自親自拍攝的註冊照片。 在驗證期間,活躍度偵測可以在驗證影像是否來自真實的人,而不是列印相片或面具上發揮重要的功能。 |
臉部修訂 | 對影片中錄製的偵測到的臉部進行編輯或模糊處理,以保護他們的隱私。 |
非接觸式存取控制。 | 與卡片或票等方法相比,選擇加入臉部辨識可以增強存取控制體驗,同時降低實體媒體共用、遺失或竊盜帶來的衛生和安全性風險。 臉部辨識可協助簽入程序在機場、運動場、主題公園、大樓、在辦公室的接待資訊亭、醫院、健身房、俱樂部或學校的過程中進行簽入 (並有一個人在旁協助)。 |
Azure AI Video Indexer
Azure AI Video Indexer 是一個雲端應用程式,屬於 Azure AI 服務的一部分,以 Azure AI 服務 (例如臉部、翻譯工具、Azure AI 視覺和語音) 為基礎建構。 其可讓您使用 Azure AI Video Indexer 的影片與音訊模型,從影片中擷取見解。
Capabilities
下表提供了 Azure AI Video Indexer 服務中可用的一些功能的清單。
功能 | 描述 |
---|---|
多語言語音辨識與轉錄 | 從音訊中辨識不同片段中的口說語言。 其會傳送所要轉錄媒體檔案的每個區段,然後將轉錄結果回頭合併為一個整合起來的轉錄。 |
臉部偵測 | 偵測並分組影片中出現的臉。 |
名人識別 | 識別超過 100 萬名人,例如全球領導人、演員、藝術家、運動員、研究人員、商業和技術領導者。 有關這些名人的資料也可以在各種網站 (IMDB、維基百科等) 上找到。 |
帳戶型臉部識別 | 為特定帳戶訓練模型。 接著,其可根據已定型的模型來辨識影片中的人臉。 |
觀察到的人員追蹤 (預覽版) | 偵測影片中觀察到的人物,並提供諸如人物在影片畫面中的位置 (使用邊界框),以及人物出現時的確切時間戳記 (開始、結束) 和信賴度等資訊。 |
音訊轉錄 | 將語音轉換為超過 50 種語言的文字,並允許擴充。 |
語言偵測 | 識別主要口說語言。 |
降噪 | 清除電話音訊或吵雜的錄音 (根據 Skype 篩選器)。 |
翻譯 | F將音訊指令碼翻譯成多種不同的語言。 |
若要查看 Azure AI Video Indexer 服務的更多功能,請參閱「Azure AI Video Indexer 文件」。
使用案例
下表提供了 Azure AI Video Indexer 服務的可能使用案例清單。
使用案例 | 描述 |
---|---|
深度搜尋 | 使用從影片中提取的見解來增強整個影片庫的搜尋體驗。 例如,為說出口的話或臉部編製索引,以啟用找出影片中特定片段的搜尋體驗,例如影片中的某人說了某個字,或兩個人一起出現在影片中的時候。 以這類影片深入解析為基礎的搜尋服務適用於新聞機構、教育機構、廣播公司、娛樂事業擁有者、企業 LOB 應用程式,以及通常有影片庫讓使用者搜尋的任何產業。 |
內容創作 | 根據 Azure AI Video Indexer 從內容中提取的見解建立預告片、精彩片段、社群媒體內容或新聞剪輯。 人員和標籤外觀的主要畫面格、場景標記和時間戳記,都可讓建立流程更為順暢且更容易,讓您在建立內容時可輕鬆取得所需的影片部分。 |
協助工具選項 | 無論是想讓內容可供身心障礙者使用,還是希望使用不同語言將內容分發到不同區域,都可以使用 Azure AI Video Indexer 提供的多語言轉錄和翻譯功能。 |
創造營收 | Azure AI Video Indexer 可以幫助提高影片的價值。 例如,依賴廣告收益的產業 (新聞媒體、社交媒體等) 可以使用所擷取的深入解析作為廣告伺服器的額外訊號,來提供更為相關的廣告。 |
內容仲裁 | 使用文字和視覺的內容仲裁模型,讓您的使用者不會收到不適當的內容,並驗證您發佈的內容是否符合組織的價值觀。 您可以自動封鎖特定影片,或針對該內容向使用者發出警示。 |
建議 | 影片深入解析可透過向使用者突出顯示相關影片時刻來提高使用者參與度。 藉由使用額外的中繼資料標記每個影片,您可以向使用者推薦最相關的影片,並傳送符合他們需求的影片精華部分。 |
下一步
- 什麼是 Azure AI 視覺?
- 學習路徑:使用 Azure AI 服務開發自然語言處理解決方案
- 學習路徑:Azure AI 服務使用者入門
- 學習路徑:Microsoft Azure AI 基礎知識:電腦視覺
- 學習路徑:使用「Azure AI 視覺」建立電腦視覺解決方案
- 學習路徑:使用 Azure IoT Edge 和 Azure AI 服務建立影像辨識解決方案