了解預建模型

已完成

AAzure AI 文件智慧服務的預建模型可讓您從常用的表單和文件中擷取資料,而不需要定型您自己的模型。

在您的意見調查公司中,每個問卷專案都有專用的意見調查表單,但您也可以使用發票和收據來記錄財務交易,且您還有許多非結構化文件。 您想要知道需要多少工作,才能從這些文件擷取名稱、位址、數量和其他資訊。

在這裡,您將了解預建模型如何協助您分析常見的文件類型。

什麼是預建模型?

AI 解決方案使用的一般方法是提供大量範例資料,然後嘗試不同的資料特徵、參數和統計處理來定型最佳化模型。 預建模型的組合最適合用來預測您感興趣且可用來建構定型模型的值,您還可以使用這個組合來預測新資料的值。

企業每天使用的許多表單都是一些常見的類型。 例如,大部分的企業都會發出或接收發票和收據。 任何聘任美國員工的企業都必須使用 W-2 所得稅申報書。 此外,您通常會更多想要從中擷取資料的一般文件。 在這些情況下,Microsoft 提供預建模型來提供協助。 預建模型已針對大量目標表單類型進行定型訓練。

如果您想要使用文件智慧,從其中一個常見的表單或文件擷取資料,您可以選擇使用預建模型,而不需要自行定型。 由於 Microsoft 已使用大量語料庫範例來定型這些模型,因此您可以預期模型在處理預定的表單時產生精確且可靠的結果。

數個預建模型會依據特定表單類型進行定型訓練:

  • 發票模型。 從發票中擷取通用欄位及其值。
  • 收據模型。 從收據中擷取通用欄位及其值。
  • 美國稅務模型。 可從 W-2、1098、1099 和 1040 等表格擷取的統一美國稅務模型。
  • 身分證明文件模型。 從美國駕照、歐盟身分證和駕照,以及國際護照擷取通用欄位及其值。
  • 名片模型。 從名片中擷取通用欄位及其值。
  • 健康保險卡模式。 從健康保險卡擷取一般欄位及其值。
  • 結婚證書。 從結婚證書中擷取資訊。
  • 信用卡/轉帳卡模型。 從銀行卡擷取一般資訊。
  • 抵押貸款文件。 從抵押貸款最終過戶條款文件、統一住宅貸款申請 (1003 表格)、價值評估 (1004 表格)、就業核實 (1005 表格) 以及統一承銷與轉換摘要 (1008 表格) 中擷取資訊。
  • 銀行對帳單模型。 從銀行對帳單中擷取帳戶資訊,包括開始和結束餘額、交易詳細資料。
  • 薪資單模型。 擷取工資、時數、扣除額、凈工資和其他常見的薪資單欄位。
  • 支票模型。 從支票中擷取付款人、金額、日期和其他相關資訊。

其他模型的設計目的是從結構較不特定的文件中擷取值:

  • 讀取模型。 從文件擷取文字和語言。
  • 一般文件模型。 從文件擷取文字、索引鍵、值、實體和選取標記。
  • 版面配置模型。 從文件擷取文字和結構資訊。

預建模型的功能

預建模型的設計主旨在於從使用者提交的文件和表單中擷取不同的資料類型。 若要針對您的需求選擇適合的模型,您必須了解這些功能:

  • 文字擷取。 所有預建模型都會從手寫和印刷文字中擷取文字和字組行。
  • 索引鍵值組。 在文件中識別標籤或索引鍵及其回應或值的一段文字,經由許多模型擷取後作為索引鍵/值組。 例如,一般索引鍵可能是重量,其值可能是 31 公斤
  • 實體。 文字中包含更複雜的一般資料結構,可當成實體擷取。 實體類型包括人員、位置和日期。
  • 選取標記。 一段文字,指出某些模型可以當成選取標記擷取的選項。 這些標記包括選項按鈕和核取方塊。
  • 資料表。 許多模型都可以擷取掃描表單的資料表,其中包含儲存格中包含的資料、資料行和資料列的數目,以及資料行和資料列標題。 支援資料表使用合併儲存格。
  • 欄位。 針對特定表單類型定型的模型可識別一組固定欄位的值。 例如,發票模型包含 CustomerNameInvoiceTotal 欄位。

也請考慮預建模型是專為一般文件和表單類型所設計及定型。 如果您有經常使用的產業特定或專用表單類型,可以使用自訂模型來取得更可靠且可預測的結果。 不過,自訂模型需要時間開發,因為您必須投資時間和資源,利用各種範例表單進行定型訓練,然後才能使用自訂模型。 您提供用於定型的範例表單數量愈大,模型在預測表單內容上的精確度就越高。

輸入需求

預建模型非常有彈性,但您可以提交每個文件的清楚相片或高品質掃描,讓模型得以傳回精確且實用的結果。

當您提交表單進行分析時,也必須符合這些需求:

  • 檔案必須是 JPEG、PNG、BMP、TIFF 或 PDF 格式。 此外,讀取模型可以接受 Microsoft Office 檔案。
  • 標準層的檔案必須小於 500 MB,免費層則必須小於 4 MB。
  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
  • PDF 文件的維度必須小於 17 x 17 英吋或 A3 紙張大小。
  • PDF 文件不得使用密碼保護。

注意

如果可以,請提交文字內嵌的 PDF 檔案,因為可以避免字元辨識發生錯誤。

PDF 和 TIFF 檔案的頁數不限,但在標準層中,只會分析前 2000 頁。 在免費層中,則只會分析前兩頁。

試用 Azure AI 文件智慧服務工作室的預建模型

Azure AI 文件智慧服務被設計為一種 Web 服務,您可以在自訂應用程式中使用程式碼進行呼叫。 不過,探索模型及其如何在視覺上搭配您的表單表現,通常很有幫助。 您可以使用 Azure AI 文件智慧服務工作室來執行這類實驗,並使用體驗來協助設計和撰寫程式碼。

您可以在 Azure AI 文件智慧服務工作室中任選預建模型。 Microsoft 提供一些範例文件來搭配使用每個模型,或者您也可以新增自己的文件並加以分析。

螢幕擷取畫面:顯示如何使用 Azure AI 文件智慧服務工作室來探索名片預建模型。

使用 API 呼叫預建模型

因為 Azure AI 文件智慧服務會實作 RESTful Web 服務,所以您可以在任何支援的語言中使用 Web 服務呼叫。 不過,當您使用 Microsoft Azure AI 文件智慧服務 API 時,安全性和工作階段管理會經過簡化,且您需要撰寫程式碼會減少。

API 適用於:

  • C# 和其他 .NET 語言。
  • Java。
  • Python
  • JavaScript。

每當您想要呼叫 Azure AI 文件智慧服務時,必須從連線和驗證 Azure 訂用帳戶中的服務開始。 若要建立該連線,您需要:

  • 服務端點。 此值是發佈服務的 URL。
  • API 金鑰。 此值是授與存取權的唯一金鑰。

您可以從 Azure 入口網站取得這兩個值。

由於服務可能需要幾秒鐘的時間才能回應,因此最好使用非同步呼叫來提交表單,然後從分析中取得結果:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document(
        "prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
    ))
result: AnalyzeResult = poller.result()

您可以從這些結果中擷取的詳細資料取決於您所使用的模型。

深入了解