使用一般文件、讀取和版面配置模型

已完成

如果您要從具有無法預期結構的文件擷取文字、語言和其他資訊,可以使用讀取、一般文件或版面配置模型。

在您的民意調查公司中,客戶和合作夥伴經常會傳送規格、標書、工作聲明,以及其他具有無法預測結構的文件。 您想要知道 Azure AI 文件智慧服務是否可以從這些文件分析及擷取值。

在這裡,您將了解 Microsoft 為一般文件提供的預建模型。

使用讀取模型

Azure AI 文件智慧服務讀取模型會從文件和影像中擷取印刷和手寫的文字, 它用來提供所有其他預建模型中的文字擷取。

讀取模型也可以偵測寫入的文字行語言,並將其分類為手寫或印刷文字。

注意

讀取模型支援比手寫文字更多的印刷文字語言。 請檢查文件以查看目前支援的語言清單。

對於多頁 PDF 或 TIFF 檔案,您可以在要求中使用 pages 參數來修正要進行分析的頁面範圍。

如果您想要從沒有固定或可預測結構的文件擷取字組和字行,則適合使用讀取模型。

使用一般文件模型

一般文件模型可藉由新增機碼值組、實體、選取標記和資料表的偵測,來擴充讀取模型的功能。 模型可以從結構化、半結構化和非結構化文件擷取這些值。

一般文件模型是唯一支援實體擷取的預建模型, 可用來辨識人員、組織和日期之類的實體,並針對整份文件執行,而不只針對機碼值組執行。 此方法可確保當結構的複雜性造成模型無法擷取機碼值組時,可以改為擷取實體。 但請記住,有時單一文字片段可能會同時傳回機碼值組和實體。

您可以偵測的實體類型包括:

  • Person. 人員姓名。
  • PersonType. 職稱或角色。
  • Location. 建築物、地理特徵、地緣政治實體。
  • Organization. 公司、政府機關、體育社團、樂隊和其他群組。
  • Event. 社交聚會、歷史活動、周年紀念日。
  • Product. 購買和銷售的物件。
  • Skill. 屬於人員的功能。
  • Address. 實體地點的郵寄地址。
  • Phone number. 撥打行動電話和室內電話的代碼和號碼。
  • Email. 電子郵件地址。
  • URL. 網頁位址。
  • IP Address. 電腦硬體的網路位址。
  • DateTime. 行事曆日期和一天中的時間。
  • Quantity. 數值度量及其單位。

使用版面配置模型

除了擷取文字外,版面配置模型還會從輸入影像或 PDF 檔案傳回選取標記和資料表。 當您需要有關文件結構的完整資訊時,這是一個理想的模型。

當您將文件數位化時,可能會呈現奇怪的角度。 資料表可以含有複雜的結構 (不一定有標題)、跨越資料行或資料列的儲存格,以及不完整的資料行或資料列。 版面配置模型可以處理所有這些困難,以擷取完整的文件結構。

例如,每個資料表儲存格可以透過以下方式擷取:

  • 其內容文字。
  • 週框方塊的大小和位置。
  • 如果是標頭資料行的一部分。
  • 索引,表示其在資料表中的資料列和資料行位置。

擷取的選取標記含有其周框方塊、信賴度指標,以及是否已選取。

深入了解