使用一般文件、讀取和版面配置模型
如果您要從具有無法預期結構的文件擷取文字、語言和其他資訊,可以使用讀取、一般文件或版面配置模型。
在您的民意調查公司中,客戶和合作夥伴經常會傳送規格、標書、工作聲明,以及其他具有無法預測結構的文件。 您想要知道 Azure AI 文件智慧服務是否可以從這些文件分析及擷取值。
在這裡,您將了解 Microsoft 為一般文件提供的預建模型。
使用讀取模型
Azure AI 文件智慧服務讀取模型會從文件和影像中擷取印刷和手寫的文字, 它用來提供所有其他預建模型中的文字擷取。
讀取模型也可以偵測寫入的文字行語言,並將其分類為手寫或印刷文字。
注意
讀取模型支援比手寫文字更多的印刷文字語言。 請檢查文件以查看目前支援的語言清單。
對於多頁 PDF 或 TIFF 檔案,您可以在要求中使用 pages
參數來修正要進行分析的頁面範圍。
如果您想要從沒有固定或可預測結構的文件擷取字組和字行,則適合使用讀取模型。
使用一般文件模型
一般文件模型可藉由新增機碼值組、實體、選取標記和資料表的偵測,來擴充讀取模型的功能。 模型可以從結構化、半結構化和非結構化文件擷取這些值。
一般文件模型是唯一支援實體擷取的預建模型, 可用來辨識人員、組織和日期之類的實體,並針對整份文件執行,而不只針對機碼值組執行。 此方法可確保當結構的複雜性造成模型無法擷取機碼值組時,可以改為擷取實體。 但請記住,有時單一文字片段可能會同時傳回機碼值組和實體。
您可以偵測的實體類型包括:
Person
. 人員姓名。PersonType
. 職稱或角色。Location
. 建築物、地理特徵、地緣政治實體。Organization
. 公司、政府機關、體育社團、樂隊和其他群組。Event
. 社交聚會、歷史活動、周年紀念日。Product
. 購買和銷售的物件。Skill
. 屬於人員的功能。Address
. 實體地點的郵寄地址。Phone number
. 撥打行動電話和室內電話的代碼和號碼。Email
. 電子郵件地址。URL
. 網頁位址。IP Address
. 電腦硬體的網路位址。DateTime
. 行事曆日期和一天中的時間。Quantity
. 數值度量及其單位。
使用版面配置模型
除了擷取文字外,版面配置模型還會從輸入影像或 PDF 檔案傳回選取標記和資料表。 當您需要有關文件結構的完整資訊時,這是一個理想的模型。
當您將文件數位化時,可能會呈現奇怪的角度。 資料表可以含有複雜的結構 (不一定有標題)、跨越資料行或資料列的儲存格,以及不完整的資料行或資料列。 版面配置模型可以處理所有這些困難,以擷取完整的文件結構。
例如,每個資料表儲存格可以透過以下方式擷取:
- 其內容文字。
- 週框方塊的大小和位置。
- 如果是標頭資料行的一部分。
- 索引,表示其在資料表中的資料列和資料行位置。
擷取的選取標記含有其周框方塊、信賴度指標,以及是否已選取。