共用方式為


Microsoft Syntex 中的說明類型

適用於: ✓ 非結構化文件處理

說明可用來協助定義您想要在 Microsoft Syntex 中非結構化文件處理模型中標記和擷取的資訊。 建立說明時,您必須選取說明類型。 本文可協助您了解不同的說明類型及其使用方式。

[建立說明] 窗格的螢幕擷取畫面顯示出三種說明類型。

以下為可用的說明類型:

  • 片語清單:您可以在要摘錄的文件或資訊中使用的單字、片語、數字或其他字元的清單。 例如,文字字串[轉診醫生]位於所有您要識別的「醫學轉診」文件中。 或者來自您要識別的所有「醫學轉診」文件中,轉診醫生的電話號碼

  • 規則運算式:使用模式比對的標記法來尋找特定字元模式。 例如,您可以使用規則運算式來尋找一組文件中的 電子郵件地址 模式的所有實例。

  • 鄰近: 描述彼此之間的說明有多接近。 例如, 街道編號 片語清單會在 街道名稱 片語清單之前, (您稍後會在本文中瞭解令牌) 。 使用鄰近類型時,要求在您的模型中至少有兩個說明,否則將停用該選項。

片語清單

片語清單說明類型通常是用來透過您的模型來識別和分類文件。 如[轉診醫生]標籤範例中所述,它是在您要識別的文件中一致的單字、片語、數字或字元的字串。

雖然這並非一項要求,但如果您要擷取的片語位於您文件中的一致位置,則使用您的說明可以更成功。 例如,[轉診醫生]標籤可能會一致地位於文件的第一個段落。 您也可以使用 [設定片語在文件中出現的位置] 的進階設定來選取片語所在的特定區域,尤其是當片語可能出現在文件中多個位置時。

如果識別標籤時要求區分大小寫,使用片語清單類型可讓您在說明中加以指定,方法是選取 [僅完全符合大寫] 核取方塊。

區分大小寫。

片語類型在建立說明時會特別有用,該說明可以識別和摘錄不同格式的資訊,例如日期、電話號碼和信用卡號。 例如,日期可以以許多不同的格式顯示 (1/1/2020、1-1-2020、01/01/20、01/01/2020 或 Jan 1,2020)。 定義片語清單可讓您的說明更有效率,方法是從您想要識別及摘錄的資料中,擷取任何可能的變化。

針對[電話號碼]範例,則會從模型識別的所有「醫學轉診」文件中,摘錄每位轉診醫生的電話號碼。 建立說明時,輸入電話號碼可能會在文件中顯示的不同格式,以便您擷取可能的變化。

電話號碼片語模式。

在這個範例中,請在 [進階設定] 選取 [從 0 至 9 的任何數字] 核取方塊,以將片語清單中使用的每個「0」值,識別為 0 到 9 之間的任何數字。

從 0 至 9 的任何數字。

同樣地,如果您建立包含文字字元的片語清單,請選取[從 a 至 z 的任何字母] 核取方塊,以將片語清單中使用的每個「a」字元,識別為「a」到「z」的任何字元。

例如,如果您建立日期片語清單,而您想要確認可辨識日期格式 Jan 1, 2020,您必須:

  • aaa 0, 0000aaa 00, 0000 新增至您的片語清單。
  • 確認您也已選取 [從 a-z 的任何字母]

從 a-z 的任何字母。

如果您在片語清單中有大小寫需求,則可以選取 [僅完全符合大寫] 核取方塊。 針對日期範例,如果您需要月份的第一個字母為大寫,您必須:

  • Aaa 0, 0000Aaa 00, 0000 新增至您的片語清單。
  • 確認也選取 [僅完全符合大寫]

僅完全符合大寫。

注意事項

不要手動建立片語清單說明,而是使用說明文件庫 來使用針對常見片語清單的片語清單範本,例如日期電話號碼信用卡號碼

規則運算式

規則運算式說明類型可讓您建立模式,協助尋找及識別文件中特定的文字字串。 您可以使用規則運算式,快速剖析大量的文字,以達成下列目標:

  • 尋找特定字元模式。
  • 驗證文字以確保其符合預先定義的模式 (例如電子郵件地址)。
  • 解壓縮、編輯、取代或刪除文字子字串。

規則運算式類型在建立說明時會特別有用,該說明可以識別和摘錄類似格式的資訊,例如電子郵件地址、銀行帳戶號碼,或 URL。 例如,電子郵件位址,例如 megan@contoso.com,會以特定模式顯示 (“megan” 是第一個部分,而 “com” 是) 的最後一個部分。

電子郵件地址的規則運算式是:[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,6}

此運算式包含五個部分,順序為:

  1. 任何下列字元數:

    a. 從 a 到 z 的字母

    b. 從 0-9 的數字

    c. 句點、底線、百分比或虛線

  2. @ 符號

  3. 任何與電子郵件地址的第一個部分相同的字元數

  4. 句點

  5. 兩到六個字母

若要新增規則運算式說明類型:

  1. [建立說明] 窗格的 [說明類型]下方,選取 [規則運算式]

    顯示已選取 [規則運算式] 的 [建立說明] 窗格的螢幕擷取畫面。

  2. 您可以在 [規則運算式] 文字方塊中輸入解釋,或者選取 [從範本中新增規則運算式]

    當您使用範本新增規則運算式時,它會自動將名稱和規則運算式新增到文字方塊。 例如,如果您選擇 Email 位址範本,則會填入 [建立說明] 面板。

    顯示已套用 [電子郵件範本] 的 [建立說明] 窗格的螢幕擷取畫面。

限制

下表顯示目前無法在正則表示式模式中使用的內嵌字元選項。

選項 狀態 目前功能
區分大小寫 目前不支援。 執行的所有符合項目不區分大小寫。
線條錨點 目前不支援。 無法在必須相符的字串中指定特定位置。

鄰近

鄰近說明類型可協助您的模型識別資料,方法是透過定義另一個資料片段與其相似程度。 例如,在您的模型中,您定義了兩個說明,可標記客戶的[街道地址號碼][電話號碼]

請注意,客戶的電話號碼永遠都出現在街道地址的前面。

Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034

使用鄰近說明來定義電話號碼說明的距離,以便更好地識別文件中的街道地址號碼。

鄰近說明。

注意事項

正則表達式目前無法搭配鄰近說明類型使用。

什麼是權杖?

若要使用鄰近說明類型,您必須瞭解權杖是什麼。 權杖的編號是鄰近說明測量一個說明與另一個說明之間距離的方式。 權杖是字母和數字的連續範圍 (不含空格或標點符號)。

下表顯示如何判斷片語中權杖數目的範例。

片語 權杖數目 說明
Dog 1 沒有標點符號或空格的單字。
RMT33W 1 記錄定位器號碼。 其中可能含有數字和字母,但沒有標點符號。
425-555-5555 5 電話號碼。 每個標點符號都是單一權杖,因此 425-555-5555 會是 5 個權杖:
425
-
555
-
5555
https://luis.ai 7 https
:
/
/
luis
.
ai

設定鄰近說明類型

針對此範例,請設定鄰近設定,以定義來自[街道地址號碼]說明的[電話號碼]說明之權杖數目的範圍。 請注意,最小範圍為「0」,因為電話號碼和街道地址號碼之間沒有權杖。

但範例文件中的部分電話號碼會附加 (行動裝置)

Nestor Wilke
111-111-1111 (行動電話)
One Microsoft Way
Redmond, WA 98034

(行動裝置) 中有三個權杖:

片語 權杖計數
( 1
行動電話 2
) 3

將鄰近設定設為範圍 0 到 3。

鄰近範例。

設定文件中出現片語的位置

當您建立說明時,系統預設在整份文件中搜尋您要摘錄的片語。 不過,您可以使用 [這些片語出現的位置] 進階設定,協助隔離文件中片語出現的特定位置。 當片語的類似實例可能出現在文件中的其他位置,而您想要確認已正確選取時,這項設定便是很實用的方法。

參照我們的醫學轉診文件範例,本文件第一段每次都提及「轉診醫生」。 使用 [這些片語出現的位置] 設定,在這個範例中,您可以設定您的說明,只在文件的開頭一節,或其他任何可能出現的位置搜尋此標籤。

這些片語出現的位置設定。

此設定有以下三個選項供您選擇:

  • 檔案中的任何位置:搜尋整份文件中的片語。

  • 檔案開頭:會從片語位置的開頭搜尋檔。

    檔案開頭。

    在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 [結束位置] 值會更新,以顯示所選區域包含的令牌數目。 您可以更新 [結束位置] 值,並調整選取的區域。

    [檔案位置的開頭] 方塊。

  • 檔案結尾:從結尾到片語位置搜尋文件。

    檔案結尾。

    在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 [ 開始位置 ] 值會更新,以顯示所選區域包含的令牌數目。 您可以更新 [起始位置] 值,並調整選取的區域。

    [檔案結尾] 方塊。

  • 自訂範圍:在文件的指定範圍内搜尋片語的位置。

    自訂範圍。

    在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 在此設定中,您必須選取 [開始] ,以及 [結束] 位置。 這些值代表從文件開頭算起的的語彙基元數目。 當您可以手動輸入這些值,在檢視器中手動調整選取方塊就變得更容易。

設定說明時的考慮

定型分類器時,請記住一些會產生更可預測結果的事項:

  • 您用來定型的檔越多,分類器就越精確。 可能的話,請使用五份以上的好檔,並使用一份以上的不正確的檔。 如果您使用的文件庫中有數種不同的檔類型,則每種類型的數個都會產生更可預測的結果。

  • 標記檔在定型程式中扮演重要角色。 它們會與用來定型模型的說明一起使用。 當您使用沒有太多內容的文件來訓練分類器時,可能會看到一些異常狀況。 說明可能與檔中的任何內容不符,但因為該說明標示為「良好」檔,所以您可能會在定型期間看到它相符。

  • 建立說明時,它會使用 OR 邏輯搭配標籤來判斷它是否相符。 使用 AND 邏輯的正規表示式可能更容易預測。 以下是範例正則表示式,可在實際檔上用來作為定型檔。 請注意,以紅色醒目提示的文字是您要尋找的片語或片語。

    (?=.*network provider)(?=.*participating providers).*
  • 標籤和說明一起運作,並用於定型模型。 它不是一系列的規則,可以取消結合且精確的權數或預測套用至每個已設定的變數。 定型中使用的文件變化愈大,將會在模型中提供更精確的精確度。

另請參閱

在 Microsoft Syntex 中使用說明範本