了解索引處理序
索引處理序的運作方式是為每個已編製索引的實體,建立文件。 在編製索引期間,擴充管線會反覆地建置文件,將資料來源的中繼資料與認知技能所擷取的擴充欄位合併。 您可以將每個已編製過索引的文件視為 JSON 結構,一開始由文件所組成,而其索引欄位已對應至直接擷取自來源資料的欄位,如下所示:
- 文件
- metadata_storage_name
- metadata_author
- 內容
當資料來源中的文件包含影像時,您可以設定索引器來擷取影像資料,並將每個影像置於 normalized_images 集合中,如下所示:
- 文件
- metadata_storage_name
- metadata_author
- 內容
- normalized_images
- image0
- 影像1
以這種方式標準化影像資料,您即可使用影像集合作為從影像資料擷取資訊的技能輸入。
每項技能都會將欄位新增至文件,例如,偵測撰寫文件所用語言的技能,可能會將其輸出儲存在 [語言] 欄位中,如下所示:
- 文件
- metadata_storage_name
- metadata_author
- 內容
- normalized_images
- image0
- 影像1
- language
本文件的結構為階層方式,技能適用於該階層內特定的內容,讓您可以為文件特定層級的每個項目執行技能。 例如,可以針對標準化影像集合中的每個影像,執行光學字元辨識 (OCR) 技能,以擷取其包含的所有文字:
- 文件
- metadata_storage_name
- metadata_author
- 內容
- normalized_images
- image0
- Text
- 影像1
- Text
- image0
- language
每項技能的輸出欄位都可用於作為管線中其他技能的輸入,接著將「這些技能」的輸出儲存於文件結構中。 例如,我們可以使用合併技能,來合併原始文字內容與從每個影像中所擷取出的文字,建立新的 merged_content 欄位,內含文件中的所有文字 (包括影像文字)。
- 文件
- metadata_storage_name
- metadata_author
- 內容
- normalized_images
- image0
- Text
- 影像1
- Text
- image0
- language
- merged_content
索引器會使用下列兩種方式之一,將管線結尾最終文件結構內的欄位,對應至索引欄位:
- 直接擷取自來源資料的欄位,都會對應至索引欄位。 這些對應可能很隱晦 (欄位會自動對應至索引中具有相同名稱的欄位) 或很明確 (將會定義對應,將來源欄位與索引欄位相匹配,通常會將欄位重新命名為更實用的欄位,或是在對應時,對資料套用函式)。
- 技能集中技能的輸出欄位,會明確地從其在輸出中的階層式位置,對應至索引中的目標欄位。