共用方式為


快速入門:在 Azure 入口網站中建立技能集

在本快速入門中,您將瞭解 Azure AI 搜尋服務中的技能集如何新增光學字元辨識(OCR)、影像分析、語言偵測、文字翻譯和實體辨識,以在搜尋索引中產生文字可搜尋的內容。

您可以在 Azure 入口網站中執行匯入資料精靈,以套用在編製索引期間建立和轉換文字內容的技能。 輸入是原始資料,通常是 Azure 儲存體中的 Blob。 輸出是可搜尋的索引,其中包含 AI 產生的影像文字、標題和實體。 產生的內容可使用搜尋總管在入口網站中查詢。

若要進行準備,請先建立一些資源並上傳範例檔案,再執行精靈。

必要條件

注意

本快速入門使用 Azure AI 服務進行 AI 轉換。 由於工作負載很小,因此 Azure AI 服務會在幕後連線以進行免費處理,最多 20 筆交易。 您可以完成此練習,而不需要建立 Azure AI 多服務資源。

設定您的資料

在下列步驟中,於 Azure 儲存體中設定 Blob 容器,以儲存異質內容檔案。

  1. 下載範例資料,其中有不同類型的小型檔案集。

  2. 使用您的 Azure 帳戶登入 Azure 入口網站

  3. 建立 Azure 儲存體帳戶,或尋找現有帳戶

    • 選擇與 Azure AI 搜尋服務相同的區域,以避免產生頻寬費用。

    • 選擇 StorageV2 (一般用途 V2)。

  4. 在 Azure 入口網站中,開啟您的 Azure 儲存體頁面並建立容器。 您可以使用預設存取層級。

  5. 在 [容器] 中,選取 [上傳] 以上傳範例檔案。 請注意,您有多種不同的內容類型,包括無法以原生格式全文檢索搜尋的影像和應用程式檔案。

    此螢幕擷取畫面顯示 Azure Blob 儲存體中的來源檔案。

現在您已準備就緒,可移至 [匯入資料精靈]。

執行匯入資料精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務。 在 [概觀] 頁面上,選取 命令行上的 [匯入數據 ],以在四個步驟中建立可搜尋的內容。

    匯入資料命令的螢幕擷取畫面。

步驟 1:建立資料來源

  1. 在 [連線到您的資料]中,選擇 [Azure Blob 儲存體]

  2. 選擇與記憶體帳戶的現有連接,然後選取您所建立的容器。 指定資料來源的名稱,其餘部分則使用預設值。

    資料來源定義頁面的螢幕擷取畫面。

    繼續進行下一頁。

如果您從數據源偵測索引架構時發生錯誤,則提供精靈的索引器無法連線到您的數據源。 最有可能是資料來源具有安全性保護。 請嘗試下列解決方案,然後重新執行精靈。

安全性功能 解決方案
資源需要 Azure 角色,或其存取金鑰已停用 以受信任的服務身分連線使用受控識別進行連線
資源位於 IP 防火牆後方 建立搜尋和 Azure 入口網站 的輸入規則
資源需要私人端點連線 透過私人端點連線

步驟 2:新增認知技能

接下來,設定 AI 擴充來叫用 OCR、影像分析和自然語言處理。

OCR 和影像分析適用於 Azure Blob 儲存體 和 Azure Data Lake Storage (ADLS) Gen2 中的 Blob,以及 OneLake 中的影像內容。 影像可以是獨立檔案或 PDF 或其他檔案中的內嵌影像。

  1. 在本快速入門中,我們會使用免費 Azure AI 服務資源。 範例數據是由 14 個檔案所組成,因此 Azure AI 服務上 20 筆交易的免費分配就足以供本快速入門使用。

    [連結 Azure AI 服務] 索引標籤的螢幕擷取畫面。

  2. 展開 [新增擴充],然後進行六項選擇。

    啟用 OCR 以將影像分析技能新增至精靈頁面。

    選擇實體辨識 (人員、組織、位置) 和影像分析技能 (標記、字幕)。

    技能集定義頁面的螢幕擷取畫面。

    繼續進行下一頁。

步驟 3︰設定索引

索引會包含可搜尋的內容,而匯入資料精靈通常可藉由資料來源的取樣以建立結構描述。 在此步驟中,請檢閱產生的結構描述,並視需要修改任何設定。

在本快速入門中,精靈會妥善地設定好合理的預設值:

  • 預設欄位是以現有 Blob 的中繼資料屬性為基礎,加上擴充輸出的新欄位 (例如、peopleorganizationslocations)。 從中繼資料與資料取樣可推斷資料類型。

  • 預設文件索引鍵是 metadata_storage_path (因欄位包含唯一值而選取)。

  • 預設屬性為 [可擷取] 和 [可搜尋]。 [可搜尋] 會允許對欄位進行全文檢索搜尋。 [可擷取] 表示可在結果中傳回欄位值。 精靈假設您希望這些欄位為可擷取並可搜尋,因為您是透過技能集來建立欄位。 如果您想要在篩選條件運算式中使用欄位,請選取 [可篩選]

    索引定義頁面的螢幕擷取畫面。

將欄位標示為可擷取不表示該欄位必須出現在搜尋結果中。 您可以使用 $select 查詢參數來指定要包含的欄位,以控制搜尋結果組合。

繼續進行下一頁。

步驟 4:設定索引子

索引子會驅動編製索引程序。 它會指定資料來源名稱、目標索引和執行頻率。 [匯入資料] 精靈會建立數個物件,包括您可以重複重設和執行的索引子。

  1. 在 [索引子] 頁面中,接受預設名稱,然後選取 [一次]

    索引子定義頁面的螢幕擷取畫面。

  2. 選取 [提交] 以建立並同時執行索引子。

監視狀態

從左側瀏覽窗格中選取 [索引子] 以監視狀態,然後選取索引子。 技能型索引編製比文字型索引編製需要的時間要長,尤其是 OCR 和影像分析。

索引子狀態頁面的螢幕擷取畫面。

若要檢視執行狀態的詳細資料,請選取 [成功] (或 [失敗]) 以檢視執行詳細資料。

在此示範中,有一些警告:「 無法執行技能,因為一或多個技能輸入無效。」 它會告訴您數據源中的 PNG 檔案不會提供實體辨識的文字輸入。 發生此警告的原因是上游 OCR 技能無法辨識影像中的任何文字,因此無法提供文字輸入給下游實體辨識技能。

技能集執行中常見的警告。 當您熟悉技能如何逐一查看資料時,您可能會開始注意到模式,並了解哪些警告可以放心忽略。

在搜尋總管中查詢

建立索引之後,請使用搜尋總管傳回結果。

  1. 在左側選取 [索引],然後選取索引。 搜尋總管是第一個索引標籤。

  2. 輸入搜尋字串以查詢索引,例如 satya nadella。 搜尋列接受關鍵字、引號括住的片語和運算符: "Satya Nadella" +"Bill Gates" +"Steve Ballmer"

結果會以詳細資訊 JSON 的形式傳回,這很難讀取,特別是在大型文件中。 在此工具中進行搜尋的一些秘訣包括下列技巧:

  • 切換至 JSON 檢視以指定圖形結果的參數。

  • 新增 select 以限制結果中的欄位。

  • 新增 count 以顯示相符項目的數目。

  • 使用 CTRL-F 在 JSON 中搜尋特定屬性或字詞。

    [搜尋總管] 頁面的螢幕擷取畫面。

以下是您可以貼到檢視中的一些 JSON:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

提示

查詢字串會區分大小寫,因此如果您收到「未知的欄位」訊息,請檢查 [欄位] 或 [索引定義 (JSON)] 以確認名稱和大小寫。

重要心得

您現在已建立第一個技能集,並了解技能型索引編製的基本步驟。

我們希望您挑選一些重要概念,包括相依性。 技能集會繫結至索引子,而索引子則專屬於 Azure 與來源。 雖然本快速入門使用 Azure Blob 儲存體,但您也可使用其他 Azure 資料來源。 如需詳細資訊,請參閱 Azure AI 搜尋服務中的索引子

另一個重要概念是,技能會針對內容類型來運作,因此在處理異質性內容時會略過某些輸入。 此外,大型檔案或欄位可能會超過服務層級的索引子限制。 一旦發生這些事件,看到警告是很正常的事。

輸出會路由至搜尋索引,且在編製索引期間建立的名稱/值配對會與索引中的個別欄位相對應。 在內部,精靈會設定擴充樹狀結構,並定義技能集,以建立作業順序和一般流程。 這些步驟會隱藏在精靈中,但是當您開始撰寫程式碼時,這些概念就會變得很重要。

最後,您已瞭解您可以藉由查詢索引來驗證內容。 結果就是 Azure AI 搜尋服務提供的功能是可搜尋的索引,您可以使用簡單完全展開的查詢語法來進行查詢。 包含擴充欄位的索引都彼此類似。 您可以納入標準或 自定義分析器評分配置檔同義字多面向導覽、地理搜尋或任何其他 Azure AI 搜尋功能。

清除資源

如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左導覽窗格中的 [所有資源] 或 [資源群組] 連結,在入口網站中尋找和管理資源。

如果您已使用免費服務,請記住您會有三個索引、索引子和資料來源的限制。 您可以在入口網站中刪除個別項目,以避免超出限制。

後續步驟

您可以使用入口網站、.NET SDK 或 REST API 來建立技能集。 若要進一步瞭解,請使用 REST 用戶端和更多範例數據來嘗試 REST API。