快速入門:在 Azure 入口網站中建立知識存放區
本快速入門將說明如何建立知識存放區,可用於存放 Azure AI 搜尋服務中 AI 擴充管線所產生的輸出。 透過知識存放區,即可在 Azure 儲存體內提供所產生的內容,供搜尋以外的工作負載使用。
首先,您要在 Azure 儲存體內建立一些範例資料。 接著執行匯入資料精靈,建立也會產生知識存放區的擴充管線。 此知識存放區包含從資料來源提取的原始來源內容 (飯店的顧客評論),加上 AI 產生的內容 (包括情感標籤、關鍵片語擷取及非英文客戶評論的翻譯文字)。
必要條件
開始之前,必須先具備下列必要條件:
具有有效訂用帳戶的 Azure 帳戶。 免費建立帳戶。
裝載於 Azure 儲存體中的範例資料:
下載 HotelReviews_Free.csv。 此 CSV 包含 19 筆客戶對同一間旅館的意見反應 (源自 Kaggle.com)。 該檔案位於內有其他範例資料的存放庫中。 如果您不想要整個存放庫,請複製原始內容,並在您裝置上的試算表應用程式中貼上。
此快速入門也會使用 Azure AI 服務以進行 AI 擴充。 由於工作負載很小,因此 Azure AI 服務會在幕後連線以進行免費處理,最多 20 筆交易。 這表示您可以完成此練習,而不必額外建立 Azure AI 多服務資源。
啟動精靈
使用您的 Azure 帳戶登入 Azure 入口網站 。
尋找您的搜尋服務,然後在 [概觀] 頁面上,選取命令列上的 [匯入資料],以四個步驟建立知識存放區。
步驟 1:建立資料來源
由於資料有多列,且都在一個 CSV 檔案中,因此請設定剖析模式,以取得每一列的一份搜尋文件。
在 [連線到您的資料] 中,選擇 [Azure Blob 儲存體]。
在 [名稱] 輸入 "hotel-reviews-ds"。
在 [要擷取的資料] 中,選擇 [內容和中繼資料]。
針對 [剖析模式],選取 [分隔的文字],然後選取 [第一行包含標頭] 核取方塊。 請確定 [分隔符號字元] 是逗號 (,)。
若儲存體帳戶和訂用帳戶是相同的,請在 [連接字串] 中,選擇一個現有連線。 否則,將連接字串貼上到 Azure 儲存體帳戶。
連接字串可具備完整存取權,格式如下:
DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net
或者,連接字串可參考受控識別,前提是已在 Azure 儲存體內設定並指派角色:
ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;
在 [容器] 中,輸入保存資料的 Blob 容器名稱 ("hotel-reviews")。
您的頁面應該會看起來如下列螢幕擷取畫面所示。
繼續進行下一頁。
步驟 2:新增技能
精靈此步驟會為 AI 擴充新增技能。 來源資料是由英文和法文的客戶評論所組成。 與此資料集相關的技能包括關鍵片語擷取、情感偵測和文字翻譯。 在後續步驟中,這些擴充將「投射」到知識存放區中作為 Azure 資料表。
展開 [連結 Azure AI 服務]。 預設會選取 [免費 (有限的擴充)]。 您可以使用此資源,因為 HotelReviews-Free.csv 中的記錄筆數是 19,而此免費資源一天最多允許 20 筆交易。
展開 [新增擴充]。
在 [技能集名稱] 中,輸入 "hotel-reviews-ss"。
針對 [來源資料欄位],選取 reviews_text。
針對 [擴充細微性層級],選取 [頁面 (5000 個字元區塊)]。
針對 [文字認知技能],選取下列技能:
- 擷取關鍵片語
- 翻譯文字
- 語言偵測
- 偵測情感
您的頁面應該會看起來如下列螢幕擷取畫面:
向下捲動並展開 [將擴充儲存到知識存放區]。
選取 [選擇現有連線],然後選取 Azure 儲存體帳戶。 此時會出現容器頁面,在此即可建立投影容器。 為了區分來源內容和知識存放區內容,建議採用前置命名慣例,例如 "kstore-hotel-reviews"。
返回匯入資料精靈,選取下列 [Azure 資料表投影]。 精靈一律會提供 [文件] 投影。 其他投影是否提供則取決於您選取的技能 (例如 [關鍵片語]) 或擴充細微性 ([頁面]):
- 文件
- 頁面
- 關鍵片語
下列螢幕擷取畫面顯示精靈中選擇要投影的資料表。
繼續進行下一頁。
步驟 3︰設定索引
在此精靈步驟中,請設定用於選擇性全文檢索搜尋查詢的索引。 知識存放區不需要搜尋索引,但索引子需要索引才能執行。
在此步驟中,精靈會取樣您的資料來源,以推斷欄位和資料類型。 您只需要選取所需行為的屬性。 例如,[可擷取] 屬性會允許搜尋服務傳回欄位值,而 [可搜尋] 屬性會啟用欄位的全文檢索搜尋。
在 [索引名稱] 中,輸入 "hotel-reviews-idx"。
針對屬性,請接受所有預設選項:[可擷取] 和 [可搜尋] 適用於管線所建立的新欄位。
您的索引應該會看起來如下圖。 因為此清單很長,所以並非所有欄位都會顯示在影像中。
繼續進行下一頁。
步驟 4:設定及執行索引子
在此步驟中,請設定索引子,以便將資料來源、技能集,以及您在先前的精靈步驟中定義的索引整合在一起。
針對 [名稱],輸入 "hotel-reviews-idxr"。
針對 [排程],保留預設值 [一次]。
選取 [提交] 以執行索引子。 資料擷取、編製索引、認知技能的應用全都在此步驟進行。
步驟 5:健康情況檢查狀態
在 [概觀] 頁面,開啟頁面中間的 [索引子] 分頁,然後選取 [hotels-reviews-idxr]。 在一或兩分鐘內,狀態應會從 [進行中] 變為 [成功],並且出現零個錯誤和警告。
檢查 Azure 入口網站中的資料表
在 Azure 入口網站中,開啟用來建立知識存放區的儲存體帳戶。
在儲存體帳戶左側的瀏覽窗格中,選取 [儲存體瀏覽器],以檢視新的資料表。
在此應出現三個資料表,[新增擴充] 頁面 [儲存擴充] 區塊提供的每個投影都有一個。
"hotelReviewssDocuments" 包含文件內擴充樹狀結構非集合物件的第一層節點。
"hotelReviewssKeyPhrases" 包含所有評論擷取的一長串關鍵片語清單。 輸出集合 (陣列,如關鍵片語和實體) 的技能會將輸出傳送至獨立的資料表。
"hotelReviewssPages" 包含文件分割成每一頁面所建立的擴充欄位。 在此資料集和資料來源,頁面層級擴充由情感標籤和翻譯文字組成。 若您在技能集定義選擇 [頁面] 細微性,則會建立頁面資料表 (若您指定句子層級的細微性,則為句子資料表)。
這些所有資料表都包含識別碼資料行,以利突顯資料表在其他工具和應用程式內的關係。 當您開啟資料表時,請捲動這些欄位以檢視由管線新增的內容欄位。
在此快速入門中,"hotelReviewssPages" 資料表應該會看起來如下列螢幕擷取畫面:
清理
如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。
您可以使用左導覽窗格中的 [所有資源] 或 [資源群組] 連結,在入口網站中尋找和管理資源。
如果您使用免費服務,請記住您會有三個索引、索引子和資料來源的限制。 您可以在入口網站中刪除個別項目,以避免超出限制。
提示
如果您想要重複此練習,或逐步嘗試不同的 AI 擴充,請刪除 hotel-reviews-idxr 索引子及其相關物件來加以重建。 刪除索引子會將免費的每日交易計數器重設為零。
下一步
現在您已認識知識存放區,接著請前往 REST API 逐步解說,進一步了解每個步驟。 精靈內部處理的工作將在 REST 逐步解說中說明。
使用 REST 建立知識存放區 (部分機器翻譯)