共用方式為


如何建立自訂文字分類專案

使用本文來了解如何設定從自訂文字分類開始並建立專案的需求。

必要條件

開始使用自訂文字分類之前,您需要:

建立語言資源

開始使用自訂文字分類之前,您需要 Azure AI 語言資源。 建議您在 Azure 入口網站中建立自己的語言資源,並將儲存體帳戶連線至它。 在 Azure 入口網站中建立資源可讓您同時建立 Azure 儲存體帳戶,並預先設定所有必要的權限。 您也可以進一步閱讀本文,了解如何使用既有的資源,並進行設定來使用自訂文字分類。

您也需要將 .txt 文件上傳至其中的 Azure 儲存體帳戶,而這些文件用來定型模型以分類文字。

注意

  • 您必須在資源群組上指派擁有者角色,才能建立語言資源。
  • 如果您將連線現有的儲存體帳戶,則應該已為其指派擁有者角色。

建立語言資源並連線儲存體帳戶

注意

一旦儲存體帳戶與語言資源連結,您就不得將儲存體帳戶移至不同的資源群組或訂閱。

從 Azure 入口網站建立新的資源

  1. 移至 Azure 入口網站以建立新的 Azure AI 語言資源。

  2. 在出現的視窗中,從自訂功能選取 [自訂文字分類和自訂具名實體辨識]。 選取畫面底部的 [繼續建立您的資源]。

    螢幕擷取畫面顯示 Azure 入口網站中自訂文字分類和自訂具名實體辨識的選取項目。

  3. 使用下列詳細資料建立語言資源。

    名稱 必要值
    訂用帳戶 您的 Azure 訂閱。
    資源群組 將包含您資源的資源群組。 您可以使用現有群組或建立新的群組。
    區域 其中一個支援的區域。 例如「美國西部 2」。
    名稱 您的資源名稱。
    定價層 其中一個支援的定價層。 您可使用免費 (F0) 層來試用服務。

    如果您收到訊息指出「您的登入帳戶不是所選儲存體帳戶資源群組的擁有者」,您的帳戶必須先在資源群組上指派擁有者角色,才能建立語言資源。 請連絡您的 Azure 訂閱擁有者以取得協助。

    您可以搜尋您的資源群組,並遵循其相關聯訂用帳戶的連結來判斷您的 Azure 訂用帳戶擁有者。 接下來:

    1. 選取 [存取控制 (IAM)] 索引標籤
    2. 選取 [角色指派]
    3. 依 [角色: 擁有者] 進行篩選。
  4. 在 [自訂文字分類和自訂具名實體辨識] 區段中,選取現有的儲存體帳戶,或選取 [新的儲存體帳戶]。 請注意,這些值可協助您開始使用,但不一定是您想要在生產環境中使用的儲存體帳戶值。 若要避免在建置專案期間的延遲,請連線至與語言資源位於相同區域中的儲存體帳戶。

    儲存體帳戶值 建議值
    儲存體帳戶名稱 任何名稱
    Storage account type 標準 LRS
  5. 請確定已核取負責任 AI 通知。 選取頁面底部的 [檢閱 + 建立] 。

注意

  • 將儲存體帳戶連線至您的語言資源的程序無法復原,且無法稍後中斷連線。
  • 您只能將語言資源連線至一個儲存體帳戶。

使用現有的語言資源

需求 描述
地區 請確定您已在下列其中一個支援的區域中佈建現有的資源。 如果您沒有資源,則必須在支援的區域中建立新的資源。
定價層 您資源的定價層
受控識別 請確定已啟用資源的受控識別設定。 否則,請閱讀下一節。

若要使用自訂文字分類,您必須先建立 Azure 儲存體帳戶 (如果您還沒有一個帳戶)。

為資源啟用身分識別管理

您的語言資源必須具有身分識別管理,才能使用 Azure 入口網站加以啟用:

  1. 移至您的語言資源
  2. 從左側功能表的 [資源管理] 區段底下,選取 [身分識別]
  3. 從 [系統指派] 索引標籤中,請務必將 [狀態] 設定為 [開啟]

啟用自訂文字分類功能

請務必從 Azure 入口網站啟用自訂文字分類/自訂具名實體辨識功能。

  1. 移至您在 Azure 入口網站中的語言資源
  2. 從左側功能表的 [資源管理] 區段底下,選取 [功能]
  3. 啟用自訂文字分類/自訂具名實體辨識功能
  4. 連線您的儲存體帳戶
  5. 選取 [套用]

重要

  • 請確定您的語言資源在您連線的儲存體帳戶上獲指派儲存體 Blob 資料參與者角色。

設定 Azure AI 語言資源和儲存體帳戶的角色

使用下列步驟來設定語言資源和儲存體帳戶的必要角色。

顯示如何在 Azure 入口網站中設定角色的動畫影像。

Azure AI 語言資源的角色

  1. 移至您在 Azure 入口網站中的儲存體帳戶或語言資源。

  2. 在左側導覽功能表中選取 [存取控制 (IAM)]

  3. 選取 [新增]新增角色指派,然後選擇您帳戶的適當角色。

    您應該在語言資源上指派擁有者參與者角色。

  4. 在 [存取權指派對象為] 內,選取 [使用者、群組或服務主體]

  5. 選取 [+選取成員]

  6. 選取您的使用者名稱。 您可以在 [選取] 欄位中搜尋使用者名稱。 針對所有角色重複此操作。

  7. 針對需要存取此資源的所有使用者帳戶重複這些步驟。

儲存體帳戶的角色

  1. 移至您在 Azure 入口網站中的儲存體帳戶頁面。
  2. 在左側導覽功能表中選取 [存取控制 (IAM)]
  3. 選取 [新增]新增角色指派,然後選擇儲存體帳戶上的儲存體 Blob 資料參與者角色。
  4. 在 [存取權指派對象為]中,選取 [受控識別]
  5. 選取 [+選取成員]
  6. 選取您的訂用帳戶,然後選取 [語言] 作為受控識別。 您可以在 [選取] 欄位中搜尋使用者名稱。

重要

如果您使用虛擬網路或私人端點,請務必在 Azure 入口網站中選取 [允許可信服務清單上的 Azure 服務加存取此儲存體帳戶]

為您的儲存體帳戶啟用 CORS

啟用跨原始來源資源共用 (CORS) 時,請務必允許 (GET、PUT、DELETE) 方法。 將允許的來源欄位設定為 https://language.cognitive.azure.com。 透過將 * 新增至允許的標頭值以允許所有標頭,並將最長存留期設定為 500

螢幕擷取畫面:顯示如何在儲存體帳戶中使用 CORS。

建立自訂文字分類專案

設定好資源和儲存體容器之後,請建立新的自訂文字分類專案。 專案是一個工作區域,可根據您的資料建置自訂 AI 模型。 專案只能由您和其他具有所使用 Azure 資源存取權的人員存取。 如果您已為資料加標籤,可以將資料匯入以開始使用。

  1. 登入 Language Studio。 隨即出現一個視窗,讓您選取訂用帳戶和語言資源。 選取您的語言資源。

  2. 在 Language Studio 的 [分類文字] 區段下,選取 [自訂文字分類]

    顯示 Language Studio 登陸頁面中自訂文字分類位置的螢幕擷取畫面。

  3. 從專案頁面頂端的功能表中選取 [建立新專案]。 建立專案可讓您標示資料、定型、評估、改善以及部署模型。

    顯示自訂文字分類專案建立頁面的螢幕擷取畫面。

  4. 您按一下 [建立新專案] 之後,隨即會出現一個視窗,讓您連線您的儲存體帳戶。 如果您已連線儲存體帳戶,您會看到該儲存體帳戶已連線。 如果沒有,請從出現的下拉式清單中選擇儲存體帳戶,然後選取 [連線儲存體帳戶];這會為您的儲存體帳戶設定必要角色。 如果您在該儲存體帳戶上未獲指派為擁有者身分,此步驟可能會傳回錯誤。

    注意

    • 您只需要針對您使用的每個新語言資源執行此步驟一次。
    • 此程序無法復原,如果您將儲存體帳戶連線到語言資源,之後就無法中斷連線。
    • 您只能將語言資源連線到一個儲存體帳戶。

    螢幕擷取畫面顯示自訂分類專案的儲存體連線畫面。

  5. 選取專案類型。 您可以建立多標籤分類專案,其中的每個文件可以屬於一或多個類別,或建立單一標籤分類專案,其中的每個文件只能屬於一個類別。 稍後將無法變更該選取的類型。 深入了解專案類型

    螢幕擷取畫面顯示可用的自訂分類專案類型。

  6. 輸入專案資訊,包括您專案中文件的名稱、描述和語言。 如果您使用範例資料集,請選取 [英文]。 您之後將無法變更專案的名稱。 選取 [下一步]。

    提示

    您的資料集不需要完全採用相同的語言。 您可以有多個文件,每個文件都有不同的支援語言。 如果資料集包含不同語言的文件,或者如果您預期在執行階段使用不同語言的文字,請在您輸入專案的基本資訊時,選取 [啟用多語言資料集] 選項。 您稍後可以從 [專案設定] 頁面啟用此選項。

  7. 選取您已上傳資料集的容器。

    注意

    如果您已標示資料,則請確定其遵循支援的格式,然後選取 [是,我的文件已加上標籤,而且我有已格式化的 JSON 標籤檔案],然後從下方的下拉式功能表選取標籤檔案。

    如果您使用其中一個範例資料集,請使用包含 webOfScience_labelsFilemovieLabels 的 JSON 檔案。 然後選取下一步

  8. 檢閱您輸入的資料,然後選取 [建立專案]

匯入自訂文字分類專案

如果您已為資料加標籤,則可以使用資料來開始使用服務。 請確定您加標籤的資料遵循接受的資料格式

  1. 登入 Language Studio。 隨即出現一個視窗,讓您選取訂用帳戶和語言資源。 選取您的語言資源。

  2. 在 Language Studio 的 [分類文字] 區段下,選取 [自訂文字分類]

    顯示 Language Studio 登陸頁面中自訂文字分類位置的螢幕擷取畫面。

  3. 從專案頁面頂端的功能表中選取 [建立新專案]。 建立專案可讓您標示資料、定型、評估、改善以及部署模型。

    專案建立頁面的螢幕擷取畫面。

  4. 選取 [建立新專案] 之後,隨即會出現一個畫面,讓您連線您的儲存體帳戶。 如果找不到您的儲存體帳戶,請確定您已使用建議的步驟建立資源。 如果您已經將儲存體帳戶連線至您的語言資源,則會看到儲存體帳戶已連線。

    注意

    • 您只需要針對您使用的每個新語言資源執行此步驟一次。
    • 此程序無法復原,如果您將儲存體帳戶連線到語言資源,之後就無法中斷連線。
    • 您只能將語言資源連線到一個儲存體帳戶。

    螢幕擷取畫面顯示自訂分類專案的儲存體連線畫面。

  5. 選取專案類型。 您可以建立多標籤分類專案,其中的每個文件可以屬於一或多個類別,或建立單一標籤分類專案,其中的每個文件只能屬於一個類別。 稍後將無法變更該選取的類型。

    螢幕擷取畫面顯示可用的自訂分類專案類型。

  6. 輸入專案資訊,包括您專案中文件的名稱、描述和語言。 您之後將無法變更專案的名稱。 選取 [下一步]。

    提示

    您的資料集不需要完全採用相同的語言。 您可以有多個文件,每個文件都有不同的支援語言。 如果資料集包含不同語言的文件,或者如果您預期在執行階段使用不同語言的文字,請在您輸入專案的基本資訊時,選取 [啟用多語言資料集] 選項。 您稍後可以從 [專案設定] 頁面啟用此選項。

  7. 選取您已上傳資料集的容器。

  8. 選取 [是,我的文件已加上標籤,而且我有已格式化的 JSON 標籤檔案],然後從下方的下拉式功能表中選取標籤檔案,以匯入您的 JSON 標籤檔案。 請確定其遵循支援的格式

  9. 選取 [下一步]。

  10. 檢閱您輸入的資料,然後選取 [建立專案]

取得專案詳細資料

  1. 移至您在 Language Studio 中的 [專案設定] 頁面。

  2. 您可以看到專案詳細資料。

  3. 在此頁面中,您可以更新專案描述,並在專案設定中啟用/停用多語言資料集。

  4. 您也可以檢視連線至您語言資源的儲存體帳戶和容器。

  5. 您也可以從此頁面擷取資源主要索引鍵。

    專案設定頁面的螢幕擷取畫面。

刪除專案

當您不再需要專案時,可以使用 Language Studio 來刪除您的專案。 選取頂端的 [自訂文字分類],然後選取您想要刪除的專案。 選取頂端功能表中的 [刪除] 以刪除專案。

下一步

  • 您應該了解要用於標示資料的專案結構描述

  • 建立您的專案之後,您可以開始標記您的資料,這會告知您的文字分類模型如何解譯文字,並可用於定型和評估。