Partilhar via


Rotule seus enunciados no Language Studio

Depois de criar um esquema para seu projeto, você deve adicionar expressões de treinamento ao seu projeto. Os enunciados devem ser semelhantes ao que seus usuários usarão ao interagir com o projeto. Quando você adiciona um enunciado, você tem que atribuir a qual intenção ele pertence. Depois que o enunciado for adicionado, rotule as palavras dentro do enunciado que você deseja extrair como entidades.

A rotulagem de dados é uma etapa crucial no ciclo de vida do desenvolvimento; Esses dados serão usados na próxima etapa ao treinar seu modelo para que ele possa aprender com os dados rotulados. Se você já tiver enunciados rotulados, poderá importá-los diretamente para seu projeto, mas precisa garantir que seus dados sigam o formato de dados aceito. Consulte Criar projeto para saber mais sobre como importar dados rotulados para o seu projeto. Os dados rotulados informam ao modelo como interpretar o texto e são usados para treinamento e avaliação.

Pré-requisitos

Antes de rotular seus dados, você precisa:

Consulte o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Diretrizes de rotulagem de dados

Depois de construir seu esquema e criar seu projeto, você precisará rotular seus dados. Rotular seus dados é importante para que seu modelo saiba quais palavras e frases serão associadas às intenções e entidades em seu projeto. Você vai querer gastar tempo rotulando seus enunciados - introduzindo e refinando os dados que serão usados no treinamento de seus modelos.

Ao adicionar enunciados e rotulá-los, lembre-se:

  • Os modelos de aprendizado de máquina generalizam com base nos exemplos rotulados que você fornece; Quanto mais exemplos você fornecer, mais pontos de dados o modelo terá para fazer generalizações melhores.

  • A precisão, consistência e integridade dos dados rotulados são fatores-chave para determinar o desempenho do modelo.

    • Rotule com precisão: rotule cada intenção e entidade sempre com o tipo certo. Inclua apenas o que deseja classificar e extrair, evite dados desnecessários em seus rótulos.
    • Rotular de forma consistente: a mesma entidade deve ter o mesmo rótulo em todos os enunciados.
    • Rotule completamente: forneça expressões variadas para cada intenção. Rotule todas as instâncias da entidade em todos os seus enunciados.

Rotular claramente os enunciados

  • Certifique-se de que os conceitos aos quais suas entidades se referem estejam bem definidos e separáveis. Verifique se consegue determinar facilmente as diferenças de forma fiável. Se não conseguir, essa falta de distinção pode indicar que o componente aprendido também terá dificuldade.

  • Se houver uma semelhança entre entidades, certifique-se de que há algum aspeto dos seus dados que forneça um sinal para a diferença entre elas.

    Por exemplo, se você criou um modelo para reservar voos, um usuário pode usar uma frase como "Eu quero um voo de Boston para Seattle". Espera-se que a cidade de origem e a cidade de destino de tais enunciados sejam semelhantes. Um sinal para diferenciar a cidade de origem pode ser que a palavra de muitas vezes a precede.

  • Certifique-se de rotular todas as instâncias de cada entidade em seus dados de treinamento e teste. Uma abordagem é usar a função de pesquisa para encontrar todas as ocorrências de uma palavra ou frase em seus dados para verificar se elas estão rotuladas corretamente.

  • Rotule dados de teste para entidades que não têm nenhum componente aprendido e também para as entidades que têm. Essa prática ajuda a garantir que suas métricas de avaliação sejam precisas.

  • Para projetos multilíngues, adicionar enunciados em outros idiomas aumenta o desempenho do modelo nesses idiomas, mas evite duplicar seus dados em todos os idiomas aos quais você gostaria de oferecer suporte. Por exemplo, para melhorar o desempenho de um bot de calendário com os usuários, um desenvolvedor pode adicionar exemplos principalmente em inglês e alguns em espanhol ou francês também. Eles podem adicionar enunciados como:

    • "Marque uma reunião com Matt e Kevinamanhã às 12h." (Inglês)
    • "Responder como provisório à reunião de atualização semanal." (Inglês)
    • "Cancelar minha próxima reunião." (Espanhol)

Como rotular os seus enunciados

Use as seguintes etapas para rotular seus enunciados:

  1. Aceda à página do seu projeto no Language Studio.

  2. No menu do lado esquerdo, selecione Rotulagem de dados. Nesta página, você pode começar a adicionar seus enunciados e rotulá-los. Você também pode fazer o upload do seu enunciado diretamente clicando em Carregar arquivo de enunciado no menu superior, certifique-se de que ele segue o formato aceito.

  3. A partir dos pivôs superiores, você pode alterar a exibição para conjunto de treinamento ou conjunto de testes. Saiba mais sobre conjuntos de treinamento e teste e como eles são usados para treinamento e avaliação de modelos.

    Uma captura de tela da página para marcar enunciados no Language Studio.

    Gorjeta

    Se você estiver planejando usar Dividir automaticamente o conjunto de testes da divisão de dados de treinamento, adicione todos os seus enunciados ao conjunto de treinamento.

  4. No menu suspenso Selecionar intenção, selecione uma das intenções, o idioma do enunciado (para projetos multilíngues) e o próprio enunciado. Pressione a tecla enter na caixa de texto do enunciado para adicionar o enunciado.

  5. Você tem duas opções para rotular entidades em um enunciado:

    Opção Description
    Rotular usando um pincel Selecione o ícone de pincel ao lado de uma entidade no painel direito e realce o texto no enunciado que você deseja rotular.
    Etiqueta usando menu embutido Realce a palavra que você deseja rotular como uma entidade e um menu será exibido. Selecione a entidade com a qual deseja rotular essas palavras.
  6. No painel do lado direito, sob o pivô Rótulos , você pode encontrar todos os tipos de entidade em seu projeto e a contagem de instâncias rotuladas por cada uma.

  7. No pivô Distribuição, você pode exibir a distribuição entre conjuntos de treinamento e teste. Você tem duas opções para visualizar:

    • Total de instâncias por entidade rotulada onde você pode exibir a contagem de todas as instâncias rotuladas de uma entidade específica.
    • Enunciados exclusivos por entidade rotulada onde cada enunciado é contado se contiver pelo menos uma instância rotulada dessa entidade.
    • Enunciados por intenção , onde você pode visualizar a contagem de enunciados por intenção.

Uma captura de tela mostrando a distribuição de entidade no Language Studio.

Nota

Os componentes de lista e pré-construídos não são mostrados na página de rotulagem de dados, e todos os rótulos aqui se aplicam apenas ao componente aprendido.

Para remover um rótulo:

  1. No enunciado, selecione a entidade da qual deseja remover um rótulo.
  2. Percorra o menu apresentado e selecione Remover etiqueta.

Para excluir uma entidade:

  1. Selecione a entidade que deseja editar no painel do lado direito.
  2. Selecione os três pontos ao lado da entidade e selecione a opção desejada no menu suspenso.

Sugerir expressões com o Azure OpenAI

Na CLU, use o Azure OpenAI para sugerir enunciados a serem adicionados ao seu projeto usando modelos GPT. Primeiro, você precisa obter acesso e criar um recurso no Azure OpenAI. Em seguida, você precisará criar uma implantação para os modelos GPT. Siga os passos de pré-requisito aqui.

Antes de começar, o recurso de sugerir enunciados só estará disponível se o recurso Idioma estiver nas seguintes regiões:

  • E.U.A. Leste
  • E.U.A. Centro-Sul
  • Europa Ocidental

Na página Rotulagem de dados:

  1. Selecione o botão Sugerir enunciados . Um painel será aberto no lado direito solicitando que você selecione seu recurso e implantação do Azure OpenAI.
  2. Na seleção de um recurso do Azure OpenAI, selecione Conectar, que permite que seu recurso de idioma tenha acesso direto ao seu recurso do Azure OpenAI. Ele atribui ao seu recurso de idioma a função de Cognitive Services User seu recurso do Azure OpenAI, o que permite que seu recurso de idioma atual tenha acesso ao serviço do Azure OpenAI. Se a conexão falhar, siga estas etapas abaixo para adicionar a função certa ao seu recurso OpenAI do Azure manualmente.
  3. Quando o recurso estiver conectado, selecione a implantação. O modelo recomendado para a implantação do Azure OpenAI é text-davinci-002.
  4. Selecione a intenção para a qual deseja obter sugestões. Certifique-se de que a intenção selecionada tem pelo menos 5 expressões salvas para serem habilitadas para sugestões de enunciados. As sugestões fornecidas pelo Azure OpenAI baseiam-se nas declarações mais recentes que adicionou para essa intenção.
  5. Selecione Gerar enunciados. Uma vez concluídos, os enunciados sugeridos aparecerão com uma linha pontilhada ao redor, com a nota gerada pela IA. Essas sugestões têm de ser aceites ou rejeitadas. Aceitar uma sugestão simplesmente adiciona-a ao seu projeto, como se você mesmo a tivesse adicionado. Rejeitá-lo elimina totalmente a sugestão. Apenas os enunciados aceites farão parte do seu projeto e serão utilizados para formação ou testes. Você pode aceitar ou rejeitar clicando nos botões verde de seleção ou vermelho cancelar ao lado de cada enunciado. Você também pode usar os Accept all botões e Reject all na barra de ferramentas.

Uma captura de tela mostrando sugestões de enunciado no Language Studio.

Usar esse recurso implica uma cobrança ao seu recurso do Azure OpenAI por um número semelhante de tokens aos enunciados sugeridos gerados. Os detalhes sobre os preços do Azure OpenAI podem ser encontrados aqui.

Adicionar configurações necessárias ao recurso Azure OpenAI

Se a conexão do recurso Language a um recurso do Azure OpenAI falhar, siga estas etapas:

Habilite o gerenciamento de identidades para seu recurso de idioma usando as seguintes opções:

Seu recurso de idioma deve ter gerenciamento de identidade, para habilitá-lo usando o portal do Azure:

  1. Ir para o seu recurso linguístico
  2. No menu à esquerda, na seção Gerenciamento de Recursos, selecione Identidade
  3. Na guia Sistema atribuído, certifique-se de definir Status como Ativado

Depois de habilitar a identidade gerenciada, atribua a função Cognitive Services User ao seu recurso do Azure OpenAI usando a identidade gerenciada do seu recurso de idioma.

  1. Entre no portal do Azure e navegue até seu recurso do Azure OpenAI.
  2. Selecione a guia Controle de acesso (IAM) à esquerda.
  3. Selecione Adicionar > atribuição de função.
  4. Selecione "Funções de função" e clique em Avançar.
  5. Selecione Cognitive Services User na lista de funções e clique em Avançar.
  6. Selecione Atribuir acesso a "Identidade gerenciada" e selecione "Selecionar membros".
  7. Em "Identidade gerenciada", selecione "Idioma".
  8. Procure o seu recurso e selecione-o. Em seguida, selecione o botão Selecionar abaixo e ao lado para concluir o processo.
  9. Reveja os detalhes e selecione Rever + Atribuir.

Várias capturas de tela mostrando as etapas para adicionar a função necessária ao seu recurso do Azure OpenAI.

Após alguns minutos, atualize o Language Studio e você poderá se conectar com êxito ao Azure OpenAI.

Passos Seguintes