Compartilhar via


Rotular seus dados usando o Serviço Cognitivo do Azure para Linguagem

A rotulagem de dados é uma etapa crucial no ciclo de vida do desenvolvimento. Nesta etapa, você rotulará seus documentos com as novas entidades definidas no esquema para preencher os componentes aprendidos. Esses dados serão usados na próxima etapa ao treinar seu modelo para que ele possa aprender com os dados rotulados e assim saber quais entidades extrair. Se você já tiver rotulado os dados, poderá importá-los diretamente para seu projeto, mas precisa garantir que seus dados sigam o formato de dados aceito. Confira criar projeto para saber mais sobre como importar dados rotulados para o seu projeto. Se os dados ainda não estão rotulados, você pode rotulá-los no Language Studio.

Pré-requisitos

Antes de rotular dados, você precisa de:

  • Um projeto criado com sucesso com uma conta de armazenamento de blobs do Azure configurada
  • Dados de texto que foram carregados em sua conta de armazenamento.

Confira o ciclo de vida de desenvolvimento de projetos para obter mais informações.

Diretrizes de rotulagem de dados

Depois de preparar seus dados, projetar seu esquema e criar seu projeto, você precisará rotular seus dados. Rotular seus dados é importante para que seu modelo saiba quais palavras serão associadas aos tipos de entidade que você precisa extrair. Quando seus dados são rotulados no Serviço Cognitivo do Azure para Linguagem (ou os dados rotulados são importados), esses rótulos serão armazenados no documento JSON no contêiner de armazenamento que você conectou a este projeto.

Ao rotular seus dados, tenha em mente:

  • Você não pode adicionar rótulos para a Análise de Texto para entidades de saúde, pois elas são entidades pré-treinadas predefinidas. Você só pode adicionar rótulos a novas categorias de entidade definidas durante a definição de esquema.

Se você quiser melhorar o recall de uma entidade predefinida, poderá estendê-la adicionando um componente de lista enquanto estiver definindo seu esquema.

  • Em geral, mais dados rotulados levam a melhores resultados, desde que os dados sejam rotulados com precisão.

  • A precisão, a consistência e a conclusão dos dados rotulados são fatores fundamentais para determinar o desempenho do modelo.

    • Rotular com precisão: rotule cada entidade sempre para o tipo correto dela. Inclua apenas o que você deseja extrair, evite dados desnecessários em seu rótulo.
    • Rotular consistentemente: a mesma entidade deve ter o mesmo rótulo em todos os documentos.
    • Rotular completamente: rotule todas as instâncias da entidade em todos os documentos.

    Observação

    Não há um número fixo de rótulos que possa garantir que seu modelo terá o melhor desempenho. O desempenho do modelo depende da ambiguidade possível em seu esquema e da qualidade dos dados rotulados. No entanto, recomendamos ter cerca de 50 instâncias rotuladas por tipo de entidade.

Rotular seus dados.

Use as etapas a seguir para rotular seus dados:

  1. Acesse a página do projeto no Language Studio.

  2. No menu do lado esquerdo, selecione Rotulagem de dados. Você pode encontrar uma lista de todos os documentos no contêiner de armazenamento.

    Dica

    Você pode usar os filtros no menu superior para exibir os documentos sem rótulo para que você possa começar a rotulá-los. Você também pode usar os filtros para exibir os documentos rotulados com um tipo de entidade específico.

  3. Altere para uma exibição individual de documento do lado esquerdo no menu superior ou selecione um documento específico para iniciar a rotulagem. Você pode encontrar uma lista de todos os documentos .txt disponíveis em seu projeto à esquerda. Você pode usar o botão Voltar e Avançar na parte inferior da página para navegar pelos documentos.

    Observação

    Se você habilitar vários idiomas para seu projeto, encontrará um menu suspenso Idioma no menu superior, que permite selecionar o idioma de cada documento. Não há suporte para hebraico em projetos multilíngues.

  4. No painel direito, você pode usar o botão Adicionar tipo de entidade para adicionar ao projeto as entidades que você esqueceu de incluir na definição do esquema.

  5. Você tem duas opções para rotular seu documento:

    Opção Descrição
    Rotular usando um pincel Selecione o ícone de pincel ao lado de um tipo de entidade no painel direito e, em seguida, realce o texto no documento que você deseja anotar com esse tipo de entidade.
    Rotular usando um menu Realce a palavra que você deseja rotular como uma entidade e um menu será exibido. Selecione o tipo de entidade que você deseja atribuir a essa entidade.

    A captura de tela abaixo mostra a rotulagem usando um pincel.

    Uma captura de tela mostrando as opções de rotulagem oferecidas no NER personalizado.

  6. No painel direito sob a dinamização Rótulos, você pode encontrar todos os tipos de entidade em seu projeto e a contagem de instâncias rotuladas por cada um. As entidades predefinidas serão mostradas para referência, mas você não poderá rotular essas entidades predefinidas, pois elas são pré-treinadas.

  7. Na seção inferior do painel direito, você pode adicionar o arquivo documento atual que você está exibindo ao conjunto de treinamento ou ao conjunto de teste. Por padrão, todos os documentos são adicionados ao seu conjunto de treinamento. Saiba mais sobre os conjuntos de treinamento e teste e como eles são usados para treinamento e avaliação de modelos.

    Dica

    Se você estiver planejando usar a divisão Automática de dados, use a opção padrão para atribuir todos os documentos ao seu conjunto de treinamento.

  8. Na dinamização Distribuição, você pode exibir a distribuição de seus documentos rotulados em conjuntos de treinamento e de teste. Você tem duas opções para a exibição:

    • Total de instâncias em que você pode exibir a contagem de todas as instâncias rotuladas de um tipo de entidade específico.
    • Documentos com pelo menos um rótulo, em que cada documento é contado se contiver pelo menos uma instância rotulada dessa entidade.
  9. Ao rotular, suas alterações serão sincronizadas periodicamente e se elas ainda não foram salvas, você encontrará um aviso na parte superior da página. Se você quiser salvar manualmente, clique no botão Salvar rótulos na parte inferior da página.

Remover rótulos

Para remover um rótulo

  1. Selecione a entidade da qual você deseja remover um rótulo.
  2. Deslize pelo menu que aparece e selecione Remover rótulo.

Excluir entidades

Você não pode excluir nenhuma das entidades pré-treinadas do Análise de Texto para saúde porque elas têm um componente predefinido. Você só tem permissão para excluir categorias de entidade recém-definidas. Para excluir uma entidade, selecione o ícone de exclusão ao lado da entidade que você deseja remover. A exclusão de uma entidade removerá todas as instâncias rotuladas do conjunto de dados.

Próximas etapas

Depois de ter rotulado seus dados, você pode começar a treinar um modelo que aprenderá com base em seus dados.