Partilhar via


Rotule seus dados usando o Language Studio

A rotulagem de dados é uma etapa crucial no ciclo de vida do desenvolvimento. Nesta etapa, você rotula seus documentos com as novas entidades definidas em seu esquema para preencher seus componentes aprendidos. Esses dados serão usados na próxima etapa ao treinar seu modelo para que ele possa aprender com os dados rotulados para saber quais entidades extrair. Se você já tiver dados rotulados, poderá importá-los diretamente para seu projeto, mas precisa garantir que seus dados sigam o formato de dados aceito. Consulte Criar projeto para saber mais sobre como importar dados rotulados para o seu projeto. Se seus dados ainda não estiverem rotulados, você poderá rotulá-los no Language Studio.

Pré-requisitos

Antes de rotular seus dados, você precisa:

Consulte o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Diretrizes de rotulagem de dados

Depois de preparar seus dados, projetar seu esquema e criar seu projeto, você precisará rotular seus dados. Rotular seus dados é importante para que seu modelo saiba quais palavras serão associadas aos tipos de entidade que você precisa extrair. Quando você rotula seus dados no Language Studio (ou importa dados rotulados), esses rótulos são armazenados no documento JSON em seu contêiner de armazenamento que você conectou a este projeto.

Ao rotular seus dados, lembre-se:

  • Não é possível adicionar rótulos para a Análise de Texto para entidades de saúde, pois são entidades pré-treinadas e pré-criadas. Você só pode adicionar rótulos a novas categorias de entidade definidas durante a definição do esquema.

Se quiser melhorar a recuperação de uma entidade pré-criada, você pode estendê-la adicionando um componente de lista enquanto define seu esquema.

  • Em geral, dados mais rotulados levam a melhores resultados, desde que os dados sejam rotulados com precisão.

  • A precisão, consistência e integridade dos dados rotulados são fatores-chave para determinar o desempenho do modelo.

    • Rotule com precisão: rotule cada entidade sempre com o tipo certo. Inclua apenas o que deseja extrair, evite dados desnecessários em seus rótulos.
    • Rotular de forma consistente: a mesma entidade deve ter o mesmo rótulo em todos os documentos.
    • Rotular completamente: rotule todas as instâncias da entidade em todos os seus documentos.

    Nota

    Não existe um número fixo de etiquetas que possa garantir que o seu modelo terá o melhor desempenho. O desempenho do modelo depende da possível ambiguidade no esquema e da qualidade dos dados rotulados. No entanto, recomendamos ter cerca de 50 instâncias rotuladas por tipo de entidade.

Rotule seus dados

Use as seguintes etapas para rotular seus dados:

  1. Aceda à página do seu projeto no Language Studio.

  2. No menu do lado esquerdo, selecione Rotulagem de dados. Você pode encontrar uma lista de todos os documentos em seu contêiner de armazenamento.

    Gorjeta

    Você pode usar os filtros no menu superior para exibir os documentos sem rótulo para que você possa começar a rotulá-los. Você também pode usar os filtros para exibir os documentos rotulados com um tipo de entidade específico.

  3. Mude para uma única vista de documento a partir do lado esquerdo no menu superior ou selecione um documento específico para começar a rotular. Pode encontrar uma lista de todos os .txt documentos disponíveis no seu projeto à esquerda. Você pode usar o botão Voltar e Avançar na parte inferior da página para navegar pelos documentos.

    Nota

    Se tiver ativado vários idiomas para o seu projeto, encontrará uma lista pendente Idioma no menu superior, que lhe permite selecionar o idioma de cada documento. O hebraico não é suportado em projetos multilingues.

  4. No painel do lado direito, você pode usar o botão Adicionar tipo de entidade para adicionar entidades adicionais ao seu projeto que você perdeu durante a definição do esquema.

  5. Você tem duas opções para rotular seu documento:

    Opção Description
    Rotular usando um pincel Selecione o ícone de pincel ao lado de um tipo de entidade no painel direito e realce o texto no documento que você deseja anotar com esse tipo de entidade.
    Etiquetar usando um menu Realce a palavra que você deseja rotular como uma entidade e um menu será exibido. Selecione o tipo de entidade que deseja atribuir a essa entidade.

    A captura de tela abaixo mostra a rotulagem usando um pincel.

    Uma captura de tela mostrando as opções de rotulagem oferecidas no Custom NER.

  6. No painel do lado direito, sob o pivô Rótulos, você pode encontrar todos os tipos de entidade em seu projeto e a contagem de instâncias rotuladas por cada uma. As entidades pré-construídas serão mostradas para referência, mas você não poderá rotular essas entidades pré-criadas, pois elas são pré-treinadas.

  7. Na seção inferior do painel lateral direito, você pode adicionar o documento atual que está visualizando ao conjunto de treinamento ou ao conjunto de testes. Por padrão, todos os documentos são adicionados ao seu conjunto de treinamento. Consulte os conjuntos de treinamento e teste para obter informações sobre como eles são usados para treinamento e avaliação de modelos.

    Gorjeta

    Se você estiver planejando usar a divisão automática de dados, use a opção padrão de atribuir todos os documentos ao seu conjunto de treinamento.

  8. No pivô Distribuição, você pode exibir a distribuição entre conjuntos de treinamento e teste. Você tem duas opções para visualizar:

    • Total de instâncias em que você pode exibir a contagem de todas as instâncias rotuladas de um tipo de entidade específico.
    • Documentos com pelo menos um rótulo onde cada documento é contado se contiver pelo menos uma instância rotulada dessa entidade.
  9. Quando você está rotulando, suas alterações são sincronizadas periodicamente, se ainda não tiverem sido salvas, você encontrará um aviso na parte superior da página. Se quiser salvar manualmente, selecione o botão Salvar etiquetas na parte inferior da página.

Remover etiquetas

Para remover um rótulo

  1. Selecione a entidade da qual você deseja remover um rótulo.
  2. Percorra o menu apresentado e selecione Remover etiqueta.

Eliminar entidades

Não é possível excluir nenhuma das entidades pré-treinadas da Análise de Texto para integridade porque elas têm um componente pré-criado. Você só tem permissão para excluir categorias de entidades recém-definidas. Para excluir uma entidade, selecione o ícone de exclusão ao lado da entidade que você deseja remover. A exclusão de uma entidade remove todas as instâncias rotuladas do conjunto de dados.

Próximos passos

Depois de rotular seus dados, você pode começar a treinar um modelo que aprenderá com base em seus dados.