Perguntas frequentes sobre o Reconhecimento de Entidade Nomeada Personalizada

Artigo
11/21/2024

Encontre respostas para perguntas frequentes sobre conceitos e cenários relacionados ao NER personalizado na Linguagem de IA do Azure.

Como faço para começar a usar o serviço?

Consulte o início rápido para criar rapidamente seu primeiro projeto ou veja como criar projetos para obter informações mais detalhadas.

Quais são os limites de serviço?

Consulte o artigo sobre limites de serviço para obter mais informações.

Quantos arquivos marcados são necessários?

Geralmente, dados marcados diversos e representativos levam a melhores resultados, dado que a marcação é feita de forma precisa, consistente e completa. Não há um número definido de instâncias marcadas que fará com que cada modelo tenha um bom desempenho. Desempenho altamente dependente do seu esquema e da ambiguidade do seu esquema. Tipos de entidades ambíguas precisam de mais tags. O desempenho também depende da qualidade da sua marcação. O número recomendado de instâncias marcadas por entidade é 50.

A formação está a demorar muito tempo, é expectável?

O processo de formação pode demorar muito tempo. Como uma estimativa aproximada, o tempo de treinamento esperado para arquivos com um comprimento combinado de 12.800.000 caracteres é de 6 horas.

Como faço para criar meu modelo personalizado programaticamente?

Nota

Atualmente, você só pode criar um modelo usando a API REST ou o Language Studio.

Você pode usar as APIs REST para criar seus modelos personalizados. Siga este guia de início rápido para começar a criar um projeto e criar um modelo por meio de APIs para obter exemplos de como chamar a API de criação.

Quando estiver pronto para começar a usar seu modelo para fazer previsões, você poderá usar a API REST ou a biblioteca do cliente.

Qual é o processo de CI/CD recomendado?

Você pode treinar vários modelos no mesmo conjunto de dados dentro do mesmo projeto. Depois de treinar seu modelo com sucesso, você pode visualizar seu desempenho. Você pode implantar e testar seu modelo no Language Studio. Você pode adicionar ou remover rótulos de seus dados e treinar um novo modelo e testá-lo também. Veja os limitesde serviço para saber mais sobre o número máximo de modelos treinados com o mesmo projeto. Ao treinar um modelo, você pode determinar como seu conjunto de dados é dividido em conjuntos de treinamento e teste. Você também pode ter seus dados divididos aleatoriamente em treinamento e conjunto de testes onde não há garantia de que a avaliação do modelo refletido seja aproximadamente o mesmo conjunto de testes e os resultados não sejam comparáveis. É recomendável que você desenvolva seu próprio conjunto de testes e use-o para avaliar ambos os modelos para que você possa medir a melhoria.

Uma pontuação de modelo baixa ou alta garante um desempenho ruim ou bom na produção?

A avaliação do modelo pode nem sempre ser exaustiva. Isto depende:

Se o conjunto de testes for muito pequeno, de modo que as pontuações boas/ruins não são representativas do desempenho real do modelo. Além disso, se um tipo de entidade específico estiver ausente ou sub-representado em seu conjunto de teste, isso afetará o desempenho do modelo.
Diversidade de dados Se os dados cobrirem apenas alguns cenários/exemplos do texto esperado em produção, seu modelo não será exposto a todos os cenários possíveis e poderá ter um desempenho insatisfatório nos cenários em que não foi treinado.
Representação de dados Se o conjunto de dados usado para treinar o modelo não for representativo dos dados que seriam introduzidos no modelo em produção, o desempenho do modelo será muito afetado.

Consulte o artigo de seleção de dados e design de esquema para obter mais informações.

Como posso melhorar o desempenho do modelo?

Veja a matriz de confusão do modelo. Se você notar que um determinado tipo de entidade frequentemente não é previsto corretamente, considere adicionar mais instâncias marcadas para essa classe. Se você notar que dois tipos de entidade são frequentemente previstos um como o outro, isso significa que o esquema é ambíguo, e você deve considerar mesclá-los em um tipo de entidade para um melhor desempenho.
Revise as previsões do conjunto de testes. Se um dos tipos de entidade tiver muito mais instâncias marcadas do que os outros, seu modelo pode ser tendencioso para esse tipo. Adicione mais dados aos outros tipos de entidade ou remova exemplos do tipo dominante.
Saiba mais sobre a seleção de dados e o design de esquemas.
Revise seu conjunto de teste para ver as entidades previstas e marcadas lado a lado para que você possa ter uma ideia melhor do desempenho do seu modelo e decidir se quaisquer alterações no esquema ou nas tags são necessárias.

Porque é que obtenho resultados diferentes quando retreino o meu modelo?

Ao treinar seu modelo, você pode determinar se deseja que seus dados sejam divididos aleatoriamente em conjuntos de treinamento e teste. Se o fizer, não há garantia de que a avaliação do modelo refletido esteja no mesmo conjunto de testes, portanto, os resultados não são comparáveis.
Se você estiver treinando novamente o mesmo modelo, seu conjunto de teste será o mesmo, mas você pode notar uma pequena mudança nas previsões feitas pelo modelo. Isso ocorre porque o modelo treinado não é robusto o suficiente e isso é um fator de quão representativos e distintos são seus dados e a qualidade de seus dados marcados.

Como faço para obter previsões em diferentes idiomas?

Primeiro, você precisa habilitar a opção multilíngue ao criar seu projeto ou pode habilitá-la mais tarde na página de configurações do projeto. Depois de treinar e implantar seu modelo, você pode começar a consultá-lo em vários idiomas. Você pode obter resultados variados para diferentes idiomas. Para melhorar a precisão de qualquer idioma, adicione mais instâncias marcadas ao seu projeto nesse idioma para introduzir o modelo treinado a mais sintaxe desse idioma.

Eu treinei meu modelo, mas não posso testá-lo

Você precisa implantar seu modelo antes de testá-lo.

Como faço para usar meu modelo treinado para previsões?

Depois de implantar seu modelo, você chama a API de previsão, usando a API REST ou bibliotecas de cliente.

Privacidade e segurança dos dados

A Custom NER é um processador de dados para fins do Regulamento Geral sobre a Proteção de Dados (RGPD). Em conformidade com as políticas do GDPR, os usuários do Custom NER têm controle total para visualizar, exportar ou excluir qualquer conteúdo de usuário por meio do Language Studio ou programaticamente usando APIs REST.

Os seus dados são armazenados apenas na sua conta de Armazenamento do Azure. O NER personalizado só tem acesso à leitura durante o treinamento.

Como clonar meu projeto?

Para clonar seu projeto, você precisa usar a API de exportação para exportar os ativos do projeto e, em seguida, importá-los para um novo projeto. Consulte a referência da API REST para ambas as operações.

Partilhar via