Partager via


FAQ sur la reconnaissance d’entités nommées personnalisées

Trouvez des réponses aux questions les plus fréquentes sur les concepts et les scénarios liés à la reconnaissance d’entité nommée (NER) personnalisée dans Azure AI Language.

Comment faire pour prendre en main le service ?

Pour plus de détails, consultez le guide de démarrage rapide pour créer rapidement votre premier projet ou le guide pratique.

Quelles sont les limites du service ?

Pour plus d’informations, consultez l’article sur les limites du service.

Combien de fichiers étiquetés sont nécessaires ?

En général, des données étiquetées diverses et représentatives permettent d’obtenir de meilleurs résultats, à condition que l’étiquetage soit effectué de manière précise, cohérente et complète. Il n’existe aucun nombre défini d’instances étiquetées qui permettront à tous les modèles d’offrir de bonnes performances. Les performances dépendent fortement de votre schéma et de son ambiguïté. Les types d’entités ambigus nécessitent davantage de balises. Les performances dépendent également de la qualité de votre étiquetage. Le nombre recommandé d’instances étiquetées par entité est 50.

L’entraînement prend beaucoup de temps, est-ce normal ?

Le processus d’apprentissage peut prendre beaucoup de temps. Le temps d’apprentissage approximatif attendu pour des fichiers d’une longueur combinée de 12,8 millions de caractères est de 6 heures.

Comment faire pour générer mon modèle personnalisé par programmation ?

Notes

Actuellement, vous pouvez uniquement générer un modèle à l’aide de l’API REST ou de Language Studio.

Vous pouvez utiliser les API REST pour générer vos modèles personnalisés. Suivez ce démarrage rapide pour commencer à créer un projet et un modèle à l’aide d’API, afin obtenir des exemples d’appel de l’API de création.

Quand vous êtes prêt à commencer à utiliser votre modèle pour effectuer des prédictions, vous pouvez utiliser l’API REST ou la bibliothèque cliente.

Vous pouvez effectuer l’apprentissage de plusieurs modèles sur le même jeu de données au sein du même projet. Une fois que vous avez réussi à entraîner votre modèle, vous pouvez voir ses performances. Vous pouvez déployer et tester votre modèle dans Language Studio. Vous pouvez ajouter ou supprimer des étiquettes dans vos données, puis entraîner un nouveau modèle et le tester. Pour connaître le nombre maximal de modèles formés avec le même projet, consultez les limites de service. Lorsque vous entraînez un modèle, vous pouvez déterminer comment découper votre ensemble de données en ensembles d’entraînement et de test. Vous pouvez également avoir vos données divisées de manière aléatoire en un ensemble de formation et un ensemble de test. Dans ce cas, il n'y a aucune garantie que l'évaluation du modèle réfléchi porte sur le même ensemble de test, et les résultats ne sont pas comparables. Nous vous recommandons de développer votre propre jeu de test et de l’utiliser pour évaluer les deux modèles afin de pouvoir mesurer l’amélioration.

Un score de modèle faible ou élevé garantit-il de mauvaises ou bonnes performances en production ?

L’évaluation du modèle n’est pas toujours complète. Cela dépend de ce qui suit :

  • Si le jeu de test est trop petit, les scores, bons ou mauvais, ne sont pas représentatifs des performances réelles du modèle. De même, si un type d’entité est manquant ou sous-représenté dans votre jeu de test, cela affecte les performances du modèle.
  • Diversité des données Si vos données ne couvrent que peu de scénarios/exemples de texte que vous attendez en production, votre modèle n’est pas exposé à tous les scénarios possibles et peut s’exécuter de façon médiocre sur les scénarios sur lesquels il n’a pas été formé.
  • Représentation des données Si le jeu de données utilisé pour effectuer l’apprentissage du modèle n’est pas représentatif des données qui seraient introduites dans le modèle en production, cela affectera considérablement les performances du modèle.

Pour plus d’informations, consultez l’article Sélection de données et conception de schéma.

Comment faire pour améliorer les performances du modèle ?

  • Consultez la matrice de confusion du modèle. Si vous remarquez qu’un certain type d’entité n’est souvent pas prédit correctement, envisagez d’ajouter des instances étiquetées pour cette classe. Si vous remarquez que deux types d’entité sont souvent prédits l’un pour l’autre, cela signifie que le schéma est ambigu et que vous devez envisager de les fusionner dans un type d’entité afin d’obtenir de meilleures performances.

  • Passer en revue les prédictions du jeu de test. Si un type d’entité comprend beaucoup plus d’instances étiquetées que les autres, il se peut que votre modèle soit biaisé vers ce type d’entité. Ajoutez des données aux autres types d’entité ou supprimez des exemples du type dominant.

  • Pour en savoir plus, consultez Sélection de données et conception de schéma.

  • Examinez votre jeu de test pour voir les entités prédites et étiquetées côte à côte afin d’obtenir une meilleure idée des performances de votre modèle et de déterminer si des modifications sont nécessaires dans le schéma ou les étiquettes.

Pourquoi est-ce que j’obtiens des résultats différents lorsque je ré-effectue l’apprentissage de mon modèle ?

  • Lorsque vous effectuez l'apprentissage votre modèle, vous pouvez déterminer si vous souhaitez que vos données soient fractionnées de manière aléatoire en jeux d’apprentissage et de test. Si vous le faites, il n'y a aucune garantie que l'évaluation du modèle reflété se fasse sur le même ensemble de test, les résultats ne sont donc pas comparables.

  • Si vous réentraînez le même modèle, votre jeu de test sera le même, mais vous constaterez peut-être une légère modification des prédictions effectuées par le modèle. Cela est dû au fait que le modèle formé n’est pas suffisamment robuste, et constitue un facteur indiquant la façon dont les données sont représentatives et distinctes, ainsi que la qualité de vos données étiquetées.

Comment obtenir des prédictions dans différentes langues ?

Tout d’abord, vous devez activer l’option multilingue lors de la création de votre projet. Vous pouvez également l’activer ultérieurement à partir de la page des paramètres du projet. Après avoir effectué l’apprentissage de votre modèle, puis l’avoir déployé, vous pouvez commencer à l’interroger dans plusieurs langues. Les résultats peuvent varier d’une langue à l’autre. Pour améliorer la précision d’une langue quelconque, ajoutez des instances étiquetées à votre projet afin d’élargir la syntaxe du modèle dans cette langue.

J’ai entraîné mon modèle, mais je ne peux pas le tester

Vous devez déployer votre modèle avant de pouvoir le tester.

Comment utiliser mon modèle entraîné pour les prédictions ?

Après le déploiement de votre modèle, vous appelez l’API de prédiction à l’aide de l’API REST ou des bibliothèques clientes.

Sécurité et confidentialité des données

La reconnaissance d’entité nommée personnalisée (NER) est un processeur de données en lien avec le Règlement général sur la protection des données (RGPD). Conformément au RGPD, les utilisateurs de NER disposent d’un contrôle total sur l’affichage, l’exportation ou la suppression de tout contenu utilisateur via le Language Studio ou par programme à l’aide d’API REST.

Vos données sont stockées uniquement dans votre compte Stockage Azure. La NER personnalisée n’a accès à leur lecture qu’au cours de l’apprentissage.

Comment faire pour cloner mon projet ?

Pour cloner votre projet, vous devez utiliser l’API d’exportation pour exporter les ressources du projet, puis les importer dans un nouveau projet. Pour les deux opérations, consultez la référence de l’API REST.

Étapes suivantes