Comment créer un projet de classification de texte personnalisée

Article
11/21/2024

Utilisez cet article afin de découvrir comment configurer les conditions requises pour commencer par la classification de texte personnalisée et créer un projet.

Prérequis

Avant de commencer à utiliser la classification de texte personnalisée, vous aurez besoin des éléments suivants :

Un abonnement Azure : créez-en un gratuitement.

Créer une ressource Langage

Avant de commencer à utiliser la classification de texte personnalisée, vous aurez besoin d’une ressource Azure AI Language. Il est recommandé de créer votre ressource de langue et de connecter un compte de stockage à celui-ci dans le portail Azure. La création d’une ressource dans le portail Azure vous permet de créer un compte de stockage Azure en même temps, avec toutes les autorisations nécessaires préconfigurées. Vous pouvez aussi consulter la suite de l’article pour savoir comment utiliser une ressource préexistante et la configurer pour qu’elle fonctionne avec la classification de texte personnalisée.

Vous aurez aussi besoin d’un compte de stockage Azure où vous allez charger vos documents .txt qui seront utilisés pour entraîner un modèle à classifier du texte.

Notes

Vous devez avoir un rôle de propriétaire affecté sur le groupe de ressources pour créer une ressource de langue.
Si vous connecterez un compte de stockage pré-existant, vous devez lui avoir attribué un rôle de propriétaire.

Créer une ressource de langue et connecter un compte de stockage

Notes

Vous ne devez pas déplacer le compte de stockage vers un autre groupe de ressources ou un autre abonnement une fois qu’il est lié à la ressource Language.

Créer une ressource à partir du portail Azure

Accédez au Portail Azure pour créer une ressource Azure AI Language.
Dans la fenêtre qui s’affiche, sélectionnez Classification de texte personnalisée et reconnaissance d’entités nommées personnalisées dans les fonctionnalités personnalisées. Sélectionnez Continuer pour créer votre ressource en bas de l’écran.

Créez une ressource de langue avec les détails suivants.

Nom	Valeur requise
Abonnement	Votre abonnement Azure.
Resource group	Un groupe de ressources comprenant votre ressource. Vous pouvez utiliser un groupe de resources existant ou en créer un.
Région	Une des régions prises en charge. Par exemple, « USA Ouest 2 ».
Nom	Nom de votre ressource.
Niveau tarifaire	Un des niveaux tarifaires pris en charge. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service.

Si vous recevez un message indiquant « votre compte de connexion n’est pas propriétaire du groupe de ressources du compte de stockage sélectionné », votre compte doit avoir un rôle de propriétaire affecté sur le groupe de ressources avant de pouvoir créer une ressource Language. Pour obtenir de l’aide, contactez le propriétaire de votre abonnement Azure.

Vous pouvez déterminer le propriétaire de votre abonnement Azure en recherchant votre groupe de ressources et en suivant le lien vers l’abonnement associé. Ensuite :

Sélectionnez l’onglet Contrôle d’accès (IAM).
Sélectionnez Attributions de rôle.
Filtrez par Rôle : Propriétaire.

Dans la section Classification de texte personnalisée et reconnaissance d’entités nommées personnalisées, sélectionnez un compte de stockage existant ou Nouveau compte de stockage. Notez que ces valeurs vous aident dans le cadre d’un démarrage rapide. Il ne s’agit pas des valeurs du compte de stockage à utiliser dans les environnements de production. Pour éviter la latence lors de la création de votre projet, connectez-vous à des comptes de stockage dans la même région que votre ressource de langue.

Valeur du compte de stockage Valeur recommandée

Nom du compte de stockage Nom quelconque

Type de compte de stockage LRS standard
Vérifiez qu’Avis d’IA responsable est coché. Au bas de la page, sélectionnez Examiner et créer.

Valeur du compte de stockage	Valeur recommandée
Nom du compte de stockage	Nom quelconque
Type de compte de stockage	LRS standard

Créer une ressource de langue à partir de Language Studio

Si c’est votre première connexion, une fenêtre s’affiche dans Language Studio qui vous permet de choisir une ressource de langue existante ou d’en créer une. Vous pouvez aussi créer une ressource en cliquant sur l’icône Paramètres dans le coin supérieur droit, en sélectionnant Ressources, puis en cliquant sur Créer une ressource.

Créez une ressource de langue avec les détails suivants.

Détails de l’instance	Valeur requise
Abonnement Azure	votre abonnement Azure
Groupe de ressources Azure	Votre groupe de ressources Azure
Nom de la ressource Azure	Nom de votre ressource Azure
Emplacement	Région de votre ressource de langue.
Niveau tarifaire	Niveau tarifaire de votre ressource de langue.

Important

Veillez à activer Identité managée quand vous créez une ressource de langue.
Lire et accepter l’avis sur l’intelligence artificielle responsable

Pour utiliser la classification de texte personnalisée, vous devez connecter votre ressource à un compte de stockage. Si ce n’est déjà fait, vous pouvez créer un compte de stockage Azure. Procédez comme suit pour créer votre premier projet et connecter votre compte de stockage.

Connectez-vous à Language Studio. Une fenêtre apparaît pour vous permettre de sélectionner votre abonnement et votre ressource Language. Sélectionnez votre ressource Language.
Dans la section Classifier du texte de Language Studio, sélectionnez Classification de texte personnalisée.
Sélectionnez Créer un projet dans le menu supérieur de la page des projets. La création d’un projet vous permet d’étiqueter les données, et d’entraîner, évaluer, améliorer et déployer vos modèles.
Une fois que vous avez cliqué sur Créer un projet, une fenêtre apparaît pour vous permettre de connecter votre compte de stockage. Si vous avez déjà connecté un compte de stockage, celui-ci s’affiche. Si ce n’est pas le cas, choisissez votre compte de stockage dans la liste déroulante qui s’affiche, puis sélectionnez Connecter le compte de stockage. Cette opération définit les rôles nécessaires pour votre compte de stockage. Cette étape peut retourner une erreur si le rôle propriétaire ne vous est pas attribué sur le compte de stockage.
Notes
- Vous ne devez effectuer cette étape qu’une seule fois pour chaque nouvelle ressource de langue utilisée.
- Ce processus est irréversible. Si vous connectez un compte de stockage à votre ressource de langue, il n’est pas possible de le déconnecter ultérieurement.
- Vous pouvez connecter votre ressource de langue à un seul compte de stockage.
Sélectionnez le type de projet. Vous pouvez créer un projet de Classification multi-étiquettes où chaque document peut appartenir à une ou plusieurs classes ou un projet de Classification avec une seule étiquette où chaque document peut appartenir à une classe uniquement. Le type sélectionné ne peut pas être modifié ultérieurement. En savoir plus sur les types de projets
Entrez les informations du projet, y compris un nom, une description et la langue des documents du projet. Si vous utilisez l’exemple de jeu de données, sélectionnez Anglais. Vous ne pourrez plus changer le nom de votre projet. Sélectionnez Suivant.

Conseil

Votre jeu de données n’a pas besoin d’être entièrement dans la même langue. Vous pouvez avoir plusieurs fichiers comportant des langues prises en charge différentes. Si votre jeu de données contient des documents en différentes langues ou si vous prévoyez des textes en d’autres langues au moment de l’exécution, sélectionnez l’option Activer un jeu de données multilingue quand vous entrez les informations de base de votre projet. Cette option peut être activée ultérieurement dans la page des Paramètres du projet.
Sélectionnez le conteneur dans lequel vous avez chargé votre jeu de données.

Notes

Si vous avez déjà étiqueté vos données, vérifiez qu’elles respectent le format pris en charge, sélectionnez Oui, mes documents comportent déjà des étiquettes et j’ai mis en forme le fichier d’étiquettes JSON, puis sélectionnez le fichier d’étiquettes dans le menu déroulant en dessous.

Si vous utilisez l’un des exemples de jeux de données, utilisez le fichier json webOfScience_labelsFile ou movieLabels inclus. Sélectionnez ensuite Suivant.
Passez en revue les données entrées, puis sélectionnez Créer un projet.

Vous pouvez créer une ressource et un compte de stockage en utilisant les fichiers de modèles et de paramètres CLI suivants, qui sont hébergés sur GitHub.

Modifiez les valeurs suivantes dans le fichier de paramètres :

Nom du paramètre	Description de la valeur
`name`	Nom de votre ressource Language
`location`	Région où votre ressource est hébergée. Pour plus d’informations, consultez Prise en charge des régions.
`sku`	Niveau tarifaire de votre ressource. Pour plus d’informations, consultez Limites du service.
`storageResourceName`	Nom de votre compte de stockage
`storageLocation`	Région où votre compte de stockage est hébergé.
`storageSkuType`	Référence SKU de votre compte de stockage.
`storageResourceGroupName`	Groupe de ressources de votre compte de stockage

Utilisez la commande PowerShell suivante pour déployer le modèle Azure Resource Manager (ARM) avec les fichiers que vous avez modifiés.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Consultez la documentation du modèle ARM pour plus d’informations sur le déploiement de modèles et les fichiers de paramètres.

Notes

Le processus de connexion d’un compte de stockage à votre ressource de langue est irréversible, il ne peut pas être déconnecté ultérieurement.
Vous ne pouvez connecter votre ressource de langue qu’à un seul compte de stockage.

Utilisation d’une ressource de langue préexistante

Condition requise	Description
Régions	Vérifiez que votre ressource existante est provisionnée dans une des régions prises en charge. Si vous n’avez pas de ressource, vous devez en créer un dans une région prise en charge.
Niveau tarifaire	Le niveau tarifaire applicable à votre ressource.
Identité managée	Vérifiez que le paramètre d’identité managée par la ressource est activé. Si ce n’est pas le cas, lisez la section suivante.

Pour utiliser la classification de texte personnalisée, vous devez créer un compte Stockage Azure si vous n’en avez pas déjà un.

Activer la gestion des identités pour votre ressource

Azure portal
Language Studio

Votre ressource de langue doit disposer de la gestion des identités. Pour l’activer à l’aide du portail Azure :

Accéder à votre ressource de langue
Dans le menu de gauche, sous la section Gestion des ressources, sélectionnez Identité
Sous l’onglet Attribuée par le système, veillez à définir État sur Activé

Activer la fonctionnalité de classification de texte personnalisée

Veillez à activer la fonctionnalité Classification de texte personnalisée / Reconnaissance d’entité nommée personnalisée à partir du portail Azure.

Accéder à votre ressource de langue dans le portail Azure
Dans le menu de gauche, dans la sectionGestion des ressources, sélectionnez Fonctionnalités
Activer la fonctionnalité Classification personnalisée des textes / la reconnaissance personnalisée des entités nommées
Se connecter à votre compte de stockage
Sélectionnez Appliquer

Important

Assurez-vous que votre ressource de langue dispose d’un rôle de contributeur aux données Blob du stockage affecté sur le compte de stockage que vous connectez.

Définir des rôles pour votre ressource Azure AI Language et votre compte de stockage

Procédez comme suit afin de définir les rôles requis pour votre ressource de langue et votre compte de stockage.

Rôles pour votre ressource Azure AI Language

Accédez à votre compte de stockage ou ressource de langue dans le portail Azure.
Sélectionnez Contrôle d’accès (IAM) dans le menu de navigation de gauche.
Sélectionnez Ajouter pour Ajouter des attributions de rôles, puis choisissez le rôle approprié pour votre compte.

Le rôle de propriétaire ou de contributeur doit vous être attribué sur votre ressource de langue.
Dans le champ Attribuer l’accès à, sélectionnez Utilisateur, groupe ou principal du service
Choisir Sélectionner des membres
Sélectionnez votre nom d’utilisateur. Vous pouvez rechercher des noms d’utilisateur dans le champ Sélectionner. Répétez cette opération pour tous les rôles.
Répétez ces étapes pour tous les comptes d’utilisateur qui ont besoin d’accéder à cette ressource.

Rôles pour votre compte de stockage

Accédez à la page de votre compte de stockage dans le portail Azure.
Sélectionnez Contrôle d’accès (IAM) dans le menu de navigation de gauche.
Sélectionnez Ajouter pour ajouter des attributions de rôle, puis choisissez le rôle de contributeur aux données Blob du stockage sur le compte de stockage.
Dans le champ Attribuer l’accès à, sélectionnez Identité managée.
Choisir Sélectionner des membres
Sélectionnez votre abonnement et Langue comme identité managée. Vous pouvez rechercher des noms d’utilisateur dans le champ Sélectionner.

Important

Si vous disposez d’un réseau virtuel ou d’un point de terminaison privé, veillez à sélectionner Autoriser les services Azure dans la liste des services approuvés à accéder à ce compte de stockage dans le portail Azure.

Activer CORS pour votre compte de stockage

Veillez à autoriser les méthodes (GET, PUT, DELETE) au moment d’autoriser le partage de ressources cross-origin (CORS). Définissez le champ des origines autorisées sur https://language.cognitive.azure.com. Autorisez tous les en-têtes en ajoutant * aux valeurs d’en-tête autorisées et définissez l’âge maximal sur 500.

Créer un projet de classification de texte personnalisée

Une fois votre ressource et votre conteneur de stockage configurés, créez un projet de classification de texte personnalisé. Un projet est une zone de travail qui vous permet de créer des modèles IA personnalisés en fonction de vos données. Vous et les autres personnes qui disposent d’un accès à la ressource Azure utilisée peuvent accéder à votre projet. Si vous avez des données étiquetées, vous pouvez commencer par les importer.

Language Studio
API REST

Connectez-vous à Language Studio. Une fenêtre apparaît pour vous permettre de sélectionner votre abonnement et votre ressource Language. Sélectionnez votre ressource Language.
Dans la section Classifier du texte de Language Studio, sélectionnez Classification de texte personnalisée.
Sélectionnez Créer un projet dans le menu supérieur de la page des projets. La création d’un projet vous permet d’étiqueter les données, et d’entraîner, évaluer, améliorer et déployer vos modèles.
Une fois que vous avez cliqué sur Créer un projet, une fenêtre apparaît pour vous permettre de connecter votre compte de stockage. Si vous avez déjà connecté un compte de stockage, celui-ci s’affiche. Si ce n’est pas le cas, choisissez votre compte de stockage dans la liste déroulante qui s’affiche, puis sélectionnez Connecter le compte de stockage. Cette opération définit les rôles nécessaires pour votre compte de stockage. Cette étape peut retourner une erreur si le rôle propriétaire ne vous est pas attribué sur le compte de stockage.
Notes
- Vous ne devez effectuer cette étape qu’une seule fois pour chaque nouvelle ressource de langue utilisée.
- Ce processus est irréversible. Si vous connectez un compte de stockage à votre ressource de langue, il n’est pas possible de le déconnecter ultérieurement.
- Vous pouvez connecter votre ressource de langue à un seul compte de stockage.
Sélectionnez le type de projet. Vous pouvez créer un projet de Classification multi-étiquettes où chaque document peut appartenir à une ou plusieurs classes ou un projet de Classification avec une seule étiquette où chaque document peut appartenir à une classe uniquement. Le type sélectionné ne peut pas être modifié ultérieurement. En savoir plus sur les types de projets
Entrez les informations du projet, y compris un nom, une description et la langue des documents du projet. Si vous utilisez l’exemple de jeu de données, sélectionnez Anglais. Vous ne pourrez plus changer le nom de votre projet. Sélectionnez Suivant.

Conseil

Votre jeu de données n’a pas besoin d’être entièrement dans la même langue. Vous pouvez avoir plusieurs fichiers comportant des langues prises en charge différentes. Si votre jeu de données contient des documents en différentes langues ou si vous prévoyez des textes en d’autres langues au moment de l’exécution, sélectionnez l’option Activer un jeu de données multilingue quand vous entrez les informations de base de votre projet. Cette option peut être activée ultérieurement dans la page des Paramètres du projet.
Sélectionnez le conteneur dans lequel vous avez chargé votre jeu de données.

Notes

Si vous avez déjà étiqueté vos données, vérifiez qu’elles respectent le format pris en charge, sélectionnez Oui, mes documents comportent déjà des étiquettes et j’ai mis en forme le fichier d’étiquettes JSON, puis sélectionnez le fichier d’étiquettes dans le menu déroulant en dessous.

Si vous utilisez l’un des exemples de jeux de données, utilisez le fichier json webOfScience_labelsFile ou movieLabels inclus. Sélectionnez ensuite Suivant.
Passez en revue les données entrées, puis sélectionnez Créer un projet.

Pour commencer à créer un modèle de classification de texte personnalisée, vous devez créer un projet. La création d’un projet vous permet d’étiqueter les données, et d’entraîner, évaluer, améliorer et déployer vos modèles.

Notes

Le nom du projet est sensible à la casse pour toutes les opérations.

Créez une requête PATCH en utilisant l’URL, les en-têtes et le corps JSON suivants pour créer votre projet.

URL de la demande

Utilisez l’URL suivante pour créer un projet. Remplacez les valeurs d’espace réservé suivantes par vos valeurs :

{Endpoint}/language/authoring/analyze-text/projects/{projectName}?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
`{API-VERSION}`	Version de l’API que vous appelez. La valeur référencée ici concerne la dernière version publiée. Pour plus d’informations sur les autres versions d’API disponibles, consultez Cycle de vie du modèle.	`2022-05-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

body

Utilisez le code JSON suivant dans votre demande. Remplacez les valeurs d’espace réservé suivantes par vos valeurs :

Classification avec plusieurs étiquettes
Classification avec une seule étiquette

{
  "projectName": "{PROJECT-NAME}",
  "language": "{LANGUAGE-CODE}",
  "projectKind": "customMultiLabelClassification",
  "description": "Project description",
  "multilingual": "True",
  "storageInputContainerName": "{CONTAINER-NAME}"
}

Clé	Espace réservé	Valeur	Exemple
projectName	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
langage	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des documents utilisés dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`en-us`
projectKind	`customMultiLabelClassification`	Type de projet.	`customMultiLabelClassification`
multilingue	`true`	Valeur booléenne permettant à l’ensemble de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`true`
storageInputContainerName	`{CONTAINER-NAME}`	Nom du conteneur de stockage Azure dans lequel vous avez chargé vos documents.	`myContainer`

{
  "projectName": "{PROJECT-NAME}",
  "language": "{LANGUAGE-CODE}",
  "projectKind": "customSingleLabelClassification",
  "description": "Project description",
  "multilingual": "True",
  "storageInputContainerName": "{CONTAINER-NAME}"
}

Clé	Espace réservé	Valeur	Exemple
projectName	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
langage	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des documents utilisés dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`en-us`
projectKind	`customSingleLabelClassification`	Type de projet.	`customSingleLabelClassification`
multilingue	`true`	Valeur booléenne permettant à l’ensemble de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`true`
storageInputContainerName	`{CONTAINER-NAME}`	Nom du conteneur de stockage Azure dans lequel vous avez chargé vos documents.	`myContainer`

Cette requête retourne une réponse 201, qui signifie que le projet est créé.

Cette demande renvoie une erreur si :

La ressource sélectionnée n’a pas les autorisations appropriées pour le compte de stockage.

Importer un projet de classification de texte personnalisée

Si vous disposez déjà de données étiquetées, vous pouvez les utiliser pour commencer à utiliser le service. Assurez-vous que vos données étiquetées utilisent les formats de données acceptés.

Language Studio
API REST

Connectez-vous à Language Studio. Une fenêtre apparaît pour vous permettre de sélectionner votre abonnement et votre ressource Language. Sélectionnez votre ressource Language.
Dans la section Classifier du texte de Language Studio, sélectionnez Classification de texte personnalisée.
Sélectionnez Créer un projet dans le menu supérieur de la page des projets. La création d’un projet vous permet d’étiqueter les données, et d’entraîner, évaluer, améliorer et déployer vos modèles.
Une fois que vous avez sélectionné Créer un projet, un écran apparaît pour vous permettre de connecter votre compte de stockage. Si vous ne trouvez pas votre compte de stockage, vérifiez que vous avez créé une ressource en suivant les étapes recommandées. Si vous avez déjà connecté un compte de stockage à votre ressource de langue, vous verrez votre compte de stockage connecté.
Notes
- Vous ne devez effectuer cette étape qu’une seule fois pour chaque nouvelle ressource de langue utilisée.
- Ce processus est irréversible. Si vous connectez un compte de stockage à votre ressource de langue, il n’est pas possible de le déconnecter ultérieurement.
- Vous pouvez connecter votre ressource de langue à un seul compte de stockage.
Sélectionnez le type de projet. Vous pouvez créer un projet de Classification multi-étiquettes où chaque document peut appartenir à une ou plusieurs classes ou un projet de Classification avec une seule étiquette où chaque document peut appartenir à une classe uniquement. Le type sélectionné ne peut pas être modifié ultérieurement.
Entrez les informations du projet, y compris un nom, une description et la langue des documents du projet. Vous ne pourrez plus changer le nom de votre projet. Sélectionnez Suivant.

Conseil

Votre jeu de données n’a pas besoin d’être entièrement dans la même langue. Vous pouvez avoir plusieurs fichiers comportant des langues prises en charge différentes. Si votre jeu de données contient des documents en différentes langues ou si vous prévoyez des textes en d’autres langues au moment de l’exécution, sélectionnez l’option Activer un jeu de données multilingue quand vous entrez les informations de base de votre projet. Cette option peut être activée ultérieurement dans la page des Paramètres du projet.
Sélectionnez le conteneur dans lequel vous avez chargé votre jeu de données.
Sélectionnez Oui, mes documents sont déjà étiquetés et j’ai mis en forme le fichier d’étiquettes JSON, puis sélectionnez le fichier d’étiquettes dans le menu déroulant en dessous pour importer votre fichier d’étiquettes JSON. Vérifiez que le fichier respecte le format pris en charge.
Cliquez sur Suivant.
Passez en revue les données entrées, puis sélectionnez Créer un projet.

Soumettez une demande POST en utilisant l’URL, les en-têtes et le corps JSON suivants pour importer votre fichier d’étiquettes. Vérifiez que votre fichier d’étiquettes respecte le format accepté.

Si un projet portant le même nom existe déjà, les données de ce projet sont remplacées.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/:import?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
`{API-VERSION}`	Version de l’API que vous appelez. La valeur référencée ici concerne la dernière version publiée. En savoir plus sur les autres versions d’API disponibles	`2022-05-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

body

Utilisez le code JSON suivant dans votre demande. Remplacez les valeurs d’espace réservé suivantes par vos valeurs :

Classification avec plusieurs étiquettes
Classification avec une seule étiquette

{
  "projectFileVersion": "{API-VERSION}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectName": "{PROJECT-NAME}",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectKind": "customMultiLabelClassification",
    "description": "Trying out custom multi label text classification",
    "language": "{LANGUAGE-CODE}",
    "multilingual": true,
    "settings": {}
  },
  "assets": {
    "projectKind": "customMultiLabelClassification",
    "classes": [
      {
        "category": "Class1"
      },
      {
        "category": "Class2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class1"
          },
          {
            "category": "Class2"
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class2"
          }
        ]
      }
    ]
  }
}

Clé	Espace réservé	Valeur	Exemple
api-version	`{API-VERSION}`	Version de l’API que vous appelez. La version utilisée ici doit être la même version d’API dans l’URL. En savoir plus sur les autres versions d’API disponibles	`2022-05-01`
projectName	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
projectKind	`customMultiLabelClassification`	Type de projet.	`customMultiLabelClassification`
langage	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des documents utilisés dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`en-us`
multilingue	`true`	Valeur booléenne permettant à l’ensemble de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`true`
storageInputContainerName	`{CONTAINER-NAME}`	Nom du conteneur de stockage Azure dans lequel vous avez chargé vos documents.	`myContainer`
Classes	[]	Tableau contenant l’ensemble des classes contenues dans le projet. Il s’agit des classes selon lesquelles vous souhaitez classifier vos documents.	[]
dans des documents	[]	Tableau contenant tous les documents de votre projet et les classes étiquetées pour ce document.	[]
location	`{DOCUMENT-NAME}`	Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document.	`doc1.txt`
dataset	`{DATASET}`	Jeu de test où ce document va être placé lors du fractionnement avant l’entraînement. Pour plus d’informations, consultez Guide pratique pour effectuer l’apprentissage d’un modèle. Les valeurs possibles pour cette propriété sont `Train` et `Test`.	`Train`

{
  "projectFileVersion": "{API-VERSION}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectName": "{PROJECT-NAME}",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectKind": "customSingleLabelClassification",
    "description": "Trying out custom multi label text classification",
    "language": "{LANGUAGE-CODE}",
    "multilingual": true,
    "settings": {}
  },
  "assets": {
    "projectKind": "customSingleLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class2"
                }
            },
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class1"
                }
            }
        ]
    }
}

Clé	Espace réservé	Valeur	Exemple
api-version	`{API-VERSION}`	Version de l’API que vous appelez. La version utilisée ici doit être la même version d’API dans l’URL.	`2022-05-01`
projectName	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
projectKind	`customSingleLabelClassification`	Type de projet.	`customSingleLabelClassification`
langage	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des documents utilisés dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`en-us`
multilingue	`true`	Valeur booléenne permettant à l’ensemble de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`true`
storageInputContainerName	`{CONTAINER-NAME}`	Nom du conteneur de stockage Azure dans lequel vous avez chargé vos documents.	`myContainer`
Classes	[]	Tableau contenant l’ensemble des classes contenues dans le projet. Il s’agit des classes selon lesquelles vous souhaitez classifier vos documents.	[]
dans des documents	[]	Tableau contenant tous les documents de votre projet et la classe auquel ils appartiennent.	[]
location	`{DOCUMENT-NAME}`	Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document.	`doc1.txt`
dataset	`{DATASET}`	Jeu de test où ce document va être placé lors du fractionnement avant l’entraînement. Consultez Guide pratique pour effectuer l’apprentissage d’un modèle pour en savoir plus sur le fractionnement des données. Les valeurs possibles pour cette propriété sont `Train` et `Test`.	`Train`

Une fois que vous avez envoyé votre requête API, vous recevez une réponse 202 indiquant que le travail a été envoyé correctement. Dans les en-têtes de réponse, extrayez la valeur operation-location. Elle est au format suivant :

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} est utilisé pour identifier votre demande, car cette opération est asynchrone. Vous utilisez cette URL à l’étape suivante pour obtenir l’état du travail d’importation.

Scénarios d’erreur possibles pour cette requête :

La ressource sélectionnée n’a pas les autorisations appropriées pour le compte de stockage.
Le storageInputContainerName spécifié n’existe pas.
Le code de langue utilisé est non valide ou si le type de code de langue n’est pas une chaîne.
La valeur multilingual est une chaîne et non pas une valeur booléenne.

Accédez à la page des paramètres de votre projet dans Language Studio.
Vous pouvez voir les détails du projet.
Dans cette page, vous pouvez mettre à jour la description du projet et activer/désactiver le jeu de données multilingue dans les paramètres du projet.
Vous pouvez également afficher le compte de stockage et le conteneur connectés à votre ressource de langue.
Vous pouvez également récupérer votre clé primaire de ressource à partir de cette page.

Pour obtenir les détails du projet de classification de texte personnalisée, envoyez une requête GET en utilisant l’URL et les en-têtes suivants. Remplacez les valeurs d’espace réservé par vos propres valeurs.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
`{API-VERSION}`	Version de l’API que vous appelez. La valeur référencée ici correspond à la dernière version du modèle publiée.	`2022-05-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

Corps de la réponse

Une fois que vous avez envoyé la demande, vous obtenez la réponse suivante.

{
  "createdDateTime": "2022-04-23T13:39:09.384Z",
  "lastModifiedDateTime": "2022-04-23T13:39:09.384Z",
  "lastTrainedDateTime": "2022-04-23T13:39:09.384Z",
  "lastDeployedDateTime": "2022-04-23T13:39:09.384Z",
  "projectKind": "customSingleLabelClassification",
  "storageInputContainerName": "{CONTAINER-NAME}",
  "projectName": "{PROJECT-NAME}",
  "multilingual": true,
  "description": "Project description",
  "language": "{LANGUAGE-CODE}"
}

Valeur	espace réservé	Description	Exemple
`projectKind`	`customSingleLabelClassification`	Type de projet.	Cette valeur peut être `customSingleLabelClassification` ou `customMultiLabelClassification`.
`storageInputContainerName`	`{CONTAINER-NAME}`	Nom du conteneur de stockage Azure dans lequel vous avez chargé vos documents.	`myContainer`
`projectName`	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
`multilingual`		Valeur booléenne qui vous permet d’utiliser des documents en plusieurs langues dans votre jeu de données. Lorsque votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Pour plus d’informations sur la prise en charge multilingue, consultez Prise en charge de la langue.	`true`
`language`	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des documents utilisés dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`en-us`

Une fois que vous avez envoyé votre demande d’API, vous recevrez une réponse 200 confirmant la réussite et un corps de réponse JSON avec les détails de votre projet.

Supprimer le projet

Language Studio
API REST

Une fois que vous n’avez plus besoin de votre projet, vous pouvez le supprimer à l’aide de Language Studio. Sélectionnez Classification de texte personnalisée en haut, et sélectionnez le projet à supprimer. Sélectionnez Supprimer dans le menu supérieur pour supprimer le projet.

Quand vous n’avez plus besoin de votre projet, vous pouvez le supprimer avec la demande DELETE suivante. Remplacez les valeurs d’espace réservé par vos propres valeurs.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`myProject`
`{API-VERSION}`	Version de l’API que vous appelez. La valeur référencée ici concerne la dernière version publiée. En savoir plus sur les autres versions d’API disponibles	`2022-05-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	active
Ocp-Apim-Subscription-Key	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

Une fois que vous avez envoyé votre requête API, vous recevez une réponse 202 indiquant la réussite, ce qui signifie que votre projet a été supprimé. Un appel réussi donne un en-tête Operation-Location utilisé pour vérifier l’état du travail.

Étapes suivantes

Vous devez avoir une idée du schéma de projet que vous allez utiliser pour étiqueter vos données.
Une fois votre projet créé, vous pouvez commencer à étiqueter vos données, ce qui indiquera à votre modèle de classification de texte comment interpréter le texte, et servira à l’entraînement et à l’évaluation.

Partager via

Comment créer un projet de classification de texte personnalisée

Prérequis

Créer une ressource Langage

Créer une ressource de langue et connecter un compte de stockage

Créer une ressource à partir du portail Azure

Créer une ressource de langue à partir de Language Studio

Utilisation d’une ressource de langue préexistante

Activer la gestion des identités pour votre ressource

Activer la fonctionnalité de classification de texte personnalisée

Définir des rôles pour votre ressource Azure AI Language et votre compte de stockage

Rôles pour votre ressource Azure AI Language

Rôles pour votre compte de stockage

Activer CORS pour votre compte de stockage

Créer un projet de classification de texte personnalisée

URL de la demande

headers

body

Importer un projet de classification de texte personnalisée

headers

body

Obtenir les détails du projet

headers

Corps de la réponse

Supprimer le projet

headers

Étapes suivantes

Commentaires

Ressources supplémentaires