Détecter les langues
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Détecte la langue de chaque ligne du fichier d’entrée
catégorie : Analyse de texte
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module détecter les langues dans Machine Learning Studio (classic) pour analyser l’entrée de texte et identifier la langue associée à chaque enregistrement dans l’entrée.
L’algorithme de détection de langage peut identifier de nombreuses langues différentes. Il vous suffit de spécifier la colonne de chaîne à analyser et le nombre total de langues à détecter. L’algorithme analyse chaque ligne de texte et attribue un score de probabilité pour chaque langue. La langue de la première colonne de résultats est celle qui a obtenu le score le plus élevé.
Comment configurer la fonctionnalité détecter les langues
ajoutez le jeu de données contenant le texte que vous souhaitez analyser à une expérience dans Machine Learning Studio (classic). La colonne contenant le texte à analyser doit être du type de données chaîne.
Le DataSet ne doit pas contenir de colonne d’étiquette ; l’algorithme de détection de langage fonctionne exclusivement sur les fonctionnalités linguistiques des langues prises en charge.
Si vous importez de nouvelles données, assurez-vous que vos données sont enregistrées au format UTF-8. Les autres formats Unicode ne sont pas pris en charge.
Ajoutez le module détecter les langues à votre expérience et connectez le jeu de données avec le texte de la détection de la langue.
Pour colonne de texte, choisissez la colonne que vous souhaitez analyser.
Pour la limite supérieure du nombre de langues à détecter, indiquez le nombre maximal de langues à détecter.
La définition d’une limite supérieure pour le nombre de langues peut améliorer les performances.
Exécutez l’expérience.
Résultats
Le module détecter les langues génère un identificateur de langue et un score pour chaque ligne.
Par exemple, le tableau suivant contient un exemple d’analyse sur les données de test.
Les deux premières colonnes col1 et étiquette de langue sont des colonnes transmises à partir du jeu de données d’entrée. Dans cet exemple, étant donné que le jeu de données d’entrée a été conçu pour tester le module, le langage attendu était déjà connu et est fourni dans la colonne étiquette.
Les colonnes restantes sont générées par le module détecter les langages . S’il existe des correspondances de langue probable, plusieurs langues peuvent être répertoriées, avec un score pour chacun d’entre eux. Dans ce cas, le module prédit une seule langue pour chaque ligne, ainsi que le score de probabilité pour cette langue.
Si le module ne parvient pas à détecter de langage avec un score suffisamment élevé, le résultat (inconnu) avec un score de 0 correspond à la sortie. Toutefois, les langues prises en charge par le module peuvent changer au fil du temps, à mesure que l’API est mise à jour.
Col1 | Étiquette de langue | Langage col1 | Col1 Iso6391 langage) | Score du langage de Iso6391 col1 |
---|---|---|---|---|
Il s’agissait d’un hôtel merveilleux avec un personnel convivial et un bon service | Anglais | Anglais | en | 100 |
Es War Ein wunderbares Hotel mit freundlichem Personal und guter Service | Allemand | Allemand | de | 100 |
C’est un magnifique hôtel pour le non-personnel sympathique et le non-service de qualité | Français | Français | fr | 100 |
Det var et Dejligt Hotel med et venligt personaler og service | Danois | Danois | nl | 100 |
Va un magnífic Hotel AMB non Personal Amable | Catalan | Catalan | ca | 92,30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Japonais | (Inconnu) | 0 | |
qu mebpa’mey naQ convivial QaQ chavmoH-je | Klingon | Français | fr | 77,5 |
Exemples
Pour obtenir des exemples d’utilisation du module détecter les langues dans une expérience, consultez la Azure ai Gallery:
- Filtrer les titres de film par langue: détecte la langue utilisée dans les noms de films, puis utilise l’identificateur de langue pour fractionner le jeu de données en films anglais et non anglais.
Notes techniques
pour une idée générale des langues qui peuvent potentiellement être détectées, reportez-vous à Bing Traduction.
il est possible de détecter beaucoup plus de langues que Machine Learning actuellement prises en charge pour l’analyse de texte avancée. Nous vous recommandons d’utiliser les résultats de la détection des langues pour filtrer les résultats que vous envoyez à d’autres modules qui requièrent un traitement spécifique à la langue.
les services linguistiques sous-jacents sont également utilisés par le service Analyse de texte dans Azure Cognitive Services.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Entrée |
Paramètres du module
Nom | Type | Plage | Facultatif | Default | Description |
---|---|---|---|---|---|
Limite supérieure du nombre de langues à détecter | Integer | [1 ; 184] | Obligatoire | 1 | Limite supérieure du nombre de langues à détecter. |
Colonne de texte | ColumnSelection | Obligatoire | Nom ou index de base un de la colonne de texte. |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Le résultat |
Exceptions
Exception | Description |
---|---|
Erreur 0003 | Cette exception se produit si une ou plusieurs entrées sont null ou vide. |
Erreur 0010 | Une exception se produit si les jeux de données d’entrée possèdent des noms de colonnes qui ne correspondent pas alors qu’ils le devraient correspondre. |
Erreur 0016 | Une exception se produit si des jeux de données d’entrée transmis au module possèdent des types de colonnes incompatibles les uns avec les autres. |
Erreur 0008 | Une exception se produit si le paramètre n’est pas dans la plage. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.