Partager via


Indexes - Analyze

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview

Paramètres URI

Nom Dans Obligatoire Type Description
endpoint
path True

string

URL du point de terminaison du service de recherche.

indexName
path True

string

Nom de l’index pour lequel tester un analyseur.

api-version
query True

string

Version de l’API cliente.

En-tête de la demande

Nom Obligatoire Type Description
x-ms-client-request-id

string

uuid

ID de suivi envoyé avec la demande pour faciliter le débogage.

Corps de la demande

Nom Obligatoire Type Description
text True

string

Texte à décomposer en jetons.

analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour rompre le texte donné.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné.

normalizer

LexicalNormalizerName

Nom du normaliseur à utiliser pour normaliser le texte donné.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné.

tokenizer

LexicalTokenizerName

Nom du générateur de jetons à utiliser pour interrompre le texte donné.

Réponses

Nom Type Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Exemple de requête

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exemple de réponse

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom Description
AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour diviser ce texte en jetons.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

LexicalNormalizerName

Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche.

LexicalTokenizerName

Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche.

SearchError

Décrit une condition d’erreur pour l’API.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

Nom Type Description
endOffset

integer

Index du dernier caractère du jeton dans le texte d’entrée.

position

integer

Position du jeton dans le texte d’entrée par rapport aux autres jetons. Le premier jeton du texte d’entrée a la position 0, le suivant a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.

startOffset

integer

Index du premier caractère du jeton dans le texte d’entrée.

token

string

Jeton retourné par l’analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour diviser ce texte en jetons.

Nom Type Description
analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné.

normalizer

LexicalNormalizerName

Nom du normaliseur à utiliser pour normaliser le texte donné.

text

string

Texte à décomposer en jetons.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jeton à utiliser lors de la rupture du texte donné.

tokenizer

LexicalTokenizerName

Nom du générateur de jetons à utiliser pour interrompre le texte donné.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

Nom Type Description
tokens

AnalyzedTokenInfo[]

Liste des jetons retournés par l’analyseur spécifié dans la demande.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Nom Type Description
html_strip

string

Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Nom Type Description
ar.lucene

string

Analyseur Lucene pour l’arabe.

ar.microsoft

string

Analyseur Microsoft pour l’arabe.

bg.lucene

string

Analyseur Lucene pour bulgare.

bg.microsoft

string

Analyseur Microsoft pour le bulgare.

bn.microsoft

string

Analyseur Microsoft pour Bangla.

ca.lucene

string

Analyseur Lucene pour catalan.

ca.microsoft

string

Analyseur Microsoft pour catalan.

cs.lucene

string

Analyseur Lucene pour le tchèque.

cs.microsoft

string

Analyseur Microsoft pour le tchèque.

da.lucene

string

Analyseur Lucene pour le danois.

da.microsoft

string

Analyseur Microsoft pour le danois.

de.lucene

string

Analyseur Lucene pour l’allemand.

de.microsoft

string

Analyseur Microsoft pour l’allemand.

el.lucene

string

Analyseur Lucene pour le grec.

el.microsoft

string

Analyseur Microsoft pour le grec.

en.lucene

string

Analyseur Lucene pour l’anglais.

en.microsoft

string

Microsoft Analyzer pour l’anglais.

es.lucene

string

Analyseur Lucene pour l’espagnol.

es.microsoft

string

Analyseur Microsoft pour l’espagnol.

et.microsoft

string

Analyseur Microsoft pour estonien.

eu.lucene

string

Analyseur Lucene pour le basque.

fa.lucene

string

Analyseur Lucene pour persan.

fi.lucene

string

Analyseur Lucene pour le finnois.

fi.microsoft

string

Analyseur Microsoft pour finnois.

fr.lucene

string

Analyseur Lucene pour Français.

fr.microsoft

string

Analyseur Microsoft pour Français.

ga.lucene

string

Analyseur Lucene pour l’irlandais.

gl.lucene

string

Analyseur Lucene pour galicien.

gu.microsoft

string

Analyseur Microsoft pour Gujarati.

he.microsoft

string

Analyseur Microsoft pour l’hébreu.

hi.lucene

string

Analyseur Lucene pour hindi.

hi.microsoft

string

Analyseur Microsoft pour l’hindi.

hr.microsoft

string

Analyseur Microsoft pour le croate.

hu.lucene

string

Analyseur Lucene pour le hongrois.

hu.microsoft

string

Analyseur Microsoft pour le hongrois.

hy.lucene

string

Analyseur Lucene pour arménien.

id.lucene

string

Analyseur Lucene pour indonésien.

id.microsoft

string

Analyseur Microsoft pour l’indonésien (Bahasa).

is.microsoft

string

Analyseur Microsoft pour l’islande.

it.lucene

string

Analyseur Lucene pour l’italien.

it.microsoft

string

Analyseur Microsoft pour l’italien.

ja.lucene

string

Analyseur Lucene pour le japonais.

ja.microsoft

string

Analyseur Microsoft pour le japonais.

keyword

string

Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postaux, les numéros d’identification et certains noms de produit. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analyseur Microsoft pour Kannada.

ko.lucene

string

Analyseur Lucene pour le coréen.

ko.microsoft

string

Analyseur Microsoft pour le coréen.

lt.microsoft

string

Analyseur Microsoft pour lituanien.

lv.lucene

string

Analyseur Lucene pour letton.

lv.microsoft

string

Analyseur Microsoft pour le letton.

ml.microsoft

string

Analyseur Microsoft pour malayalam.

mr.microsoft

string

Analyseur Microsoft pour Marathi.

ms.microsoft

string

Analyseur Microsoft pour malais (latin).

nb.microsoft

string

Analyseur Microsoft pour norvégien (Bokmål).

nl.lucene

string

Analyseur Lucene pour le néerlandais.

nl.microsoft

string

Analyseur Microsoft pour le néerlandais.

no.lucene

string

Analyseur Lucene pour norvégien.

pa.microsoft

string

Microsoft analyzer for Punjabi.

pattern

string

Sépare le texte de façon flexible en termes via un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analyseur Lucene pour le polonais.

pl.microsoft

string

Analyseur Microsoft pour le polonais.

pt-BR.lucene

string

Analyseur Lucene pour portugais (Brésil).

pt-BR.microsoft

string

Analyseur Microsoft pour le portugais (Brésil).

pt-PT.lucene

string

Analyseur Lucene pour le portugais (Portugal).

pt-PT.microsoft

string

Analyseur Microsoft pour le portugais (Portugal).

ro.lucene

string

Analyseur Lucene pour le roumain.

ro.microsoft

string

Analyseur Microsoft pour le roumain.

ru.lucene

string

Analyseur Lucene pour le russe.

ru.microsoft

string

Analyseur Microsoft pour le russe.

simple

string

Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analyseur Microsoft pour slovaque.

sl.microsoft

string

Microsoft Analyzer pour le slovène.

sr-cyrillic.microsoft

string

Analyseur Microsoft pour le serbe (cyrillique).

sr-latin.microsoft

string

Analyseur Microsoft pour le serbe (latin).

standard.lucene

string

Analyseur Lucene standard.

standardasciifolding.lucene

string

Analyseur Lucene de pliage ASCII standard. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divise le texte aux lettres non-lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analyseur Lucene pour suédois.

sv.microsoft

string

Analyseur Microsoft pour le suédois.

ta.microsoft

string

Analyseur Microsoft pour le tamoul.

te.microsoft

string

Analyseur Microsoft pour Telugu.

th.lucene

string

Analyseur Lucene pour le thaï.

th.microsoft

string

Analyseur Microsoft pour le thaï.

tr.lucene

string

Analyseur Lucene pour le turc.

tr.microsoft

string

Analyseur Microsoft pour le turc.

uk.microsoft

string

Analyseur Microsoft pour l’ukrainien.

ur.microsoft

string

Analyseur Microsoft pour l’ourdou.

vi.microsoft

string

Analyseur Microsoft pour le vietnamien.

whitespace

string

Un analyseur qui utilise le générateur de jetons whitespace. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analyseur Lucene pour le chinois (simplifié).

zh-Hans.microsoft

string

Microsoft Analyzer pour le chinois (simplifié).

zh-Hant.lucene

string

Analyseur Lucene pour le chinois (traditionnel).

zh-Hant.microsoft

string

Analyseur Microsoft pour le chinois (traditionnel).

LexicalNormalizerName

Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche.

Nom Type Description
asciifolding

string

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’ils existent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Normalise le texte du jeton en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Normaliseur standard, qui se compose de minuscules et asciifolding. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Normalise le texte du jeton en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche.

Nom Type Description
classic

string

Générateur de jetons basé sur la grammaire adapté au traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Génère la totalité de l’entrée sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divise un texte à l’endroit des caractères qui ne sont pas des lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divise le texte en utilisant des règles spécifiques à la langue et réduit les mots à leurs formes de base.

microsoft_language_tokenizer

string

Divise le texte en utilisant des règles spécifiques à la langue.

nGram

string

Génère des jetons à partir de l’entrée en n-grammes d’une ou plusieurs tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Générateur de jetons pour les hiérarchies de type chemin. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Générateur de jetons qui utilise la correspondance de modèle regex pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre en minuscules et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Génère des jetons pour des URL et des e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divise le texte au niveau des espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Décrit une condition d’erreur pour l’API.

Nom Type Description
code

string

Un des codes d’erreur définis par le serveur.

details

SearchError[]

Tableau de détails sur les erreurs spécifiques qui ont conduit à cette erreur signalée.

message

string

Représentation lisible par l’homme de l’erreur.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Nom Type Description
apostrophe

string

Supprime tous les caractères suivant une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Un filtre de jetons qui applique le normaliseur arabe pour normaliser l’orthographe. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « latin de base ») en équivalents ASCII, si de tels équivalents existent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forme des bigrams de termes CJK générés à partir du générateur de jetons standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalise les différences de largeur de CJC. Plie les variantes ASCII fullwidth dans le latin de base équivalent et les variantes katakana demi-largeur dans le Kana équivalent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Supprime les possessifs en anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construit des digrammes pour les termes d’occurrence fréquente lors de l’indexation. Les termes uniques sont néanmoins aussi indexés, avec des digrammes superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Génère n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Supprime les élisions. Par exemple, « l’avion » (l’avion) sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalise les caractères allemands selon l’heuristique de l’algorithme de boule de neige German2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalise le texte dans Hindi de façon à supprimer des différences dans les variations orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que jeton non mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Un filtre kstem à hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Supprime les mots qui sont trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalise le texte des jetons en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Génère des n-grammes de la taille donnée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Applique la normalisation pour le persan. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crée des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Utilise l’algorithme de chiffrement Porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverse la chaîne des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Convertit les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il identifie aussi l’utilisation des voyelles doubles aa, ae, ao, oe et oo, et conserve seulement la première voyelle. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crée des combinaisons de jetons sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtre qui permet d’endiguer les mots à l’aide d’un stemmer généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalise la représentation Unicode du texte en sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtre de stemming spécifique au langage. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Supprime les mots vides d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Supprime les espaces de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Élimine les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalise le texte des jetons en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.