Indexes - Analyze
Illustra come un analizzatore suddivide il testo in token.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
Parametri dell'URI
Nome | In | Necessario | Tipo | Descrizione |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL dell'endpoint del servizio di ricerca. |
index
|
path | True |
string |
Nome dell'indice per il quale testare un analizzatore. |
api-version
|
query | True |
string |
Versione dell'API client. |
Intestazione della richiesta
Nome | Necessario | Tipo | Descrizione |
---|---|---|---|
x-ms-client-request-id |
string (uuid) |
ID di rilevamento inviato con la richiesta per facilitare il debug. |
Corpo della richiesta
Nome | Necessario | Tipo | Descrizione |
---|---|---|---|
text | True |
string |
Testo da suddividere in token. |
analyzer |
Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda. |
||
charFilters |
Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer. |
||
tokenFilters |
Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer. |
||
tokenizer |
Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda. |
Risposte
Nome | Tipo | Descrizione |
---|---|---|
200 OK | ||
Other Status Codes |
Risposta di errore. |
Esempio
SearchServiceIndexAnalyze
Esempio di richiesta
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Risposta di esempio
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definizioni
Nome | Descrizione |
---|---|
Analyzed |
Informazioni su un token restituito da un analizzatore. |
Analyze |
Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token. |
Analyze |
Risultato del test di un analizzatore sul testo. |
Char |
Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca. |
Error |
Informazioni aggiuntive sull'errore di gestione delle risorse. |
Error |
Dettagli dell'errore. |
Error |
Risposta di errore |
Lexical |
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca. |
Lexical |
Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca. |
Token |
Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca. |
AnalyzedTokenInfo
Informazioni su un token restituito da un analizzatore.
Nome | Tipo | Descrizione |
---|---|---|
endOffset |
integer (int32) |
Indice dell'ultimo carattere del token nel testo di input. |
position |
integer (int32) |
Posizione del token nel testo di input rispetto ad altri token. Il primo token nel testo di input ha la posizione 0, il successivo ha la posizione 1 e così via. A seconda dell'analizzatore usato, alcuni token potrebbero avere la stessa posizione, ad esempio se sono sinonimi l'uno dell'altro. |
startOffset |
integer (int32) |
Indice del primo carattere del token nel testo di input. |
token |
string |
Token restituito dall'analizzatore. |
AnalyzeRequest
Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.
Nome | Tipo | Descrizione |
---|---|---|
analyzer |
Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda. |
|
charFilters |
Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer. |
|
text |
string |
Testo da suddividere in token. |
tokenFilters |
Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer. |
|
tokenizer |
Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda. |
AnalyzeResult
Risultato del test di un analizzatore sul testo.
Nome | Tipo | Descrizione |
---|---|---|
tokens |
Elenco di token restituiti dall'analizzatore specificato nella richiesta. |
CharFilterName
Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.
Valore | Descrizione |
---|---|
html_strip |
Filtro di caratteri che tenta di rimuovere i costrutti HTML. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Informazioni aggiuntive sull'errore di gestione delle risorse.
Nome | Tipo | Descrizione |
---|---|---|
info |
object |
Informazioni aggiuntive. |
type |
string |
Tipo di informazioni aggiuntive. |
ErrorDetail
Dettagli dell'errore.
Nome | Tipo | Descrizione |
---|---|---|
additionalInfo |
Informazioni aggiuntive sull'errore. |
|
code |
string |
Codice di errore. |
details |
Dettagli dell'errore. |
|
message |
string |
Messaggio di errore. |
target |
string |
Destinazione dell'errore. |
ErrorResponse
Risposta di errore
Nome | Tipo | Descrizione |
---|---|---|
error |
Oggetto error. |
LexicalAnalyzerName
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.
Valore | Descrizione |
---|---|
ar.lucene |
Analizzatore Lucene per l'arabo. |
ar.microsoft |
Analizzatore Microsoft per l'arabo. |
bg.lucene |
Analizzatore Lucene per bulgaro. |
bg.microsoft |
Analizzatore Microsoft per bulgaro. |
bn.microsoft |
Analizzatore Microsoft per Bangla. |
ca.lucene |
Analizzatore Lucene per catalano. |
ca.microsoft |
Analizzatore Microsoft per catalano. |
cs.lucene |
Analizzatore Lucene per ceco. |
cs.microsoft |
Analizzatore Microsoft per ceco. |
da.lucene |
Analizzatore Lucene per danese. |
da.microsoft |
Analizzatore Microsoft per danese. |
de.lucene |
Analizzatore Lucene per tedesco. |
de.microsoft |
Analizzatore Microsoft per tedesco. |
el.lucene |
Analizzatore Lucene per greco. |
el.microsoft |
Analizzatore Microsoft per greco. |
en.lucene |
Analizzatore Lucene per l'inglese. |
en.microsoft |
Analizzatore Microsoft per la lingua inglese. |
es.lucene |
Analizzatore Lucene per spagnolo. |
es.microsoft |
Analizzatore Microsoft per spagnolo. |
et.microsoft |
Analizzatore Microsoft per Estonian. |
eu.lucene |
Analizzatore Lucene per basco. |
fa.lucene |
Analizzatore Lucene per persiano. |
fi.lucene |
Analizzatore Lucene per finlandese. |
fi.microsoft |
Analizzatore Microsoft per il finlandese. |
fr.lucene |
Analizzatore Lucene per francese. |
fr.microsoft |
Analizzatore Microsoft per francese. |
ga.lucene |
Analizzatore Lucene per irlandese. |
gl.lucene |
Analizzatore Lucene per La Galizia. |
gu.microsoft |
Analizzatore Microsoft per Gujarati. |
he.microsoft |
Analizzatore Microsoft per l'ebraico. |
hi.lucene |
Analizzatore Lucene per Hindi. |
hi.microsoft |
Analizzatore Microsoft per Hindi. |
hr.microsoft |
Analizzatore Microsoft per croato. |
hu.lucene |
Analizzatore Lucene per ungherese. |
hu.microsoft |
Analizzatore Microsoft per ungherese. |
hy.lucene |
Analizzatore Lucene per armeno. |
id.lucene |
Analizzatore Lucene per indonesiano. |
id.microsoft |
Analizzatore Microsoft per Indonesiano (Bahasa). |
is.microsoft |
Analizzatore Microsoft per islandese. |
it.lucene |
Analizzatore Lucene per italiano. |
it.microsoft |
Analizzatore Microsoft per italiano. |
ja.lucene |
Analizzatore Lucene per il giapponese. |
ja.microsoft |
Analizzatore Microsoft per il giapponese. |
keyword |
Considera l'intero contenuto di un campo come un singolo token. Ciò è utile per i dati, ad esempio i codici postali, gli ID e alcuni nomi di prodotto. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
Analizzatore Microsoft per Kannada. |
ko.lucene |
Analizzatore Lucene per coreano. |
ko.microsoft |
Analizzatore Microsoft per coreano. |
lt.microsoft |
Analizzatore Microsoft per lituano. |
lv.lucene |
Analizzatore Lucene per lettone. |
lv.microsoft |
Analizzatore Microsoft per lettone. |
ml.microsoft |
Analizzatore Microsoft per Malayalam. |
mr.microsoft |
Analizzatore Microsoft per Marathi. |
ms.microsoft |
Analizzatore Microsoft per il malese (alfabeto latino). |
nb.microsoft |
Analizzatore Microsoft per Norvegese (Bokmål). |
nl.lucene |
Analizzatore Lucene per olandese. |
nl.microsoft |
Analizzatore Microsoft per olandese. |
no.lucene |
Analizzatore Lucene per Norvegese. |
pa.microsoft |
Analizzatore Microsoft per Punjabi. |
pattern |
Separa in modo flessibile il testo in termini tramite un criterio di espressione regolare. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
Analizzatore Lucene per polacco. |
pl.microsoft |
Analizzatore Microsoft per polacco. |
pt-BR.lucene |
Analizzatore Lucene per portoghese (Brasile). |
pt-BR.microsoft |
Analizzatore Microsoft per portoghese (Brasile). |
pt-PT.lucene |
Analizzatore Lucene per portoghese (Portogallo). |
pt-PT.microsoft |
Analizzatore Microsoft per portoghese (Portogallo). |
ro.lucene |
Analizzatore Lucene per romeno. |
ro.microsoft |
Analizzatore Microsoft per romeno. |
ru.lucene |
Analizzatore Lucene per russo. |
ru.microsoft |
Analizzatore Microsoft per russo. |
simple |
Divide il testo in lettere non e li converte in lettere minuscole. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
Analizzatore Microsoft per slovacco. |
sl.microsoft |
Analizzatore Microsoft per sloveno. |
sr-cyrillic.microsoft |
Analizzatore Microsoft per serbo (cirillico). |
sr-latin.microsoft |
Analizzatore Microsoft per serbo (alfabeto latino). |
standard.lucene |
Analizzatore Lucene standard. |
standardasciifolding.lucene |
Analizzatore Lucene di riduzione ASCII standard. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
Divide il testo in corrispondenza di lettere non; Applica i filtri di token minuscoli e non significative. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
Analizzatore Lucene per svedese. |
sv.microsoft |
Analizzatore Microsoft per svedese. |
ta.microsoft |
Analizzatore Microsoft per Tamil. |
te.microsoft |
Analizzatore Microsoft per Telugu. |
th.lucene |
Analizzatore Lucene per Thai. |
th.microsoft |
Analizzatore Microsoft per thai. |
tr.lucene |
Analizzatore Lucene per turco. |
tr.microsoft |
Analizzatore Microsoft per turco. |
uk.microsoft |
Analizzatore Microsoft per ucraino. |
ur.microsoft |
Analizzatore Microsoft per Urdu. |
vi.microsoft |
Analizzatore Microsoft per vietnamiti. |
whitespace |
Analizzatore che usa il tokenizer di spazi vuoti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
Analizzatore Lucene per il cinese (semplificato). |
zh-Hans.microsoft |
Analizzatore Microsoft per il cinese (semplificato). |
zh-Hant.lucene |
Analizzatore Lucene per il cinese (tradizionale). |
zh-Hant.microsoft |
Analizzatore Microsoft per il cinese (tradizionale). |
LexicalTokenizerName
Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.
Valore | Descrizione |
---|---|
classic |
Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
Genera l'intero input come singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
Divide il testo in corrispondenza di lettere non. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
Divide il testo in lettere non e li converte in lettere minuscole. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base. |
microsoft_language_tokenizer |
Divide il testo usando regole specifiche della lingua. |
nGram |
Tokenzza l'input in n-grammi delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
Tokenizer per gerarchie simili al percorso. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
Tokenizer che usa criteri regex corrispondenti per costruire token distinti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
Tokenzza url e messaggi di posta elettronica come un token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
Divide il testo in corrispondenza degli spazi vuoti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.
Valore | Descrizione |
---|---|
apostrophe |
Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
Filtro token che applica il normalizzatore arabo per normalizzare l'ortografia. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
Converte caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (blocco Unicode "Latino di base") nei rispettivi equivalenti ASCII, se tali equivalenti esistono. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
Forma bigrams dei termini CJK generati dal tokenizer standard. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
Normalizza le differenze di larghezza CJK. Piega le varianti fullwidth ASCII nell'equivalente alfabeto latino di base e le varianti Katakana a metà larghezza nell'equivalente Kana. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
Rimuove i possessivi inglesi e i punti dagli acronimi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
Costruisci bigram per i termini che si verificano di frequente durante l'indicizzazione. Anche i termini singoli sono indicizzati, con bigrams sovrapposti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
Normalizza i caratteri tedeschi in base all'euristica dell'algoritmo snowball German2. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
Normalizza il testo in hindi per rimuovere alcune differenze nelle varianti ortografiche. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
Genera ogni token in ingresso due volte, una volta come parola chiave e una volta come parola chiave non. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
Filtro kstem ad alte prestazioni per l'inglese. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
Rimuove parole troppo lunghe o troppo brevi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
Limita il numero di token durante l'indicizzazione. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
Normalizza il testo del token in lettere minuscole. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
nGram_v2 |
Genera n-grammi delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
Applica la normalizzazione per il persiano. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
Creare token per corrispondenze fonetiche. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
Usa l'algoritmo stemming Porter per trasformare il flusso di token. Fare riferimento a http://tartarus.org/~martin/PorterStemmer |
reverse |
Inverte la stringa del token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
Piega i caratteri scandinavi åÅäæÄÆ->a e öÖøØ->o. Inoltre discrimina l'uso di vocali doppie aa, ae, ao, oe e oo, lasciando solo il primo. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
Normalizza l'uso dei caratteri scandinavi intercambiabili. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
Crea combinazioni di token come singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
Filtro che deriva le parole usando uno stemmer generato da Snowball. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
Normalizza la rappresentazione Unicode del testo Sorani. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
Filtro di stemming specifico della lingua. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
Rimuove le parole non significative da un flusso di token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
Taglia gli spazi vuoti iniziali e finali dai token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
Tronca i termini a una lunghezza specifica. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
Filtra i token con lo stesso testo del token precedente. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
Normalizza il testo del token in lettere maiuscole. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
Suddivide le parole in parole secondarie ed esegue trasformazioni facoltative nei gruppi di sottoword. |