Condividi tramite


WordsSegmenter Classe

Definizione

Classe segmentatore che è in grado di segmentare il testo fornito in parole o stem della parola (a seconda della lingua specifica).

public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
Ereditarietà
Object Platform::Object IInspectable WordsSegmenter
Attributi

Requisiti Windows

Famiglia di dispositivi
Windows 10 (è stato introdotto in 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox)
API contract
Windows.Foundation.UniversalApiContract (è stato introdotto in v1.0)

Commenti

Per le lingue che non usano spazi tra parole (ad esempio giapponese, cinese, coreano e thai), l'uso di un segmentatore è l'unico modo per ottenere singole parole per scenari di elaborazione testuale, ad esempio la ricerca di parole chiave.

La lingua fornita quando questo oggetto viene costruito viene corrispondente alle lingue con word breaker nel sistema e vengono usate le regole di segmentazione delle parole migliori. La lingua non deve essere una delle lingue supportate dall'app. Se non sono disponibili regole di linguaggio supportate in particolare per tale lingua, vengono usate le regole di lingua neutrale (un'implementazione dell'allegato Standard Unicode #29 Unicode Text Segmentation) e la proprietà ResolvedLanguage è impostata su "und" (linguaggio non definito).

Per gli scenari di ricerca delle parole chiave, è sempre consigliabile richiedere un segmento nella lingua del contenuto del testo.

Per gli scenari di controllo ortografico, alcuni segmentatori di lingua (ad esempio tedesco) possono restituire più segmenti di parola stem per una singola parola composta. Al contrario, le API di controllo ortografico potrebbero aspettarsi che le parole vengano mantenute insieme come una singola parola. Per tali lingue, è possibile scegliere di forzare le regole di segmentazione neutrale del linguaggio richiedendo esplicitamente il segmento "und" (lingua non determinata). Tuttavia, in questo modo, ridurrà notevolmente la qualità di interruzione delle lingue non spaziali. È pertanto consigliabile usare l'API Language.Script per determinare se il linguaggio di contenuto usa uno degli script non spaziati seguenti:

Script Linguaggio
Bopo Bopomofo
Fratello Brahmi
Egyp Gerarchia egiziana
Goth Gotico
Blocco Hangul
Blocco Hiragana
Blocco Old Hangul
Hani Han
Ital Vecchio corsivo
Java Giavanese
Kana Katakana
Khar Kharoshthi
Khmr Khmer
Laoo Lao
Lisu Lisu
Mymr Myanmar
Talu Nuovo Tai Lue
Thai Thai
Tibt Tibetano
Xsux Cuneiforme
Yiii Yi

Se nessuno di questi script viene trovato, è consigliabile usare "annulla" per la segmentazione dello scenario di controllo ortografico.

Costruttori

WordsSegmenter(String)

Crea un oggetto WordsSegmenter . Per una descrizione della lingua fornita a questo costruttore, vedere l'introduzione in WordsSegmenter .

Proprietà

ResolvedLanguage

Ottiene la lingua delle regole usate da questo oggetto WordsSegmenter .

"und" (undetermined) viene restituito se si usano regole di lingua neutrali.

Metodi

GetTokenAt(String, UInt32)

Determina e restituisce la parola o la parola stem che contiene o segue un indice specificato nel testo specificato.

GetTokens(String)

Determina e restituisce tutte le parole o le parole nel testo specificato.

Tokenize(String, UInt32, WordSegmentsTokenizingHandler)

Chiama il gestore fornito con due iteratori che eserano le parole prima e seguendo un determinato indice nel testo specificato.

Si applica a