Поделиться через


Factoids для восточноазиатских языков

Восточноазиатские языки определяются как японский, китайский (упрощенное письмо), китайский (традиционное письмо) и корейский. Форматы в factoids в следующей таблице относятся к распознавательу каждого языка.

Например, фактоид телефонов различается на разных языках. Кроме того, каждый factoid зависит от конкретного распознавателя. Например, с распознавателем японского языка можно использовать только фактоид японского телефона . Помимо фактоидов в следующей таблице, во всех языках используются фактоиды, перечисленные в разделе Factoids Common Across Languages.

Примечание

Фактоиды для восточноазиатских языков реализуются путем указания списка допустимых символов Юникода. Фактоиды для западных языков реализуются с помощью регулярных выражений, описывающих ожидаемые входные данные. Это связано с тем, что западные языки состоят из букв, которые объединяются для создания слов, тогда как восточноазиатские языки являются символьными.

Распознаватели восточноазиатских символов поддерживают объединение до десяти фактоидов. В этих сочетаниях фактоидов используется логический оператор OR; Таким образом, входные данные могут соответствовать любому из фактоидов в выражении.

Factoid OneChar Процент PostalCode UpperChar
Описание
Один символ.
Числа с символом процента.
Числовые почтовые индексы.
Прописные латинские буквы.
Значения Юникода
U+0020
U+0021
U+0022
U+0023
U+0024
U+0025
U+0026
U+0027
U+0028
U+0029
U+002A
U+002B
U+002C
U+002D
U+002E
U+002F
U+0030
U+0031
U+0032
U+0033
U+0034
U+0035
U+0036
U+0037
U+0038
U+0039
U+003A
U+003B
U+003C
U+003D
U+003E
U+003F
U+0040
U+0041
U+0042
U+0043
U+0044
U+0045
U+0046
U+0047
U+0048
U+0049
U+004A
U+004B
U+004C
U+004D
U+004E
U+004F
U+0050
U+0051
U+0052
U+0053
U+0054
U+0055
U+0056
U+0057
U+0058
U+0059
U+005A
U+005B
U+005C
U+005D
U+005E
U+005F
U+0060
U+0061
U+0062
U+0063
U+0064
U+0065
U+0066
U+0067
U+0068
U+0069
U+006A
U+006B
U+006C
U+006D
U+006E
U+006F
U+0070
U+0071
U+0072
U+0073
U+0074
U+0075
U+0076
U+0077
U+0078
U+0079
U+007A
U+007B
U+007C
U+007D
U+007E
U+0025
U+002E
U+0030
U+0031
U+0032
U+0033
U+0034
U+0035
U+0036
U+0037
U+0038
U+0039
U+002D
U+0030
U+0031
U+0032
U+0033
U+0034
U+0035
U+0036
U+0037
U+0038
U+0039
U+0041
U+0042
U+0043
U+0044
U+0045
U+0046
U+0047
U+0048
U+0049
U+004A
U+004B
U+004C
U+004D
U+004E
U+004F
U+0050
U+0051
U+0052
U+0053
U+0054
U+0055
U+0056
U+0057
U+0058
U+0059
U+005A

В следующих разделах представлены форматы, поддерживаемые для каждого фактоида: японский, китайский (упрощенное письмо), китайский (традиционное письмо) и корейский.