Compartilhar via


IME の変換方式の紹介

今回は、IME の変換の基本的な方式を、従来の IME と、Office IME 2007 とで対比して、紹介します。

 

Vista IME を含む従来の IME は、品詞のつながり安さを基本にしています。

 

たとえば、太陽、犬、太郎など世の中に存在するものは名前を持っています。それらの単語を名詞と言います。言う、書く、聞く、などは、動作を表わします。これらの単語を動詞と言います。名詞、動詞などを、品詞と呼びます。品詞とは単語のグループです。従来の IME は、品詞と品詞がとれだけつながりやすいか、という情報を基本にしています。

 

もう少し専門的に説明します。つながりやすさをコストと考えて、つながりやすいほどコストが小さいとみなします。品詞のつながりやすさを品詞接続コストと呼びます。また、それぞれの単語がどれだけよく使われるかという情報を使います。ある単語が使われやすいほど、コストが小さいとみなします。単語の使われやすさを、単語コストと呼びます。従来の Microsoft IME は、品詞接続コストと単語コストとを合計して、コストが最小になるような変換結果を第 1 候補とします。

 

ところで、サンプルとして集めた例文集を、コーパスと言います。品詞接続コストや単語コストは、コーパスの中に現れた統計に基づいて、人手で調整したものです。ほかにも複雑な手法を用いていますが省略します。

 

さて、Office IME 2007 は、基本的な仕組みが異なります。品詞ではなく、単語自体のつながりやすさの情報を基本に使います。

 

ある単語の後に別の単語が来ます。先立つ単語にたいしてどれだけある単語が続くかという確率を、Bigram と呼びます。ある単語のあとに別の単語が来て、そのあとにまた別の単語が来ます。先立つ2つの単語に対してどれだけある単語が続くかという確率を、Trigram と呼びます。

IME2007 は、Trigram と Bigram を基礎として、さらに、品詞のつながりやすさの確率を補助的に用いて、第 1 候補を求めます。ほかにも複雑なことをやっていますが、省略します。

 

ここで、確率は、コーパスの統計から、文法として最適になるように計算したものを使っています。

 

品詞に基づく方法と Trigram に基づく方法を比較してみましょう。

 

ところで、言語現象というのは原理や法則では説明できず、必ず個別の単語に依存した例外的な現象というものが無数にでてきます。品詞に基づく文法では、原理的に制御しきれない言語現象が無数に存在します。たとえば、「京料理」は二つの単語「きょう」「りょうり」からなります。品詞で見ると、名詞+名詞です。「きょう」という読みを持つ名詞は、「今日」「京」「教」などです。名詞+名詞の範囲の中で、「きょう」の変換結果を決めるのは至難の業です。また、従来のIMEは、つながり方という相並ぶ 2 つの要素の関係のみに依存していますので、その点でも限界があります。たとえば、「かんじがわるい」という読みは、普通「感じが悪い」でしょう。しかし、「かんじ」「が」という 2 つの単語をみて、「が」「わるい」という 2 つの単語を見るだけですと、「監事が悪い」という変換結果になっても不思議ではありません。IME 2003で皆様から頂いた誤変換レポートによくあったのが、砕けた表現や付属語関係の誤りでした。たとえば、「言ったのかい」が「言ったの会」になったり、「それは知った」が「それ走った」になったり、「話したのは」が「話したの葉」になったりと。つまり、品詞に基づく方式・技術では、無限の個別の現象に対応する能力が低いのです。

 

精度が高くなればなるほど、さらに精度を高めるのは難しいものです。従来の IME の方法では、もはや精度を向上させることが難しくなってきました。一方で、入力の生産性を高めるというユーザの期待に今後ともこたえていく必要があります。そのため、IME をさらに進化させる必要があります。

 

IME2007 は、3 つの単語の並びを基本情報としているために、文法の能力は、当然、高くなります。「京料理」の場合、品詞でなく単語を見ているので正しく変換することができます。また、「感じが悪い」は 3 つの単語を見ているので正しく変換することができます。

 

また、従来手調整が主であったところ、新しい方法では、コーパスの統計から最適な確率値を計算するため、従来の限界を超えて、容易に精度向上を図ることができるという強みがあります。向上を図る道筋が見えています。

 

IMEは、ユーザの入力を誤変換で邪魔したときに意識される、とても難しいソフトウェアです。黒子として、誤変換を徹底的に少なくしなければなりません。従来の変換方法と開発方法と異なって、Trigram に基づく方法と開発方法は、従来は得られなかったような、もっと高い価値をユーザに提供できるアプローチです。

 

佐藤