平成9年9月18日 高精度の文字認識用日本語スペルチェッカーを開発 ─日本文の確率モデルにより、認識率を大幅に改善─ NTTでは、誤りを含む入力文を高い精度で自動的に訂正する日本語のスペルチェッ カーを開発しました。 今回開発した技術は、入力文の誤り箇所を検出し、正解確率が高い順に訂正単語の候 補を表示します。これにより従来は70〜90%であった手書き文字認識の精度を90 〜95%にまで高めることできます。 本技術は、FAXや郵便で送られた申込書・アンケートなどの電子化に適用すること により、事務作業を大幅に効率化することができます。さらにNTTでは本技術をもと にして、印刷物しか残っていない過去の特許公報や新聞などを電子化するシステム、パ ソコン上で誰もが使える汎用性の高い日本語スペルチェッカなどを開発していく予定で す。 <開発の背景> パソコンの普及などでテキストの電子化が進みつつありますが、世の中の文字情報は 電子化されていないもののほうが圧倒的に多いのが現実です。その未電子化テキストを 電子化するのに大きな威力を発揮するのがOCR(光学的文字読み取り装置)です。し かし、OCRは入力される文書の品質によって認識精度が大きく変化し、手書き文字で は精度が著しく低下するという問題があります。OCRから出力された文章をいちいち 人手でチェックし、訂正を加えていくには大きな労力がかかるため、誤りを自動的に検 出・訂正する精度の高い日本語スペルチェッカーの出現が待たれていました。 日本語スペルチェッカーを実現するには、コンピュータによって文章を英語のように 単語に分割させる処理が必要になります。これを形態素解析と呼びます。しかし元の文 章に誤りを含む場合、コンピュータによる形態素解析の精度は大きく低下します。これ が精度の高い日本語スペルチェッカーの登場を阻んできた原因です。また英語に比べて 日本語は文字の種類が多いので、一つの文字の誤りに対する訂正文字候補が大量に存在 します。そこで訂正候補をどうやって絞り込むかも大きな問題です。 NTTでは94年に、大量の言語データから統計的に求めた品詞の接続確率と単語の 出現確率を用いて、入力文の単語分割と品詞付与を頑健かつ高精度に行う“確率モデル を用いた日本語形態素解析技術”を開発し、その実用システムとして高精度な日本語ス ペルチェッカーの開発を進めてきました。 <技術のポイント> 本技術は、文章を構成する品詞・単語・文字の並びの出現確率を大量の日本語データ から事前に学習することで、誤りのある部分の前後の文脈から最適な単語候補を選び出 します。その手順は以下の通りです。 1.文字候補と完全に一致する辞書中の単語を検索する 2.文字候補と部分的に一致する辞書中の単語を検索する 3.すべての単語の組み合わせの中で、出現確率が大きい順に任意の数の文単語を求 める 認識率が低い場合には、文字候補の中に正解文字が含まれていない場合が多いのです が、部分一致する単語を候補に加えることにより、この問題に対処しました。部分一致 を許すと、非常に膨大な数の単語の組み合せを調べる必要がありますが、確率的日本語 形態素解析アルゴリズム*を応用することにより、入力文の長さに比例する時間で効率 良く解を求められるようにしました。 現在は学習データとして新聞・雑誌・百科辞典・教科書など様々な種類のテキストを 組み合わせて広範囲の日本語文に対処できるようにしてありますが、法律・特許など対 象を絞って学習を行えば、特定分野に適応した極めて高い精度を持つスペルチェッカを 実現できます。 <今後の展開> 本技術は既存の日本語文書を電子化することを目的に開発されたものですが、学習さ れた日本語の確率モデルは音声認識へも応用することができます。NTTでは、画像デ ータの文字領域を認識して全文検索を可能にする電子ファイリングシステムや、ビデオ の音声信号を認識してキーワード付けするビデオインデキシングシステムなど、文字認 識や音声認識と本技術を連係することによって、より役立つマルチメディアシステムの 実現に向けて研究開発を進めていく予定です。 <用語解説> *)確率的日本語形態素解析アルゴリズム 文頭から文末方向へ進みながらすべての単語候補の組み合わせの確率を求める前向 き探索と、文末から文頭方向へ進みながら前向き探索で求めた確率を利用して確率が 高い順に一つずつ文の単語分割候補を求める後向き探索から構成される形態素解析ア ルゴリズムです。入力文の長さに比例する時間で効率よく複数の解を求めることがで きます。
