PDA自作日記

 

まとめトップ

最近のコメント


   

かな漢字変換 ━━━━

OSから自作しているため、かな漢字変換も自分で作らないといけません。しかし、昔と違って、事情はずっと良くなっています。

まず第一に、メモリもディスクも潤沢になっています。特にディスクは2GBのSDカードを使用していますから、数十MBの辞書くらいは何でもありません。従って、ディスク容量のために辞書を小さくする必要はありません。辞書のサイズは、現在は60MBほどになっています。

それに、辞書データについてもフリーのものが公開されています。今回使用したメインの辞書は、mecabという形態素解析ツールに付属していたもので、IPA辞書と呼ばれているものです。これだけでは固有名詞などが大幅に不足しますので、Wikipediaも利用することにしました。Wikipediaの各項目はたいてい「' ' ' かな漢字変換' ' '(-かんじへんかん)とは、」のように始まるので、これを機械抽出します。不正確なものもありますが、40万語くらい抽出できています。

mecabの辞書は、品詞展開がおこなわれているため、単にn文節最長一致をかければよいと考えていました。しかし実際にやってみると、とても実用にはほど遠いことがわかりました。助詞などがすべて1文節とカウントされてしまい、適切に文節が切られないという結果になりました。

初期のかな漢字変換 拡大

辞書の基本構造は、読み1つに、表記の羅列が対応する形になっています。「きって」という読みには「切手」が、「きっ」という読みには「切っ」や「斬っ」が、「き」という読みには「木」などが対応します。1つの文節に1つの読みが対応するなら簡単なのですが、1つの文節に異なる読みが対応するとなると、少し複雑になります。もちろん、送りの部分は品詞によって異なるという点も考慮が必要です。

最終的にこのような処理にも対応しました。また、自分の過去の送信メールデータを解析して得た単語の出現頻度を、表記の候補順に反映するようしました。まだいくつかやりたいことがあるので、少しずつ対応していきたい考えです。

2010/6/13追記

また、コンテンツベース学習をサポートしています。これは、編集対象の文書そのものを学習辞書として使い、その文書によく出てくる単語が優先して表示されるものです。

この動画では、文書1では「電気」をよく使っているため、文書1を編集しているときは「電気」が優先して表示されます。文書2では「電機」をよく使っているため、文書2を編集しているときは「電機」が優先して表示されます。

コメントを書く


 
  Copyright © π 2009-2012
Powered by light work group
このページの内容は無保証です