HanDicの登録項目など,詳細情報は以下のとおりです.
主に以下のデータから辞書を構築しました.
その他,追加した項目の詳細についてはHanDicの変更履歴を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.
品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細はHanDicの品詞体系をご覧ください.
用言活用の記述にあたっては,「語基」の概念を利用しました.
韓国・21世紀世宗計画のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がBT*となる)を参考としました.
以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.
その後追加した学習用データについては,HanDicの変更履歴に追記しています.
[2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については変換用辞書の構築についてをご覧ください.なお,MeCabによるひらがなのハングル転写というツールも公開していますので,ご参照ください.