HanDicの概要
HanDic(ハンディク、한딕)は、形態素解析器MeCabで利用することができる、現代韓国語解析用辞書です。現在、10万を超える項目が登録されています。
インストールの方法についてはHanDicのインストールを,利用方法の詳細についてはHanDicの使い方を参照してください.
特徴
HanDicは以下のような特徴を備えています。
- 各項目の素性に、漢字表記の情報や語彙の学習レベルなど、再利用可能な情報が記述されている
- 韓国・国立国語院が公開している解析済みコーパスの品詞体系にほぼ準拠している
登録されている項目には、国立国語院が公開している「韓国語学習用基本語彙」や「頻度調査」の成果物を中心として、人名や地名など、インターネット上の情報なども含めています。
漢字表記が可能な項目については、項目の素性にその漢字表記を含めました。また、国立国語院の「韓国語学習用基本語彙」に設定された3段階の学習レベルを盛り込んでいます。これらの素性を利用して、韓国語の学習に有益なツールを作成することが可能です(스가이 요시노리 2013)。
各項目の表記方法
各項目の表層形=単語そのものは,가(U+AC00)~힣(U+!D7A3)の範囲のHangul Syllables(ハングル音節=いわゆる「統合型ハングル」)ではなく,それぞれの文字を初声・中声・終声に分解し,ᄀ(U+1100)~ᇹ(U+11F9)までのHangul Jamo(ハングル字母)で記述しています.そのため,MeCabで解析する際には,これらの字母に分解したテキストを入力として与える必要があります.
なお,Hangul Jamoに分解するためのPerlスクリプトを,OSDNにて公開しています.
各項目の素性
辞書に登録されたそれぞれの項目には、表層形=単語そのものと左連接ID,右連接ID,コストに続けて,その項目の特性に応じた素性が記述されています。コンマで区切ったCSV形式で、以下の内容を記述してあります。
品詞1,品詞2,品詞3,接続情報,語基,辞書形,出現形,漢字,備考,学習用レベル,品詞タグ
品詞1
〜品詞3
まではそれぞれ品詞の大分類〜小分類です。HanDicの品詞体系についてはHanDicの品詞体系をご覧ください。
接続情報
と語基
は、用言と語尾の接続に関わる情報です。HanDicでは用言活用の記述に「語基」を採用しています。そのため、動詞や形容詞などの用言にはその項目が何番目の語基であるのかを記述し、語尾や接尾辞にはその項目が何番目の語基につくかを記述してあります。
辞書形
はその項目の辞書形に、同音異義語がある場合には「標準国語大辞典」(ウェブ版)の同音異義語番号をつけてあります。出現形
は、その項目が実際に現れた形を統合型のハングルで記述しました。
漢字
は、漢字語あるいは漢字表記可能な項目の漢字表記を記述してあります。결코(決코)「決して」のように、ハングルを一部含む場合には、ハングル部分をハングル字母に分解して入力しました。
備考
は同音異義語などの補足情報を含めています。
学習用レベル
は、国立国語院の韓国語学習用基本語彙に設定された等級をA〜Cとして記述しました。品詞タグ
は,同じく国立国語院が構築,公開している「21世紀世宗計画」の「形態解析コーパス」の品詞タグを記述しました.
その他の情報
ライセンス
HanDicは,オープンソースソフトウェアとして,修正BSDライセンスにて公開しています.