HanDicの詳細情報
HanDicの登録項目など,詳細情報は以下のとおりです.
登録項目の元データ
主に以下のデータから辞書を構築しました.
- 韓国・国立国語院の「한국어 학습용 어휘 목록」(収録語彙5,965語): 「어째서(=어찌하여서)」「얘(=이 아이)」などの分類不明語,「듯하다」など一部の補助用言,「수십」など一部の数詞を除外
- 同「현대 국어 사용 빈도 조사」 : 一部収録.現在作業中
- 固有名詞追加分
- 韓国人の姓:Wikipediaの대한민국의 인구순 성씨 목록を利用,漢字表記あり
ソウル地下鉄駅名:서울메트로 교통센터の「駅選択」リストを利用,漢字表記なし- 鉄道駅(地下鉄・国鉄):Wikipediaの대한민국의 철도역 목록を利用,漢字表記あり
- 国名,首都:Wikipediaの나라 이름순 수도 목록を利用,漢字表記あり
- 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり
- 山・河川:Wikipediaの대한민국의 산,대한민국의 국가하천を利用,漢字表記あり
- 警察署・地方警察庁名:Wikipediaの분류:대한민국의 경찰관서内のページから抽出,漢字表記あり
- その他
その他,追加した項目の詳細についてはHanDicの変更履歴を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.
品詞体系と素性の記述
品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細はHanDicの品詞体系をご覧ください.
用言活用の記述
用言活用の記述にあたっては,「語基」の概念を利用しました.
学習用データ
韓国・21世紀世宗計画のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がBT*となる)を参考としました.
- 「해남 가는 길」(BREO0088.txt)
- 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
- 「알기 쉬운 인권 지침」(BRHO0112.txt)
- 「대중 문화의 겉과 속」(BRHO0114.txt)
- 「인간을 위하여 미래를 위하여」(BRHO0116.txt)
- 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt)
- 「컴퓨터 이야기」(BRHO0118.txt)
- 「현대 문학을 보는 시각」(BRHO0120.txt)
- 「우리 학문의 길」(BRHO0124.txt)
- 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt)
- 「정치와 언어」(BRHO0138.txt)
- 「화술과 인간관계」(BRHO0376.txt)
- 「고객과 경쟁하라」(BRHO0390.txt)
- 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt)
- 「한국 식품학 입문」(BRHO0396.txt)
- 「세상에서 가장 아름다운 집」(BRHO0398.txt)
- 「소설 창작 강의」(BRHO0402.txt)
- 「논술의 정석」(BRHO0414.txt)
- 「한국언론의 좌표」(BRHO0433.txt)
- 「강좌, 민족문학」(BRHO0434.txt)
- 新聞「조선일보 경제(93)」(BRAA0007.txt)
- 新聞「조선일보 문화(93)」(BRAA0009.txt)
- 新聞「동아일보 문화(2003)」(BRBD0066.txt)
- 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt)
- 「시간속의 도적」(BREO0081.txt)
- 雑誌「금융 97년 1월호」(BRBE0237.txt)
以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.
その後追加した学習用データについては,HanDicの変更履歴に追記しています.
[2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
辞書構築の実際
ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については変換用辞書の構築についてをご覧ください.なお,MeCabによるひらがなのハングル転写というツールも公開していますので,ご参照ください.