ユーザ用ツール

サイト用ツール


korean:mecab:detail

HanDicの詳細情報

バージョン

HanDicのバージョンは現在0.4です.登録項目数,学習用データの量は以下の通りです.

  • バージョン:0.4(20160508)
  • 項目数:113,474
  • 学習用データ:2,400文

登録項目の元データ

主に以下のデータから辞書を構築しました.

  • 韓国・国立国語院の「한국어 학습용 어휘 목록」(収録語彙5,965語): 「어째서(=어찌하여서)」「얘(=이 아이)」などの分類不明語,「듯하다」など一部の補助用言,「수십」など一部の数詞を除外
  • 同「현대 국어 사용 빈도 조사」 : 一部収録.現在作業中
  • 固有名詞追加分

その他,追加した項目の詳細についてはHanDicの変更履歴を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.

品詞体系と素性の記述

品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細はHanDicの品詞体系をご覧ください.

用言活用の記述

用言活用の記述にあたっては,「語基」の概念を利用しました.

学習用データ

韓国・21世紀世宗計画のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がBT*となる)を参考としました.

  1. 「해남 가는 길」(BREO0088.txt)
  2. 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
  3. 「알기 쉬운 인권 지침」(BRHO0112.txt)
  4. 「대중 문화의 겉과 속」(BRHO0114.txt)
  5. 「인간을 위하여 미래를 위하여」(BRHO0116.txt)
  6. 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt)
  7. 「컴퓨터 이야기」(BRHO0118.txt)
  8. 「현대 문학을 보는 시각」(BRHO0120.txt)
  9. 「우리 학문의 길」(BRHO0124.txt)
  10. 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt)
  11. 「정치와 언어」(BRHO0138.txt)
  12. 「화술과 인간관계」(BRHO0376.txt)
  13. 「고객과 경쟁하라」(BRHO0390.txt)
  14. 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt)
  15. 「한국 식품학 입문」(BRHO0396.txt)
  16. 「세상에서 가장 아름다운 집」(BRHO0398.txt)
  17. 「소설 창작 강의」(BRHO0402.txt)
  18. 「논술의 정석」(BRHO0414.txt)
  19. 「한국언론의 좌표」(BRHO0433.txt)
  20. 「강좌, 민족문학」(BRHO0434.txt)
  21. 新聞「조선일보 경제(93)」(BRAA0007.txt)
  22. 新聞「조선일보 문화(93)」(BRAA0009.txt)
  23. 新聞「동아일보 문화(2003)」(BRBD0066.txt)
  24. 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt)

以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.

学習用データについても今後量を増やしていく予定です.

[2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.

辞書構築の実際

ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については変換用辞書の構築についてをご覧ください.なお,MeCabによるひらがなのハングル転写というツールも公開していますので,ご参照ください.

korean/mecab/detail.txt · 最終更新: 2016/05/09 22:50 by yoshi

ページ用ツール