ユーザ用ツール

サイト用ツール


korean:mecab:detail

文書の過去の版を表示しています。


HanDicの詳細情報

バージョン

HanDicのバージョンは現在0.1です.登録項目数,学習用データの量は以下の通りです.

  • バージョン:0.1(20150525)
  • 項目数:105,905
  • 学習用データ:2,100文

以下のセクションは現在更新中です.

登録項目の元データ

主に以下のデータから辞書を構築しました.

  • 韓国・国立国語院の「한국어 학습용 어휘 목록」(収録語彙5,965語): 「어째서(=어찌하여서)」「얘(=이 아이)」などの分類不明語,「듯하다」など一部の補助用言,「수십」など一部の数詞を除外
  • 同「현대 국어 사용 빈도 조사」 : 一部収録.現在作業中
  • 固有名詞追加分
    • 韓国人の姓:Wikipediaの대한민국의 인구순 성씨 목록を利用,漢字表記あり
    • ソウル地下鉄駅名:서울메트로 교통센터の「駅選択」リストを利用,漢字表記なし
    • 鉄道駅名:Wikipediaの대한민국의 철도역 목록を利用,漢字表記あり
    • 韓国の行政区域名:행정안전부作成の「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」データを利用,漢字表記あり(道・市・郡・邑・面・洞.洞は行政洞のみ含む)
    • 国名,首都名:Wikipediaの나라 이름순 수도 목록を利用,漢字表記あり
    • 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり
    • 山・河川:Wikipediaの대한민국의 산대한민국의 국가하천を利用,漢字表記あり
    • その他

ネット上のデータについては,誤りなどを見つけ次第修正しています.

品詞体系と素性の記述

品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細はHanDicの品詞体系をご覧ください.

用言活用の記述

用言活用の記述にあたっては,「語基」の概念を利用しました.

学習用データ

韓国・21世紀世宗計画のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がBT*となる)を参考としました.

  1. 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
  2. 「알기 쉬운 인권 지침」(BRHO0112.txt)
  3. 「대중 문화의 겉과 속」(BRHO0114.txt)
  4. 「인간을 위하여 미래를 위하여」(BRHO0116.txt)
  5. 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt)
  6. 「컴퓨터 이야기」(BRHO0118.txt)
  7. 「현대 문학을 보는 시각」(BRHO0120.txt)
  8. 「우리 학문의 길」(BRHO0124.txt)
  9. 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt)
  10. 「정치와 언어」(BRHO0138.txt)
  11. 「화술과 인간관계」(BRHO0376.txt)
  12. 「고객과 경쟁하라」(BRHO0390.txt)
  13. 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt)
  14. 「한국 식품학 입문」(BRHO0396.txt)
  15. 「세상에서 가장 아름다운 집」(BRHO0398.txt)
  16. 「소설 창작 강의」(BRHO0402.txt)
  17. 「논술의 정석」(BRHO0414.txt)
  18. 「한국언론의 좌표」(BRHO0433.txt)
  19. 「강좌, 민족문학」(BRHO0434.txt)
  20. 新聞「조선일보 경제(93)」(BRAA0007.txt)
  21. 新聞「조선일보 문화(93)」(BRAA0009.txt)

以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.

学習用データについても今後量を増やしていく予定です.

[2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.

辞書構築の実際

ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については変換用辞書の構築についてをご覧ください.なお,MeCabによるひらがなのハングル転写というツールも公開していますので,ご参照ください.

korean/mecab/detail.1444742114.txt.gz · 最終更新: 2015/10/13 22:15 by yoshi