====== HanDicの詳細情報 ======
[[https://ja.osdn.net/projects/handic/|HanDic]]の登録項目など,詳細情報は以下のとおりです.
===== 登録項目の元データ =====
主に以下のデータから辞書を構築しました.
* 韓国・国立国語院の「한국어 학습용 어휘 목록」(収録語彙5,965語): 「어째서(=어찌하여서)」「얘(=이 아이)」などの分類不明語,「듯하다」など一部の補助用言,「수십」など一部の数詞を除外
* 同「현대 국어 사용 빈도 조사」 : 一部収録.現在作業中
* 固有名詞追加分
* 韓国人の姓:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EC%84%B1%EC%94%A8_%EB%AA%A9%EB%A1%9D|대한민국의 인구순 성씨 목록]]を利用,漢字表記あり
* ソウル地下鉄駅名:[[http://www.seoulmetro.co.kr/station/stationinfo.action|서울메트로 교통센터]]の「駅選択」リストを利用,漢字表記なし
* 鉄道駅(地下鉄・国鉄):Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84%EA%B6%8C_%EC%A0%84%EC%B2%A0%EC%97%AD_%EB%AA%A9%EB%A1%9D|대한민국의 철도역 목록]]を利用,漢字表記あり
* 韓国の行政区域:[[http://www.mopas.go.kr/|행정안전부]]作成の「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」[[http://www.mopas.go.kr/gpms/ns/mogaha/user/userlayout/bulletin/userBtView.action?userBtBean.bbsSeq=1021917&userBtBean.ctxCd=1059&userBtBean.ctxType=21010002¤tPage=11|データ]]を利用,漢字表記あり(道・市・郡・邑・面・洞.洞は行政洞のみ含む)
* 国名,首都:Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84_%EB%AA%A9%EB%A1%9D_(%EB%82%98%EB%9D%BC_%EC%9D%B4%EB%A6%84_%EC%88%9C)|나라 이름순 수도 목록]]を利用,漢字表記あり
* 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり
* 山・河川:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%82%B0|대한민국의 산]],[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B5%AD%EA%B0%80%ED%95%98%EC%B2%9C_%EB%AA%A9%EB%A1%9D|대한민국의 국가하천]]を利用,漢字表記あり
* 警察署・地方警察庁名:Wikipediaの[[https://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%B0%B0%EA%B4%80%EC%84%9C|분류:대한민국의 경찰관서]]内のページから抽出,漢字表記あり
* その他
その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.
===== 品詞体系と素性の記述 =====
品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細は[[..:mecab:pos|HanDicの品詞体系]]をご覧ください.
===== 用言活用の記述 =====
用言活用の記述にあたっては,「語基」の概念を利用しました.
===== 学習用データ =====
韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました.
- 「해남 가는 길」(BREO0088.txt)
- 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
- 「알기 쉬운 인권 지침」(BRHO0112.txt)
- 「대중 문화의 겉과 속」(BRHO0114.txt)
- 「인간을 위하여 미래를 위하여」(BRHO0116.txt)
- 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt)
- 「컴퓨터 이야기」(BRHO0118.txt)
- 「현대 문학을 보는 시각」(BRHO0120.txt)
- 「우리 학문의 길」(BRHO0124.txt)
- 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt)
- 「정치와 언어」(BRHO0138.txt)
- 「화술과 인간관계」(BRHO0376.txt)
- 「고객과 경쟁하라」(BRHO0390.txt)
- 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt)
- 「한국 식품학 입문」(BRHO0396.txt)
- 「세상에서 가장 아름다운 집」(BRHO0398.txt)
- 「소설 창작 강의」(BRHO0402.txt)
- 「논술의 정석」(BRHO0414.txt)
- 「한국언론의 좌표」(BRHO0433.txt)
- 「강좌, 민족문학」(BRHO0434.txt)
- 新聞「조선일보 경제(93)」(BRAA0007.txt)
- 新聞「조선일보 문화(93)」(BRAA0009.txt)
- 新聞「동아일보 문화(2003)」(BRBD0066.txt)
- 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt)
- 「시간속의 도적」(BREO0081.txt)
- 雑誌「금융 97년 1월호」(BRBE0237.txt)
以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.
その後追加した学習用データについては,[[:korean:mecab:changelog|HanDicの変更履歴]]に追記しています.
[2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
===== 辞書構築の実際 =====
ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.
{{indexmenu_n>22}}