====== HanDicの詳細情報 ====== [[https://ja.osdn.net/projects/handic/|HanDic]]の登録項目など,詳細情報は以下のとおりです. ===== 登録項目の元データ ===== 主に以下のデータから辞書を構築しました. * 韓国・国立国語院の「한국어 학습용 어휘 목록」(収録語彙5,965語): 「어째서(=어찌하여서)」「얘(=이 아이)」などの分類不明語,「듯하다」など一部の補助用言,「수십」など一部の数詞を除外 * 同「현대 국어 사용 빈도 조사」 : 一部収録.現在作業中 * 固有名詞追加分 * 韓国人の姓:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EC%84%B1%EC%94%A8_%EB%AA%A9%EB%A1%9D|대한민국의 인구순 성씨 목록]]を利用,漢字表記あり * ソウル地下鉄駅名:[[http://www.seoulmetro.co.kr/station/stationinfo.action|서울메트로 교통센터]]の「駅選択」リストを利用,漢字表記なし * 鉄道駅(地下鉄・国鉄):Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84%EA%B6%8C_%EC%A0%84%EC%B2%A0%EC%97%AD_%EB%AA%A9%EB%A1%9D|대한민국의 철도역 목록]]を利用,漢字表記あり * 韓国の行政区域:[[http://www.mopas.go.kr/|행정안전부]]作成の「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」[[http://www.mopas.go.kr/gpms/ns/mogaha/user/userlayout/bulletin/userBtView.action?userBtBean.bbsSeq=1021917&userBtBean.ctxCd=1059&userBtBean.ctxType=21010002¤tPage=11|データ]]を利用,漢字表記あり(道・市・郡・邑・面・洞.洞は行政洞のみ含む) * 国名,首都:Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84_%EB%AA%A9%EB%A1%9D_(%EB%82%98%EB%9D%BC_%EC%9D%B4%EB%A6%84_%EC%88%9C)|나라 이름순 수도 목록]]を利用,漢字表記あり * 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり * 山・河川:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%82%B0|대한민국의 산]],[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B5%AD%EA%B0%80%ED%95%98%EC%B2%9C_%EB%AA%A9%EB%A1%9D|대한민국의 국가하천]]を利用,漢字表記あり * 警察署・地方警察庁名:Wikipediaの[[https://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%B0%B0%EA%B4%80%EC%84%9C|분류:대한민국의 경찰관서]]内のページから抽出,漢字表記あり * その他 その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています. ===== 品詞体系と素性の記述 ===== 品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細は[[..:mecab:pos|HanDicの品詞体系]]をご覧ください. ===== 用言活用の記述 ===== 用言活用の記述にあたっては,「語基」の概念を利用しました. ===== 学習用データ ===== 韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました. - 「해남 가는 길」(BREO0088.txt) - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt) - 「알기 쉬운 인권 지침」(BRHO0112.txt) - 「대중 문화의 겉과 속」(BRHO0114.txt) - 「인간을 위하여 미래를 위하여」(BRHO0116.txt) - 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt) - 「컴퓨터 이야기」(BRHO0118.txt) - 「현대 문학을 보는 시각」(BRHO0120.txt) - 「우리 학문의 길」(BRHO0124.txt) - 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt) - 「정치와 언어」(BRHO0138.txt) - 「화술과 인간관계」(BRHO0376.txt) - 「고객과 경쟁하라」(BRHO0390.txt) - 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt) - 「한국 식품학 입문」(BRHO0396.txt) - 「세상에서 가장 아름다운 집」(BRHO0398.txt) - 「소설 창작 강의」(BRHO0402.txt) - 「논술의 정석」(BRHO0414.txt) - 「한국언론의 좌표」(BRHO0433.txt) - 「강좌, 민족문학」(BRHO0434.txt) - 新聞「조선일보 경제(93)」(BRAA0007.txt) - 新聞「조선일보 문화(93)」(BRAA0009.txt) - 新聞「동아일보 문화(2003)」(BRBD0066.txt) - 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt) - 「시간속의 도적」(BREO0081.txt) - 雑誌「금융 97년 1월호」(BRBE0237.txt) 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました. その後追加した学習用データについては,[[:korean:mecab:changelog|HanDicの変更履歴]]に追記しています. [2014/11/01] なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります. ===== 辞書構築の実際 ===== ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください. {{indexmenu_n>22}}