ユーザ用ツール

サイト用ツール


korean:mecab:detail

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:detail [2015/10/13 22:23] – [登録項目の元データ] yoshikorean:mecab:detail [2021/01/17 11:40] (現在) – [HanDicの詳細情報] yoshi
行 1: 行 1:
 ====== HanDicの詳細情報 ====== ====== HanDicの詳細情報 ======
  
-===== バージョン ===== +[[https://ja.osdn.net/projects/handic/|HanDic]]の登録項目など詳細情報は以下のとおりです.
- +
-HanDicのバージョンは現在''0.1''です.登録項目学習用データの量は以下のりです. +
- +
-  * バージョン:0.1(20150525) +
-  * 項目数:105,905 +
-  * 学習用データ:2,100文 +
- +
  
 ===== 登録項目の元データ ===== ===== 登録項目の元データ =====
行 20: 行 12:
     * 韓国人の姓:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EC%84%B1%EC%94%A8_%EB%AA%A9%EB%A1%9D|대한민국의 인구순 성씨 목록]]を利用,漢字表記あり     * 韓国人の姓:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EC%84%B1%EC%94%A8_%EB%AA%A9%EB%A1%9D|대한민국의 인구순 성씨 목록]]を利用,漢字表記あり
     * <del>ソウル地下鉄駅名:[[http://www.seoulmetro.co.kr/station/stationinfo.action|서울메트로 교통센터]]の「駅選択」リストを利用,漢字表記なし</del>     * <del>ソウル地下鉄駅名:[[http://www.seoulmetro.co.kr/station/stationinfo.action|서울메트로 교통센터]]の「駅選択」リストを利用,漢字表記なし</del>
-    * 鉄道駅(地下鉄・国鉄):Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84%EA%B6%8C_%EC%A0%84%EC%B2%A0%EC%97%AD_%EB%AA%A9%EB%A1%9D|대한민국의 철도역 목록]]を利用,漢字表記あり +    * 鉄道駅(地下鉄・国鉄):Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84%EA%B6%8C_%EC%A0%84%EC%B2%A0%EC%97%AD_%EB%AA%A9%EB%A1%9D|대한민국의 철도역 목록]]を利用,漢字表記あり 
-    * 韓国の行政区域:[[http://www.mopas.go.kr/|행정안전부]]作成の「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」[[http://www.mopas.go.kr/gpms/ns/mogaha/user/userlayout/bulletin/userBtView.action?userBtBean.bbsSeq=1021917&userBtBean.ctxCd=1059&userBtBean.ctxType=21010002&currentPage=11|データ]]を利用,漢字表記あり(道・市・郡・邑・面・洞.洞は行政洞のみ含む) +    * 韓国の行政区域:[[http://www.mopas.go.kr/|행정안전부]]作成の「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」[[http://www.mopas.go.kr/gpms/ns/mogaha/user/userlayout/bulletin/userBtView.action?userBtBean.bbsSeq=1021917&userBtBean.ctxCd=1059&userBtBean.ctxType=21010002&currentPage=11|データ]]を利用,漢字表記あり(道・市・郡・邑・面・洞.洞は行政洞のみ含む) 
-    * 国名,首都:Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84_%EB%AA%A9%EB%A1%9D_(%EB%82%98%EB%9D%BC_%EC%9D%B4%EB%A6%84_%EC%88%9C)|나라 이름순 수도 목록]]を利用,漢字表記あり+    * 国名,首都:Wikipediaの[[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84_%EB%AA%A9%EB%A1%9D_(%EB%82%98%EB%9D%BC_%EC%9D%B4%EB%A6%84_%EC%88%9C)|나라 이름순 수도 목록]]を利用,漢字表記あり
     * 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり     * 外来語表記用例資料:韓国・国立国語院の「외래어 표기 용례 자료」の「중국 인명과 지명」から,人名および都市(一部:都市,省,省都,県,自治区・自治州,州都,直轄市),漢字表記あり
     * 山・河川:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%82%B0|대한민국의 산]],[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B5%AD%EA%B0%80%ED%95%98%EC%B2%9C_%EB%AA%A9%EB%A1%9D|대한민국의 국가하천]]を利用,漢字表記あり     * 山・河川:Wikipediaの[[http://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%82%B0|대한민국의 산]],[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B5%AD%EA%B0%80%ED%95%98%EC%B2%9C_%EB%AA%A9%EB%A1%9D|대한민국의 국가하천]]を利用,漢字表記あり
行 28: 行 20:
     * その他     * その他
  
-ネット上のデータについては,誤りなどを見つけ次第修正しています.+その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています. 
 ===== 品詞体系と素性の記述 ===== ===== 品詞体系と素性の記述 =====
  
行 41: 行 34:
 韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました. 韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました.
  
 +  - 「해남 가는 길」(BREO0088.txt)
   - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)   - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
   - 「알기 쉬운 인권 지침」(BRHO0112.txt)   - 「알기 쉬운 인권 지침」(BRHO0112.txt)
行 62: 行 56:
   - 新聞「조선일보 경제(93)」(BRAA0007.txt)   - 新聞「조선일보 경제(93)」(BRAA0007.txt)
   - 新聞「조선일보 문화(93)」(BRAA0009.txt)   - 新聞「조선일보 문화(93)」(BRAA0009.txt)
 +  - 新聞「동아일보 문화(2003)」(BRBD0066.txt)
 +  - 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt)
 +  - 「시간속의 도적」(BREO0081.txt)
 +  - 雑誌「금융 97년 1월호」(BRBE0237.txt)
  
 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del> 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del>
  
-学習用データについても今後量を増やしていく予定です.+その後追加した学習用データについては,[[:korean:mecab:changelog|HanDicの変更履歴]]に追記していす.
  
 <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります. <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
行 71: 行 69:
 ===== 辞書構築の実際 ===== ===== 辞書構築の実際 =====
  
-ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[http://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.+ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.
  
  {{indexmenu_n>22}}  {{indexmenu_n>22}}
korean/mecab/detail.1444742582.txt.gz · 最終更新: 2015/10/13 22:23 by yoshi