ユーザ用ツール

サイト用ツール


korean:mecab:detail

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:detail [2015/11/04 22:26] – [バージョン] yoshikorean:mecab:detail [2021/01/17 11:40] (現在) – [HanDicの詳細情報] yoshi
行 1: 行 1:
 ====== HanDicの詳細情報 ====== ====== HanDicの詳細情報 ======
  
-===== バージョン ===== +[[https://ja.osdn.net/projects/handic/|HanDic]]の登録項目など詳細情報は以下のとおりです.
- +
-HanDicのバージョンは現在''0.2''です.登録項目学習用データの量は以下のりです. +
- +
-  * バージョン:0.2(20151104) +
-  * 項目数:106,823 +
-  * 学習用データ:2,100文 +
- +
  
 ===== 登録項目の元データ ===== ===== 登録項目の元データ =====
行 28: 行 20:
     * その他     * その他
  
-ネット上のデータについては,誤りなどを見つけ次第修正しています.+その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています. 
 ===== 品詞体系と素性の記述 ===== ===== 品詞体系と素性の記述 =====
  
行 41: 行 34:
 韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました. 韓国・[[http://www.sejong.or.kr/|21世紀世宗計画]]のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がB**T***となる)を参考としました.
  
 +  - 「해남 가는 길」(BREO0088.txt)
   - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)   - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
   - 「알기 쉬운 인권 지침」(BRHO0112.txt)   - 「알기 쉬운 인권 지침」(BRHO0112.txt)
行 62: 行 56:
   - 新聞「조선일보 경제(93)」(BRAA0007.txt)   - 新聞「조선일보 경제(93)」(BRAA0007.txt)
   - 新聞「조선일보 문화(93)」(BRAA0009.txt)   - 新聞「조선일보 문화(93)」(BRAA0009.txt)
 +  - 新聞「동아일보 문화(2003)」(BRBD0066.txt)
 +  - 雑誌「주간 경향(1994/09-1994/11)」(BRAB0173.txt)
 +  - 「시간속의 도적」(BREO0081.txt)
 +  - 雑誌「금융 97년 1월호」(BRBE0237.txt)
  
 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del> 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del>
  
-学習用データについても今後量を増やしていく予定です.+その後追加した学習用データについては,[[:korean:mecab:changelog|HanDicの変更履歴]]に追記していす.
  
 <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります. <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
行 71: 行 69:
 ===== 辞書構築の実際 ===== ===== 辞書構築の実際 =====
  
-ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[http://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.+ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.
  
  {{indexmenu_n>22}}  {{indexmenu_n>22}}
korean/mecab/detail.1446643565.txt.gz · 最終更新: 2015/11/04 22:26 by yoshi