ユーザ用ツール

サイト用ツール


korean:mecab:detail

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:detail [2017/05/29 23:41] – [学習用データ] yoshikorean:mecab:detail [2021/01/17 11:40] (現在) – [HanDicの詳細情報] yoshi
行 1: 行 1:
 ====== HanDicの詳細情報 ====== ====== HanDicの詳細情報 ======
  
-===== バージョン ===== +[[https://ja.osdn.net/projects/handic/|HanDic]]の登録項目など詳細情報は以下のとおりです.
- +
-HanDicのバージョンは現在''0.5''です.登録項目学習用データの量は以下のりです. +
- +
-  * バージョン:0.5(20170529) +
-  * 項目数:113,471 +
-  * 学習用データ:2,600文 +
- +
  
 ===== 登録項目の元データ ===== ===== 登録項目の元データ =====
行 29: 行 21:
  
 その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています. その他,追加した項目の詳細については[[:korean:mecab:changelog|HanDicの変更履歴]]を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.
 +
 ===== 品詞体系と素性の記述 ===== ===== 品詞体系と素性の記述 =====
  
行 70: 行 63:
 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del> 以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.<del>その上で,用言と接尾辞,語尾との連接コストを修正しました.具体的には,構築後の辞書ディレクトリに含まれるmatrix.defのうち,不可能な連接のコストを「0」に設定し,再びmecab-dict-indexで辞書を構築しました.</del>
  
-学習用データについても今後量を増やしていく予定です.+その後追加した学習用データについては,[[:korean:mecab:changelog|HanDicの変更履歴]]に追記していす.
  
 <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります. <wrap hi>[2014/11/01]</wrap> なお,改訂版の辞書では하다用言などについて,「学習用語彙」に含まれる項目も하다を分離して登録してあります.
 +
 ===== 辞書構築の実際 ===== ===== 辞書構築の実際 =====
  
-ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[http://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.+ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については[[..:mecab:hira2han|変換用辞書の構築について]]をご覧ください.なお,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]というツールも公開していますので,ご参照ください.
  
  {{indexmenu_n>22}}  {{indexmenu_n>22}}
korean/mecab/detail.1496068890.txt.gz · 最終更新: 2017/05/29 23:41 by yoshi