ユーザ用ツール

サイト用ツール


korean:mecab:python_mk_tfidf

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:python_mk_tfidf [2021/11/07 23:39] – [終わりに] yoshikorean:mecab:python_mk_tfidf [2021/11/12 19:38] (現在) – [TF-IDFの計算と上位10語の表示] yoshi
行 1: 行 1:
-====== HanDicの出力結果をPythonで利用する:tf-idfの計算 ======+====== HanDicの出力結果をPythonで利用する:TF-IDFの計算 ======
  
 ===== はじめに ===== ===== はじめに =====
行 88: 行 88:
  
 ここから後は,[[korean:mecab:python_tfidf|]]と同じ手順です.scikit-learnでTF-IDFを計算します. ここから後は,[[korean:mecab:python_tfidf|]]と同じ手順です.scikit-learnでTF-IDFを計算します.
 +
 +<wrap info>[2021/11\09 追記]</wrap> ''TfidfVectorizer()''の''token_pattern''を書いておかないと,古ハングルが無視されて計算されてしまいます.Unicodeの私用領域(PUA)に含まれる古ハングルを,文字コードで指定することにしました(参照:[[https://ja.wikipedia.org/wiki/%E5%8F%A4%E3%83%8F%E3%83%B3%E3%82%B0%E3%83%AB|古ハングル(Wikipedia)]]).これで合っているか分かりませんが,ともかく古ハングルが含まれた項目も計算に入るようになります.
  
 <code python> <code python>
 # モデルを作成 # モデルを作成
-vectorizer = TfidfVectorizer(smooth_idf=False)+vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern='(?u)[\\w\\ue0bc-\\uefff\\uf100-\\uf66e\\uf784-\\uf800\\uf806-\\uf864\\uf86a-\\uf8f7]+')
 values = vectorizer.fit_transform(docs).toarray() values = vectorizer.fit_transform(docs).toarray()
 feature_names = vectorizer.get_feature_names_out() feature_names = vectorizer.get_feature_names_out()
行 107: 行 109:
 </code> </code>
  
-結果は以下の通り:+結果は以下の通り(<wrap info>[2021/11/09 追記]</wrap> ''token_pattern''を変えたことで,計算結果に違いが出ましたので変更しておきます.傾向にあまり変わりはありません)
  
 <code text> <code text>
      c_sekbo_06_main_v03.txt      c_sekbo_06_main_v03.txt
-須達                  0.719277 +須達                  0.688172 
-舍利弗                 0.272642 +舍利弗                 0.260852 
-精舍                  0.244040 +精舍                  0.233487 
-부텨                  0.243841 +부텨                  0.233296 
-耶輸                  0.166975 +耶輸                  0.159754 
-太子                  0.155795 +太子                  0.149058 
-六師                  0.154131 +六師                  0.147465 
-目連                  0.128442 +사                  0.145260 
-舍衛國                 0.125518 +目連                  0.122888 
-護彌                  0.115598+舍衛國                 0.120090
          c_sekbo_09_main_v03.txt          c_sekbo_09_main_v03.txt
-有情                      0.514115 +有情                      0.475275 
-藥師瑠璃光如來                 0.431194 +藥師瑠璃光如來                 0.398618 
-橫死                      0.265350 +橫死                      0.245303 
-大願                      0.215597 +大願                      0.199309 
-일훔                      0.213857 +일훔                      0.197701 
-菩提                      0.199012 +來世                      0.183978 
-來世                      0.199012 +菩提                      0.183978 
-惡趣                      0.149259 +惡趣                      0.137983 
-文殊師利                    0.130755 +病                       0.123366 
-부텨                      0.118809+文殊師利                    0.120877
      c_sekbo_13_main_v03.txt      c_sekbo_13_main_v03.txt
-부텨                  0.494233 +부텨                  0.454087 
-舍利弗                 0.349437 +舍利弗                 0.321053 
-佛道                  0.257761 +佛道                  0.236824 
-菩薩                  0.244011 +菩薩                  0.224191 
-諸佛                  0.238970 +諸佛                  0.219559 
-衆生                  0.162934 +法                   0.189619 
-일훔                  0.141209 +사                  0.179639 
-知見                  0.121299 +衆生                  0.149699 
-佛乘                  0.121299 +일훔                  0.129739 
-因緣                  0.115584+佛乘                  0.111446
      c_sekbo_19_main_v03.txt      c_sekbo_19_main_v03.txt
-소리                  0.405196 +소리                  0.354649 
-부텨                  0.239810 +사                  0.231608 
-菩薩                  0.195539 +香                   0.213933 
-隨喜                  0.184687 +부텨                  0.209894 
-法華經                 0.184687 +經                   0.172931 
-得大勢                 0.184687 +菩薩                  0.171147 
-善女人                 0.156186 +隨喜                  0.161648 
-淸淨                  0.151089 +法華經                 0.161648 
-功德                  0.146655 +得大勢                 0.161648 
-摩訶薩                 0.140011+得                   0.159230
      c_sekbo_23_main_v03.txt      c_sekbo_23_main_v03.txt
-부텨                  0.354663 +부텨                  0.322129 
-舍利                  0.318446 +舍利                  0.289234 
-供養                  0.241816 +棺                   0.231640 
-拘尸城                 0.225031 +供養                  0.219634 
-金棺                  0.225031 +拘尸城                 0.204388 
-大衆                  0.196956 +金棺                  0.204388 
-如來                  0.182705 +大衆                  0.178889 
-一切                  0.177332 +如來                  0.165945 
-阿那律                 0.165022 +사                  0.165945 
-涅槃                  0.146129+一切                  0.161065
      c_sekbo_24_main_v03.txt      c_sekbo_24_main_v03.txt
-尊者                  0.421416 +王                   0.605065 
-阿育王                 0.387703 +尊者                  0.305280 
-부텨                  0.289824 +阿育王                 0.280858 
-夫人                  0.190071 +부텨                  0.209953 
-善容                  0.185423 +사                  0.139969 
-太子                  0.184018 +夫人                  0.137691 
-供養                  0.169064 +善容                  0.134323 
-比丘                  0.144912 +놈                   0.134323 
-對答                  0.144265 +太子                  0.133305 
-上座                  0.134853+塔                   0.129287
 </code> </code>
  
korean/mecab/python_mk_tfidf.1636295983.txt.gz · 最終更新: 2021/11/07 23:39 by yoshi