ユーザ用ツール

サイト用ツール


korean:mecab:python_mk_tfidf

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:python_mk_tfidf [2021/11/11 23:45] – [TF-IDFの計算と上位10語の表示] yoshikorean:mecab:python_mk_tfidf [2026/03/16 23:03] (現在) yoshi
行 89: 行 89:
 ここから後は,[[korean:mecab:python_tfidf|]]と同じ手順です.scikit-learnでTF-IDFを計算します. ここから後は,[[korean:mecab:python_tfidf|]]と同じ手順です.scikit-learnでTF-IDFを計算します.
  
-<wrap info>[2021/11\09 追記]</wrap> ''TfidfVectorizer()''の''token_pattern''を書いておかないと,古ハングルが無視されて計算されてしまいます.Unicodeの私用領域(PUA)に含まれる古ハングルを,文字コードで指定することにしました.これで合っているか分かりませんが,ともかく古ハングルが含まれた項目も計算に入るようになります.+<wrap info>[2021/11\09 追記]</wrap> ''TfidfVectorizer()''の''token_pattern''を書いておかないと,古ハングルが無視されて計算されてしまいます.Unicodeの私用領域(PUA)に含まれる古ハングルを,文字コードで指定することにしました(参照:[[https://ja.wikipedia.org/wiki/%E5%8F%A4%E3%83%8F%E3%83%B3%E3%82%B0%E3%83%AB|古ハングル(Wikipedia)]]).これで合っているか分かりませんが,ともかく古ハングルが含まれた項目も計算に入るようになります.
  
 <code python> <code python>
 # モデルを作成 # モデルを作成
-vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern='(?u)[\\w\\ue0bc-\\uefff\\uf1000-\\uf66e]+')+vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern='(?u)[\\w\\ue0bc-\\uefff\\uf100-\\uf66e\\uf784-\\uf800\\uf806-\\uf864\\uf86a-\\uf8f7]+')
 values = vectorizer.fit_transform(docs).toarray() values = vectorizer.fit_transform(docs).toarray()
 feature_names = vectorizer.get_feature_names_out() feature_names = vectorizer.get_feature_names_out()
行 186: 行 186:
 取得したデータをMeCabで処理しながら,その結果を利用するということが多いかと思いますが,既に出力結果がある場合,また出力結果を修正した正解ファイルがある場合も,簡単に処理することができます.形態素解析の結果には誤りも含まれることがあるため,正解ファイルを利用する,ということもニーズがあると思われます. 取得したデータをMeCabで処理しながら,その結果を利用するということが多いかと思いますが,既に出力結果がある場合,また出力結果を修正した正解ファイルがある場合も,簡単に処理することができます.形態素解析の結果には誤りも含まれることがあるため,正解ファイルを利用する,ということもニーズがあると思われます.
  
-{{indexmenu_n>206}}+{{indexmenu_n>223}}
korean/mecab/python_mk_tfidf.1636641923.txt.gz · 最終更新: by yoshi