korean:mecab:python_mk_tfidf

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- korean:mecab:python_mk_tfidf [2021/11/09 23:53] – [TF-IDFの計算と上位10語の表示] yoshi
+++ korean:mecab:python_mk_tfidf [2021/11/12 19:38] (現在) – [TF-IDFの計算と上位10語の表示] yoshi
@@ 行 89: / 行 89: @@
 ここから後は，[[korean:mecab:python_tfidf|]]と同じ手順です．scikit-learnでTF-IDFを計算します．
-<wrap info>[2021/11\09 追記]</wrap> ''TfidfVectorizer()''の''token_pattern''を書いておかないと，古ハングルが無視されて計算されてしまいます．これで合っているか分かりませんが，ともかく古ハングルが含まれた項目も計算に入るようになります．
+<wrap info>[2021/11\09 追記]</wrap> ''TfidfVectorizer()''の''token_pattern''を書いておかないと，古ハングルが無視されて計算されてしまいます．Unicodeの私用領域（PUA）に含まれる古ハングルを，文字コードで指定することにしました（参照：[[https://ja.wikipedia.org/wiki/%E5%8F%A4%E3%83%8F%E3%83%B3%E3%82%B0%E3%83%AB|古ハングル（Wikipedia）]]）．これで合っているか分かりませんが，ともかく古ハングルが含まれた項目も計算に入るようになります．
 <code python>
 # モデルを作成
-vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern='(?u)[\\w\\ue0bc-\\uefff\\uf1000-\\uf66e]+')
+vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern='(?u)[\\w\\ue0bc-\\uefff\\uf100-\\uf66e\\uf784-\\uf800\\uf806-\\uf864\\uf86a-\\uf8f7]+')
 values = vectorizer.fit_transform(docs).toarray()
 feature_names = vectorizer.get_feature_names_out()

korean/mecab/python_mk_tfidf.1636469593.txt.gz · 最終更新: 2021/11/09 23:53 by yoshi