korean:mecab:python_mk_tfidf
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| korean:mecab:python_mk_tfidf [2021/11/07 23:27] – [TF-IDFの計算と上位10語の表示] yoshi | korean:mecab:python_mk_tfidf [2021/11/12 19:38] (現在) – [TF-IDFの計算と上位10語の表示] yoshi | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| - | ====== HanDicの出力結果をPythonで利用する:tf-idfの計算 ====== | + | ====== HanDicの出力結果をPythonで利用する:TF-IDFの計算 ====== |
| ===== はじめに ===== | ===== はじめに ===== | ||
| 行 88: | 行 88: | ||
| ここから後は,[[korean: | ここから後は,[[korean: | ||
| + | |||
| + | <wrap info> | ||
| <code python> | <code python> | ||
| # モデルを作成 | # モデルを作成 | ||
| - | vectorizer = TfidfVectorizer(smooth_idf=False) | + | vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern=' |
| values = vectorizer.fit_transform(docs).toarray() | values = vectorizer.fit_transform(docs).toarray() | ||
| feature_names = vectorizer.get_feature_names_out() | feature_names = vectorizer.get_feature_names_out() | ||
| 行 107: | 行 109: | ||
| </ | </ | ||
| - | (以下継続) | + | 結果は以下の通り(< |
| + | |||
| + | <code text> | ||
| + | | ||
| + | 須達 | ||
| + | 舍利弗 | ||
| + | 精舍 | ||
| + | 부텨 | ||
| + | 耶輸 | ||
| + | 太子 | ||
| + | 六師 | ||
| + | 사 | ||
| + | 目連 | ||
| + | 舍衛國 | ||
| + | | ||
| + | 有情 | ||
| + | 藥師瑠璃光如來 | ||
| + | 橫死 | ||
| + | 大願 | ||
| + | 일훔 | ||
| + | 來世 | ||
| + | 菩提 | ||
| + | 惡趣 | ||
| + | 病 | ||
| + | 文殊師利 | ||
| + | | ||
| + | 부텨 | ||
| + | 舍利弗 | ||
| + | 佛道 | ||
| + | 菩薩 | ||
| + | 諸佛 | ||
| + | 法 | ||
| + | 사 | ||
| + | 衆生 | ||
| + | 일훔 | ||
| + | 佛乘 | ||
| + | | ||
| + | 소리 | ||
| + | 사 | ||
| + | 香 | ||
| + | 부텨 | ||
| + | 經 | ||
| + | 菩薩 | ||
| + | 隨喜 | ||
| + | 法華經 | ||
| + | 得大勢 | ||
| + | 得 | ||
| + | | ||
| + | 부텨 | ||
| + | 舍利 | ||
| + | 棺 | ||
| + | 供養 | ||
| + | 拘尸城 | ||
| + | 金棺 | ||
| + | 大衆 | ||
| + | 如來 | ||
| + | 사 | ||
| + | 一切 | ||
| + | | ||
| + | 王 | ||
| + | 尊者 | ||
| + | 阿育王 | ||
| + | 부텨 | ||
| + | 사 | ||
| + | 夫人 | ||
| + | 善容 | ||
| + | 놈 | ||
| + | 太子 | ||
| + | 塔 | ||
| + | </ | ||
| + | |||
| + | 須達と舎利仏のストーリーが中心的な巻6,『薬師瑠璃光如来本願功徳経』の翻訳である巻9,『法華経』の翻訳である巻13,19,釈迦入滅後,舎利の扱いを論じる巻23,阿育王の話が出てくる巻24と,それぞれの特徴が示されています. | ||
| + | |||
| + | ===== 終わりに ===== | ||
| + | |||
| + | 取得したデータをMeCabで処理しながら,その結果を利用するということが多いかと思いますが,既に出力結果がある場合,また出力結果を修正した正解ファイルがある場合も,簡単に処理することができます.形態素解析の結果には誤りも含まれることがあるため,正解ファイルを利用する,ということもニーズがあると思われます. | ||
| + | {{indexmenu_n> | ||
korean/mecab/python_mk_tfidf.1636295225.txt.gz · 最終更新: 2021/11/07 23:27 by yoshi