korean:mecab:python_mk_tfidf
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
korean:mecab:python_mk_tfidf [2021/11/07 23:29] – [TF-IDFの計算と上位10語の表示] yoshi | korean:mecab:python_mk_tfidf [2021/11/12 19:38] (現在) – [TF-IDFの計算と上位10語の表示] yoshi | ||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== HanDicの出力結果をPythonで利用する:tf-idfの計算 ====== | + | ====== HanDicの出力結果をPythonで利用する:TF-IDFの計算 ====== |
===== はじめに ===== | ===== はじめに ===== | ||
行 88: | 行 88: | ||
ここから後は,[[korean: | ここから後は,[[korean: | ||
+ | |||
+ | <wrap info> | ||
<code python> | <code python> | ||
# モデルを作成 | # モデルを作成 | ||
- | vectorizer = TfidfVectorizer(smooth_idf=False) | + | vectorizer = TfidfVectorizer(smooth_idf=False, token_pattern=' |
values = vectorizer.fit_transform(docs).toarray() | values = vectorizer.fit_transform(docs).toarray() | ||
feature_names = vectorizer.get_feature_names_out() | feature_names = vectorizer.get_feature_names_out() | ||
行 107: | 行 109: | ||
</ | </ | ||
- | 結果は以下の通り: | + | 結果は以下の通り(<wrap info> |
<code text> | <code text> | ||
| | ||
- | 須達 | + | 須達 |
- | 舍利弗 | + | 舍利弗 |
- | 精舍 | + | 精舍 |
- | 부텨 | + | 부텨 |
- | 耶輸 | + | 耶輸 |
- | 太子 | + | 太子 |
- | 六師 | + | 六師 |
- | 目連 | + | 사 |
- | 舍衛國 | + | 目連 |
- | 護彌 | + | 舍衛國 |
| | ||
- | 有情 | + | 有情 |
- | 藥師瑠璃光如來 | + | 藥師瑠璃光如來 |
- | 橫死 | + | 橫死 |
- | 大願 | + | 大願 |
- | 일훔 | + | 일훔 |
- | 菩提 | + | 來世 |
- | 來世 | + | 菩提 |
- | 惡趣 | + | 惡趣 |
- | 文殊師利 | + | 病 |
- | 부텨 | + | 文殊師利 |
| | ||
- | 부텨 | + | 부텨 |
- | 舍利弗 | + | 舍利弗 |
- | 佛道 | + | 佛道 |
- | 菩薩 | + | 菩薩 |
- | 諸佛 | + | 諸佛 |
- | 衆生 | + | 法 0.189619 |
- | 일훔 | + | 사 |
- | 知見 | + | 衆生 |
- | 佛乘 | + | 일훔 |
- | 因緣 | + | 佛乘 |
| | ||
- | 소리 | + | 소리 |
- | 부텨 | + | 사 |
- | 菩薩 | + | 香 |
- | 隨喜 | + | 부텨 |
- | 法華經 | + | 經 |
- | 得大勢 | + | 菩薩 |
- | 善女人 | + | 隨喜 |
- | 淸淨 | + | 法華經 |
- | 功德 | + | 得大勢 |
- | 摩訶薩 | + | 得 0.159230 |
| | ||
- | 부텨 | + | 부텨 |
- | 舍利 | + | 舍利 |
- | 供養 | + | 棺 |
- | 拘尸城 | + | 供養 |
- | 金棺 | + | 拘尸城 |
- | 大衆 | + | 金棺 |
- | 如來 | + | 大衆 |
- | 一切 | + | 如來 |
- | 阿那律 | + | 사 |
- | 涅槃 | + | 一切 |
| | ||
- | 尊者 | + | 王 |
- | 阿育王 | + | 尊者 |
- | 부텨 | + | 阿育王 |
- | 夫人 | + | 부텨 |
- | 善容 | + | 사 |
- | 太子 | + | 夫人 |
- | 供養 | + | 善容 |
- | 比丘 | + | 놈 0.134323 |
- | 對答 | + | 太子 |
- | 上座 | + | 塔 0.129287 |
</ | </ | ||
- | (以下継続) | + | 須達と舎利仏のストーリーが中心的な巻6,『薬師瑠璃光如来本願功徳経』の翻訳である巻9,『法華経』の翻訳である巻13,19,釈迦入滅後,舎利の扱いを論じる巻23,阿育王の話が出てくる巻24と,それぞれの特徴が示されています. |
+ | |||
+ | ===== 終わりに ===== | ||
+ | |||
+ | 取得したデータをMeCabで処理しながら,その結果を利用するということが多いかと思いますが,既に出力結果がある場合,また出力結果を修正した正解ファイルがある場合も,簡単に処理することができます.形態素解析の結果には誤りも含まれることがあるため,正解ファイルを利用する,ということもニーズがあると思われます. | ||
+ | {{indexmenu_n> |
korean/mecab/python_mk_tfidf.1636295373.txt.gz · 最終更新: 2021/11/07 23:29 by yoshi