korean:mecab:python_tfidf
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| korean:mecab:python_tfidf [2021/11/07 00:14] – [記事のスクレイピング] yoshi | korean:mecab:python_tfidf [2021/12/13 23:32] (現在) – [やること] yoshi | ||
|---|---|---|---|
| 行 26: | 行 26: | ||
| ここでは例として,경향신문(京郷新聞)の[[https:// | ここでは例として,경향신문(京郷新聞)の[[https:// | ||
| - | * [[https:// | + | * [[https:// |
| - | * [[https:// | + | * [[https:// |
| * [[http:// | * [[http:// | ||
| * [[https:// | * [[https:// | ||
| * [[http:// | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[https:// | ||
| + | * [[http:// | ||
| + | * [[https:// | ||
| 付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください. | 付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください. | ||
| 行 43: | 行 47: | ||
| from sklearn.feature_extraction.text import TfidfVectorizer | from sklearn.feature_extraction.text import TfidfVectorizer | ||
| import pandas as pd | import pandas as pd | ||
| - | from k2jamo | + | import |
| </ | </ | ||
| 行 130: | 行 134: | ||
| for i in range(len(rss_list)): | for i in range(len(rss_list)): | ||
| print(" | print(" | ||
| - | text = substitute_main(news_scraping(rss_list[i].link.text)) | + | text = k2jamo.substitute(news_scraping(rss_list[i].link.text)) |
| text = extract(text) | text = extract(text) | ||
| titles.append(rss_list[i].title.text) | titles.append(rss_list[i].title.text) | ||
korean/mecab/python_tfidf.1636211680.txt.gz · 最終更新: 2021/11/07 00:14 by yoshi