korean:mecab:python_tfidf
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
korean:mecab:python_tfidf [2021/11/07 00:14] – [記事のスクレイピング] yoshi | korean:mecab:python_tfidf [2021/12/13 23:32] (現在) – [やること] yoshi | ||
---|---|---|---|
行 26: | 行 26: | ||
ここでは例として,경향신문(京郷新聞)の[[https:// | ここでは例として,경향신문(京郷新聞)の[[https:// | ||
- | * [[https:// | + | * [[https:// |
- | * [[https:// | + | * [[https:// |
* [[http:// | * [[http:// | ||
* [[https:// | * [[https:// | ||
* [[http:// | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[https:// | ||
+ | * [[http:// | ||
+ | * [[https:// | ||
付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください. | 付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください. | ||
行 43: | 行 47: | ||
from sklearn.feature_extraction.text import TfidfVectorizer | from sklearn.feature_extraction.text import TfidfVectorizer | ||
import pandas as pd | import pandas as pd | ||
- | from k2jamo | + | import |
</ | </ | ||
行 130: | 行 134: | ||
for i in range(len(rss_list)): | for i in range(len(rss_list)): | ||
print(" | print(" | ||
- | text = substitute_main(news_scraping(rss_list[i].link.text)) | + | text = k2jamo.substitute(news_scraping(rss_list[i].link.text)) |
text = extract(text) | text = extract(text) | ||
titles.append(rss_list[i].title.text) | titles.append(rss_list[i].title.text) |
korean/mecab/python_tfidf.1636211680.txt.gz · 最終更新: 2021/11/07 00:14 by yoshi