ユーザ用ツール

サイト用ツール


korean:mecab:python_tfidf

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:python_tfidf [2021/11/07 00:14] – [記事のスクレイピング] yoshikorean:mecab:python_tfidf [2021/12/13 23:32] (現在) – [やること] yoshi
行 26: 行 26:
 ここでは例として,경향신문(京郷新聞)の[[https://www.khan.co.kr/help/help_rss.html|RSSサービス]]から,「정치(政治)」カテゴリのフィードを利用します.大手の新聞社でRSSサービスを行っているのは以下の通りです: ここでは例として,경향신문(京郷新聞)の[[https://www.khan.co.kr/help/help_rss.html|RSSサービス]]から,「정치(政治)」カテゴリのフィードを利用します.大手の新聞社でRSSサービスを行っているのは以下の通りです:
  
-  * [[https://rssplus.chosun.com/|조선일보(朝鮮日報)]]:更新されていない +  * [[https://rssplus.chosun.com/|조선일보(朝鮮日報)]]:記事の構造分からない 
-  * [[https://rss.joins.com/|중앙일보(中央日報)]]+  * [[https://rss.joins.com/|중앙일보(中央日報)]]:カテゴリによっては更新されていない・リンクが切れている
   * [[http://rss.donga.com/|동아일보(東亜日報)]]:記事の構造が分からない   * [[http://rss.donga.com/|동아일보(東亜日報)]]:記事の構造が分からない
   * [[https://www.hani.co.kr/arti/RSS/|한겨레(ハンギョレ)]]   * [[https://www.hani.co.kr/arti/RSS/|한겨레(ハンギョレ)]]
   * [[http://www.nocutnews.co.kr/rss/|노컷뉴스(ノーカットニュース/CBS)]]   * [[http://www.nocutnews.co.kr/rss/|노컷뉴스(ノーカットニュース/CBS)]]
 +  * [[http://rss.kmib.co.kr/|국민일보(国民日報)]]
 +  * [[https://www.segye.com/rssInfo|세계일보(世界日報)]]
 +  * [[http://rss.hankooki.com/|한국아이닷컴(hankooki.com)]]
 +  * [[https://www.mk.co.kr/rss/|매일경제(毎日経済)]]
  
 付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください. 付記した理由から,ここでは경향신문を取り上げることにします.他のRSSを利用する場合,適宜読み替えてください.
行 43: 行 47:
 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_extraction.text import TfidfVectorizer
 import pandas as pd import pandas as pd
-from k2jamo import substitute_main+import k2jamo
 </code> </code>
  
行 130: 行 134:
 for i in range(len(rss_list)): for i in range(len(rss_list)):
     print("processing:", i+1, "/", len(rss_list))     print("processing:", i+1, "/", len(rss_list))
-    text = substitute_main(news_scraping(rss_list[i].link.text))+    text = k2jamo.substitute(news_scraping(rss_list[i].link.text))
     text = extract(text)     text = extract(text)
     titles.append(rss_list[i].title.text)     titles.append(rss_list[i].title.text)
korean/mecab/python_tfidf.1636211680.txt.gz · 最終更新: 2021/11/07 00:14 by yoshi