korean:mecab:python_mk_tfidf
文書の過去の版を表示しています。
HanDicの出力結果をPythonで利用する:tf-idfの計算
はじめに
HanDicを使ったMeCabの出力結果をPythonで利用する例として,文書中に現れる単語の重要度を示す,TF-IDFの計算を行ってみます.今回は中期朝鮮語の資料である『석보상절(釈譜詳節)』(1447年刊)を,中期朝鮮語のMeCab用解析辞書「MkHanDic」で解析した結果を使います.解析結果については,MeCabの出力そのままではなく,テキストファイルに出力した結果を手作業で修正したものを利用します.
上記資料の原刊本のうち,巻6,9,13,19,23,24の本文のみ解析して修正した巻次ごとのテキストファイルが,スクリプトと同じディレクトリ下のsekbo_texts
というディレクトリにあるものとします.巻6のファイル(ファイル名はc_sekbo_06_main_v03.txt
とする)の冒頭は以下の通りとなっています:
世尊 Noun,固有名詞,人名,*,*,世尊,世尊,世尊,*,NNP 'i Ending,助詞,主格,*,*,이,이,*,*,JKS 象頭山 Noun,固有名詞,地名,*,*,象頭山,象頭山,象頭山,*,NNP 'ai Ending,助詞,処格,*,*,애,애,*,*,JKB ga Verb,自立,*,語基2,*,가다01,가,*,*,VV sia Prefinal,尊敬,*,語基3,*,시,샤,*,*,EP 龍 Noun,普通,*,*,*,龍,龍,龍,*,NNG goa Ending,助詞,接続助詞,*,*,과,과,*,*,JC 鬼神 Noun,普通,*,*,*,鬼神,鬼神,鬼神,*,NNG goa Ending,助詞,接続助詞,*,*,과,과,*,*,JC 'uih@'ia Verb,自立,*,語基3,*,위다,위야,*,*,VV 說法 Noun,普通,動作,*,*,說法,說法,說法,*,NNG h@ Suffix,動詞派生,*,語基1,*,다80,,*,*,XSV de Prefinal,回想,*,語基2,*,더,더,*,*,EP si Prefinal,尊敬,*,語基1,*,시,시,*,*,EP da Ending,語尾,終止形,*,1接続,다,다,*,*,EF . Symbol,ピリオド,*,*,*,.,.,*,*,SF EOS
(以下継続)
korean/mecab/python_mk_tfidf.1636293614.txt.gz · 最終更新: 2021/11/07 23:00 by yoshi