ユーザ用ツール

サイト用ツール


korean:mecab:python_mk_tfidf

文書の過去の版を表示しています。


HanDicの出力結果をPythonで利用する:tf-idfの計算

はじめに

HanDicを使ったMeCabの出力結果をPythonで利用する例として,文書中に現れる単語の重要度を示す,TF-IDFの計算を行ってみます.今回は中期朝鮮語の資料である『석보상절(釈譜詳節)』(1447年刊)を,中期朝鮮語のMeCab用解析辞書「MkHanDic」で解析した結果を使います.解析結果については,MeCabの出力そのままではなく,テキストファイルに出力した結果を手作業で修正したものを利用します.

上記資料の原刊本のうち,巻6,9,13,19,23,24の本文のみ解析して修正した巻次ごとのテキストファイルが,スクリプトと同じディレクトリ下のsekbo_textsというディレクトリにあるものとします.巻6のファイル(ファイル名はc_sekbo_06_main_v03.txtとする)の冒頭は以下の通りとなっています:

世尊	Noun,固有名詞,人名,*,*,世尊,世尊,世尊,*,NNP
'i	Ending,助詞,主格,*,*,이,이,*,*,JKS
象頭山	Noun,固有名詞,地名,*,*,象頭山,象頭山,象頭山,*,NNP
'ai	Ending,助詞,処格,*,*,애,애,*,*,JKB
ga	Verb,自立,*,語基2,*,가다01,가,*,*,VV
sia	Prefinal,尊敬,*,語基3,*,시,샤,*,*,EP
龍	Noun,普通,*,*,*,龍,龍,龍,*,NNG
goa	Ending,助詞,接続助詞,*,*,과,과,*,*,JC
鬼神	Noun,普通,*,*,*,鬼神,鬼神,鬼神,*,NNG
goa	Ending,助詞,接続助詞,*,*,과,과,*,*,JC
'uih@'ia	Verb,自立,*,語基3,*,위다,위야,*,*,VV
說法	Noun,普通,動作,*,*,說法,說法,說法,*,NNG
h@	Suffix,動詞派生,*,語基1,*,다80,,*,*,XSV
de	Prefinal,回想,*,語基2,*,더,더,*,*,EP
si	Prefinal,尊敬,*,語基1,*,시,시,*,*,EP
da	Ending,語尾,終止形,*,1接続,다,다,*,*,EF
.	Symbol,ピリオド,*,*,*,.,.,*,*,SF
EOS

(以下継続)

korean/mecab/python_mk_tfidf.1636293614.txt.gz · 最終更新: 2021/11/07 23:00 by yoshi