ユーザ用ツール

サイト用ツール


korean:mecab:khcoder

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:khcoder [2015/10/17 23:26] – [対応分析] yoshikorean:mecab:khcoder [2018/02/28 15:37] (現在) – [共起ネットワークに必要なパッケージ] yoshi
行 47: 行 47:
  
 {{:korean:kh_pre.png?direct&300|}} {{:korean:kh_pre.png?direct&300|}}
- 
- 
-===== 分析 ===== 
  
 前処理が終了したら,様々な分析を行ってみましょう. 前処理が終了したら,様々な分析を行ってみましょう.
  
-==== 頻出する語の抽出 ====+===== 頻出する語の抽出 =====
  
 「ツール」メニューから「抽出語」⇒「抽出語リスト」を実行します.するとオプションを選ぶダイアログが表示されます.ここでは「頻出150語」を選択し,Excelで表示することにしましょう. 「ツール」メニューから「抽出語」⇒「抽出語リスト」を実行します.するとオプションを選ぶダイアログが表示されます.ここでは「頻出150語」を選択し,Excelで表示することにしましょう.
行 65: 行 62:
 全て基本形にまとめて集計・表示されます. 全て基本形にまとめて集計・表示されます.
  
-==== 共起ネットワークの作成 ====+===== 共起ネットワークの作成 =====
  
 語と語の結びつきを図示する共起ネットワーク図を作成します.「ツール」メニューから,「抽出語」⇒「共起ネットワーク」を選択します. 語と語の結びつきを図示する共起ネットワーク図を作成します.「ツール」メニューから,「抽出語」⇒「共起ネットワーク」を選択します.
行 71: 行 68:
 {{:korean:kh_network_dialogue.png?direct&300|}} {{:korean:kh_network_dialogue.png?direct&300|}}
  
-=== 語と語の結びつき ===+==== 語と語の結びつき ====
  
 以下のようなオプションを設定し,「OK」を押します. 以下のようなオプションを設定し,「OK」を押します.
行 85: 行 82:
 {{:korean:kh_network_02.png?direct&300|}} {{:korean:kh_network_02.png?direct&300|}}
  
-=== 語と見出しの結びつき ===+==== 語と見出しの結びつき ====
  
 次は,''<h1>''~''</h1>''で囲った見出しを元に,共起関係の種類を変更してみます.共起ネットワーク作成のオプションを,以下のように設定します.特に右側,「共起ネットワークの設定」中,「共起関係(edge)の種類」を「語-外部変数・見出し」とし,「外部変数・見出し」を「見出し1」としている点に注意してください. 次は,''<h1>''~''</h1>''で囲った見出しを元に,共起関係の種類を変更してみます.共起ネットワーク作成のオプションを,以下のように設定します.特に右側,「共起ネットワークの設定」中,「共起関係(edge)の種類」を「語-外部変数・見出し」とし,「外部変数・見出し」を「見出し1」としている点に注意してください.
行 94: 行 91:
 第16代の盧武鉉氏,第17代の李明博氏との間に共通する項目がないのが興味深いです.設定で「描画数」を100に増やしたところ,협력「協力」,하다01「する」が共通項として出て来ました. 第16代の盧武鉉氏,第17代の李明博氏との間に共通する項目がないのが興味深いです.設定で「描画数」を100に増やしたところ,협력「協力」,하다01「する」が共通項として出て来ました.
  
-==== 各大統領の特徴語抽出 ====+===== 各大統領の特徴語抽出 =====
  
 各大統領のスピーチから,それぞれに特徴的な語を取り出してみます.事前の準備として,集計に必要な品詞を指定しておきます.デフォルトのままでは助詞や語尾などもカウントされてしまいます.「前処理」メニューから「語の取捨選択」をクリックし,「品詞による語の選択」を以下のように設定して「OK」を押します. 各大統領のスピーチから,それぞれに特徴的な語を取り出してみます.事前の準備として,集計に必要な品詞を指定しておきます.デフォルトのままでは助詞や語尾などもカウントされてしまいます.「前処理」メニューから「語の取捨選択」をクリックし,「品詞による語の選択」を以下のように設定して「OK」を押します.
行 112: 行 109:
 {{:korean:kh_h1_list_result.png?direct&300|}} {{:korean:kh_h1_list_result.png?direct&300|}}
  
-==== 対応分析 ====+===== 対応分析 ===== 
 + 
 +対応分析により,各大統領のスピーチに特徴的な語を,視覚的に表示してみます. 
 + 
 +「ツール」メニューから「抽出語」⇒「対応分析」をクリックします.現われる設定ダイアログで,以下のように設定を行います. 
 + 
 +{{:korean:kh_corres_option.png?direct&300|}} 
 + 
 +以下のような結果が表示されます. 
 + 
 +{{:korean:kh_corres_01.png?direct&300|}} 
 + 
 +各大統領について原点から最も離れている語を拾うと,盧武鉉氏が동북「東北」,李明博氏が선진03「先進」,朴槿恵氏が행복02「幸福」という結果になりました.「東北」は동북아「北東アジア」が分析された結果と思われます. 
 + 
 +====== メモ ====== 
 + 
 +===== ユーザー辞書の指定 ===== 
 + 
 +[[https://taku910.github.io/mecab/dic.html|単語の追加方法]]などで作成したユーザー辞書を追加して使う場合,KH Coderのインストールフォルダ内にある''dep/handic/dicrc''の<wrap warning>末尾に</wrap>,ユーザー辞書へのパスを追加します.以下の例は,ユーザー辞書''user.dic''が''E:\00Work\02Data\00kodic\dic''にある場合の記述です. 
 + 
 +<code> 
 +userdic = E:/00Work/02Data/00kodic/dic/user.dic 
 +</code> 
 + 
 +この設定は,KH Coderで韓国語を解析する場合にのみ適用されます. 
 + 
 +===== 抽出する品詞の追加 ===== 
 + 
 +初期設定では,抽出する品詞が普通名詞,固有名詞,形容詞,副詞,動詞に限られており,それ以外の品詞,例えば助詞や語尾などは「その他」に一括して扱われています.これらを別個に抽出したい場合は,品詞を追加して前処理を行います. 
 + 
 +品詞を追加するには,''config''フォルダ内の''hinshi_mecab_k''という設定ファイルの<wrap warning>末尾に</wrap>記述を加えます.以下はその例です. 
 + 
 +<code> 
 +40,JOSA,"Ending-助詞", 
 +41,EOMI,"Ending-語尾", 
 +</code> 
 + 
 +コンマで区切って記述をしますが,最初の数字は品詞IDで,他と重複しない値を設定します.2列目は品詞名,3列目(条件1)は抽出する条件をHanDicの品詞で記述します.条件2は設定していませんので,コンマで終わります. 
 + 
 +===== Macで使う場合 ===== 
 + 
 +==== 共起ネットワークに必要なパッケージ ==== 
 + 
 +Rの方で''igraph''パッケージの''1.0.1''をインストールしていたのですが,描画に失敗しました.[[https://cran.r-project.org/src/contrib/Archive/igraph/|CRANのigraphアーカイブ]]からバージョンの''0.5.4-4''をダウンロードして,''~/Desktop''に解凍した場合, 
 + 
 +<code r> 
 +install.packages("~/Desktop/igraph/", repos=NULL, type="source"
 +</code> 
 + 
 +でインストールします.[[http://koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1151&reno=1149&oya=1135&mode=msgview|KH Coderの掲示板]]を参考にしました.バージョンの''0.6''以上だと,パッケージインストールの際に''gfortran-4.2''が無いと言われてインストール出来ませんでした. 
 + 
 +=== 新しいバージョンでエラーが出る場合 === 
 + 
 +igraph 1.1.2,ggplot 2.2.1で共起ネットワークを作成する際, 
 + 
 +<code> 
 +Error: StatEdges was built with an incompatible version of ggproto. Please reinstall the package that provides this extension. 
 +</code> 
 + 
 +というエラーが出る場合には,''ggnetwork''をソースからインストールします. 
 + 
 +<code r> 
 +install.packages("ggnetwork", type="source"
 +</code> 
 + 
 +==== 対応分析に必要なパッケージ ==== 
 + 
 +Rで,''maptools''と''ade4''パッケージをインストールします. 
 + 
 +==== 階層的クラスター分析に必要なパッケージ ==== 
 + 
 +Rで,''ggdendro''と''amap''パッケージをインストールします. 
 + 
 +==== ヒートマップ作成に必要なパッケージ ==== 
 + 
 +Rで''pheatmap''をインストールしますが,[[https://cran.r-project.org/web/packages/pheatmap/index.html|CRANのパッケージサイト]]からArchiveへ進み,バージョン''0.7.7''をダウンロードして,インストールします. 
 + 
 +<code r> 
 +install.packages("pheatmap_0.7.7.tar.gz", repos=NULL, type="source"
 +</code> 
 + 
 +Rから直接最新版をインストールすると,描画に失敗します. 
 + 
 +====== 参考文献・リンク ======
  
-対応分析により,各大統領特徴的な語視覚的に表示してみます.+  * [[http://khc.sourceforge.net/kh_tuto.html|KH Coderチュートリアル&ヒント]] 
 +  * 樋口耕一(2014)『社会調査のための計量テキスト分析―内容分析の継承と発展目指して―』,ナカニシヤ出版
  
  {{indexmenu_n>203}}  {{indexmenu_n>203}}
korean/mecab/khcoder.1445091982.txt.gz · 最終更新: 2015/10/17 23:26 by yoshi