korean:mecab:khcoder
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| korean:mecab:khcoder [2015/10/17 23:26] – [対応分析] yoshi | korean:mecab:khcoder [2018/02/28 15:37] (現在) – [共起ネットワークに必要なパッケージ] yoshi | ||
|---|---|---|---|
| 行 47: | 行 47: | ||
| {{: | {{: | ||
| - | |||
| - | |||
| - | ===== 分析 ===== | ||
| 前処理が終了したら,様々な分析を行ってみましょう. | 前処理が終了したら,様々な分析を行ってみましょう. | ||
| - | ==== 頻出する語の抽出 ==== | + | ===== 頻出する語の抽出 |
| 「ツール」メニューから「抽出語」⇒「抽出語リスト」を実行します.するとオプションを選ぶダイアログが表示されます.ここでは「頻出150語」を選択し,Excelで表示することにしましょう. | 「ツール」メニューから「抽出語」⇒「抽出語リスト」を実行します.するとオプションを選ぶダイアログが表示されます.ここでは「頻出150語」を選択し,Excelで表示することにしましょう. | ||
| 行 65: | 行 62: | ||
| 全て基本形にまとめて集計・表示されます. | 全て基本形にまとめて集計・表示されます. | ||
| - | ==== 共起ネットワークの作成 ==== | + | ===== 共起ネットワークの作成 |
| 語と語の結びつきを図示する共起ネットワーク図を作成します.「ツール」メニューから,「抽出語」⇒「共起ネットワーク」を選択します. | 語と語の結びつきを図示する共起ネットワーク図を作成します.「ツール」メニューから,「抽出語」⇒「共起ネットワーク」を選択します. | ||
| 行 71: | 行 68: | ||
| {{: | {{: | ||
| - | === 語と語の結びつき === | + | ==== 語と語の結びつき |
| 以下のようなオプションを設定し,「OK」を押します. | 以下のようなオプションを設定し,「OK」を押します. | ||
| 行 85: | 行 82: | ||
| {{: | {{: | ||
| - | === 語と見出しの結びつき === | + | ==== 語と見出しの結びつき |
| 次は,''< | 次は,''< | ||
| 行 94: | 行 91: | ||
| 第16代の盧武鉉氏,第17代の李明博氏との間に共通する項目がないのが興味深いです.設定で「描画数」を100に増やしたところ,협력「協力」,하다01「する」が共通項として出て来ました. | 第16代の盧武鉉氏,第17代の李明博氏との間に共通する項目がないのが興味深いです.設定で「描画数」を100に増やしたところ,협력「協力」,하다01「する」が共通項として出て来ました. | ||
| - | ==== 各大統領の特徴語抽出 ==== | + | ===== 各大統領の特徴語抽出 |
| 各大統領のスピーチから,それぞれに特徴的な語を取り出してみます.事前の準備として,集計に必要な品詞を指定しておきます.デフォルトのままでは助詞や語尾などもカウントされてしまいます.「前処理」メニューから「語の取捨選択」をクリックし,「品詞による語の選択」を以下のように設定して「OK」を押します. | 各大統領のスピーチから,それぞれに特徴的な語を取り出してみます.事前の準備として,集計に必要な品詞を指定しておきます.デフォルトのままでは助詞や語尾などもカウントされてしまいます.「前処理」メニューから「語の取捨選択」をクリックし,「品詞による語の選択」を以下のように設定して「OK」を押します. | ||
| 行 112: | 行 109: | ||
| {{: | {{: | ||
| - | ==== 対応分析 ==== | + | ===== 対応分析 |
| + | |||
| + | 対応分析により,各大統領のスピーチに特徴的な語を,視覚的に表示してみます. | ||
| + | |||
| + | 「ツール」メニューから「抽出語」⇒「対応分析」をクリックします.現われる設定ダイアログで,以下のように設定を行います. | ||
| + | |||
| + | {{: | ||
| + | |||
| + | 以下のような結果が表示されます. | ||
| + | |||
| + | {{: | ||
| + | |||
| + | 各大統領について原点から最も離れている語を拾うと,盧武鉉氏が동북「東北」,李明博氏が선진03「先進」,朴槿恵氏が행복02「幸福」という結果になりました.「東北」は동북아「北東アジア」が分析された結果と思われます. | ||
| + | |||
| + | ====== メモ ====== | ||
| + | |||
| + | ===== ユーザー辞書の指定 ===== | ||
| + | |||
| + | [[https:// | ||
| + | |||
| + | < | ||
| + | userdic = E:/ | ||
| + | </ | ||
| + | |||
| + | この設定は,KH Coderで韓国語を解析する場合にのみ適用されます. | ||
| + | |||
| + | ===== 抽出する品詞の追加 ===== | ||
| + | |||
| + | 初期設定では,抽出する品詞が普通名詞,固有名詞,形容詞,副詞,動詞に限られており,それ以外の品詞,例えば助詞や語尾などは「その他」に一括して扱われています.これらを別個に抽出したい場合は,品詞を追加して前処理を行います. | ||
| + | |||
| + | 品詞を追加するには,'' | ||
| + | |||
| + | < | ||
| + | 40, | ||
| + | 41, | ||
| + | </ | ||
| + | |||
| + | コンマで区切って記述をしますが,最初の数字は品詞IDで,他と重複しない値を設定します.2列目は品詞名,3列目(条件1)は抽出する条件をHanDicの品詞で記述します.条件2は設定していませんので,コンマで終わります. | ||
| + | |||
| + | ===== Macで使う場合 ===== | ||
| + | |||
| + | ==== 共起ネットワークに必要なパッケージ ==== | ||
| + | |||
| + | Rの方で'' | ||
| + | |||
| + | <code r> | ||
| + | install.packages(" | ||
| + | </ | ||
| + | |||
| + | でインストールします.[[http:// | ||
| + | |||
| + | === 新しいバージョンでエラーが出る場合 === | ||
| + | |||
| + | igraph 1.1.2,ggplot 2.2.1で共起ネットワークを作成する際, | ||
| + | |||
| + | < | ||
| + | Error: StatEdges was built with an incompatible version of ggproto. Please reinstall the package that provides this extension. | ||
| + | </ | ||
| + | |||
| + | というエラーが出る場合には,'' | ||
| + | |||
| + | <code r> | ||
| + | install.packages(" | ||
| + | </ | ||
| + | |||
| + | ==== 対応分析に必要なパッケージ ==== | ||
| + | |||
| + | Rで,'' | ||
| + | |||
| + | ==== 階層的クラスター分析に必要なパッケージ ==== | ||
| + | |||
| + | Rで,'' | ||
| + | |||
| + | ==== ヒートマップ作成に必要なパッケージ ==== | ||
| + | |||
| + | Rで'' | ||
| + | |||
| + | <code r> | ||
| + | install.packages(" | ||
| + | </ | ||
| + | |||
| + | Rから直接最新版をインストールすると,描画に失敗します. | ||
| + | |||
| + | ====== 参考文献・リンク ====== | ||
| - | 対応分析により,各大統領の特徴的な語を視覚的に表示してみます. | + | * [[http:// |
| + | * 樋口耕一(2014)『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して―』,ナカニシヤ出版 | ||
| | | ||
korean/mecab/khcoder.1445091982.txt.gz · 最終更新: 2015/10/17 23:26 by yoshi