文書の過去の版を表示しています。

HanDicをKH Coderで利用する

はじめに

立命館大学の樋口耕一先生が開発・公開しておられる，計量テキスト分析のためのフリーソフト「KH Coder」のVer.3にて，HanDicを用いた韓国語の分析が可能になるとのことです．既にアルファ版が公開されているので，実際に韓国語の分析を試してみました．以下の内容は，チュートリアルに従って，韓国語のデータを分析したものです．

準備するもの

特にありません．アルファ版のダウンロードページへ行き，最新のアルファ版をダウンロードしてください．このページの執筆時点（2015年10月16日）で3.0a-03bが公開されています．

なお，Windowsでの使用をおすすめします．MacOSでも使用可能とのことで試してみましたが，設定が大変です．仮想マシンにWindowsをインストールし，そこでKH Coderを利用するのが簡単です．

韓国語を分析するためのHanDicはパッケージに同梱されているため，別途用意する必要はありません．辞書自体はKH Coderのインストールフォルダ内にあるdep/handicフォルダに置かれています．この辞書を差し替えるだけで，新しいバージョンのHanDicを利用することができます．

handicフォルダ内のdicrcに，KH Coderで利用するための設定が追記されているとのことです．

データの準備と読み込み

分析対象のデータを用意し，KH Coderを起動して読み込みます．ここでは韓国の歴代大統領のうち，第16代・盧武鉉，第17代・李明博，第18代・朴槿恵各氏の就任スピーチを使用します．データはHanDicをRとRMeCabで利用すると同じく대통령기록연구실，경향신문の記事から取得し，1行1文に修正したものです．分かち書きの不統一などは手を入れていませんので，厳密には結果に何か影響があるかもしれませんが，とりあえず試みということでご了承ください．

それぞれのテキストを一つのファイルに連結し，各氏のスピーチの前に<h1>16_노무현</h1>，<h1>17_이명박</h1>，<h1>18_박근혜</h1>のような見出しを入れておきます．

<h1>16_노무현</h1>
 
盧武鉉氏演説内容
…
 
<h1>17_이명박</h1>
 
李明博氏演説内容
…
 
<h1>18_박근혜</h1>
 
朴槿恵氏演説内容
…

上記のテキストをUTF-8エンコーディングで保存しておきます．

KH Coderを起動して，「プロジェクト」メニューから「新規」を選択し，「新規プロジェクト」ダイアログで上記ファイルを選択します．また，「言語」に「韓国語」を指定します．「メモ」欄は分析対象の内容などについて記入しておきます．

テキストが読み込まれたら，「前処理」メニューから「前処理の実行」を選択します．

前処理が終了したら，様々な分析を行ってみましょう．

頻出する語の抽出

「ツール」メニューから「抽出語」⇒「抽出語リスト」を実行します．するとオプションを選ぶダイアログが表示されます．ここでは「頻出150語」を選択し，Excelで表示することにしましょう．

上記ダイアログで「OK」を押すと，結果がExcelで表示されます．국민「国民」という語の頻度が最も高くなっています．

全て基本形にまとめて集計・表示されます．

共起ネットワークの作成

語と語の結びつきを図示する共起ネットワーク図を作成します．「ツール」メニューから，「抽出語」⇒「共起ネットワーク」を選択します．

語と語の結びつき

以下のようなオプションを設定し，「OK」を押します．

結果は以下のようになります．

結果表示のウィンドウで「カラー」を「サブグラフ検出（modularity）」とすると，以下のようになったりします．

語と見出しの結びつき

次は，<h1>～</h1>で囲った見出しを元に，共起関係の種類を変更してみます．共起ネットワーク作成のオプションを，以下のように設定します．特に右側，「共起ネットワークの設定」中，「共起関係（edge）の種類」を「語－外部変数・見出し」とし，「外部変数・見出し」を「見出し1」としている点に注意してください．