ユーザ用ツール

サイト用ツール


korean:mecab:r_howto

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
korean:mecab:r_howto [2015/10/12 17:17] – 外部編集 127.0.0.1korean:mecab:r_howto [2015/11/15 22:06] (現在) yoshi
行 5: 行 5:
 ここではHanDicをオープンソースの統計解析システム[[https://www.r-project.org/|R]]および[[http://rmecab.jp/wiki/index.php?RMeCab|RMeCabパッケージ]]で利用する方法について紹介します. ここではHanDicをオープンソースの統計解析システム[[https://www.r-project.org/|R]]および[[http://rmecab.jp/wiki/index.php?RMeCab|RMeCabパッケージ]]で利用する方法について紹介します.
  
-用いた環境はMacOSX(10.8.5),MeCab(0.996),R(3.2.2),RMeCab(RMeCab_0.99991)です.Windowsでは動作確認をしていません.Windowsの場合,R Consoleでは文字化けが起こりますが,CSVなどにエクスポートすれば内容を確認することができるようです.+用いた環境はMacOSX(10.8.5),MeCab(0.996),R(3.2.2),RMeCab(RMeCab_0.99991)です.解析用辞書にはHanDic(0.1)を用いました.Windowsでは動作確認をしていません.Windowsの場合,R Consoleでは文字化けが起こりますが,CSVなどにエクスポートすれば内容を確認することができるようです.
  
 なお,グラフ描画の際にハングルが文字化けしないよう,[[http://kldp.net/projects/unfonts/|Un Fonts]]を利用することを前提としています. なお,グラフ描画の際にハングルが文字化けしないよう,[[http://kldp.net/projects/unfonts/|Un Fonts]]を利用することを前提としています.
行 26: 行 26:
  
 上の例ではホームディレクトリの下にある''dicdir/handic''というディレクトリにある辞書を指定しています.MeCab実行時に''-d''オプションで辞書の場所を指定する,といった方法をとることができませんので,前もって場所を指定しておきます. 上の例ではホームディレクトリの下にある''dicdir/handic''というディレクトリにある辞書を指定しています.MeCab実行時に''-d''オプションで辞書の場所を指定する,といった方法をとることができませんので,前もって場所を指定しておきます.
 +
 +=== RMeCabの実行時に辞書の場所を指定する ===
 +
 +''.mecabrc''に辞書の場所を記述すると,解析の際に常にその辞書が用いられることになります.RMeCabを実行する際に直接辞書の場所を指定する場合は,''.mecabrc''以外のファイルに上記の内容を書いておき,実行時に''mecabrc''を指定します.例えば''dot.mecabrc''というファイルに辞書の場所が記述してある場合は,Rコンソールで以下を実行します.
 +
 +<code bash>
 +> library("RMeCab")
 +> res<-RMeCabFreq("target.txt", mecabrc="~/dot.mecabrc")
 +</code>
  
 ==== Rで必要なパッケージをインストールする ==== ==== Rで必要なパッケージをインストールする ====
行 224: 行 233:
 結果は以下の通り. 結果は以下の通り.
  
-{{:korean:mecab:tkplot_parkgh.png?direct&400|tkplotを用いて描画した朴槿恵大統領就任スピーチの単語ネットワーク}}+{{:korean:tkplot_parkgh.png?direct&400|tkplotを用いて描画した朴槿恵大統領就任スピーチの単語ネットワーク}}
  
 画面ではうまく表示されますが,PostScriptでエクスポートする際にハングルが文字化けします.また別の設定が必要かもしれません. 画面ではうまく表示されますが,PostScriptでエクスポートする際にハングルが文字化けします.また別の設定が必要かもしれません.
行 248: 行 257:
 結果は以下の通り. 結果は以下の通り.
  
-{{:korean:mecab:network_parkgh.png?direct&400|qgraphで描画した朴槿恵大統領就任スピーチの単語ネットワーク}}+{{:korean:network_parkgh.png?direct&400|qgraphで描画した朴槿恵大統領就任スピーチの単語ネットワーク}}
  
 「콘텐츠(コンテンツ)」がうまく分析されず,「콘」と「테」に分離されてしまっています.なお,結果はPDFに保存することができます.フォントは全て埋め込まれます. 「콘텐츠(コンテンツ)」がうまく分析されず,「콘」と「테」に分離されてしまっています.なお,結果はPDFに保存することができます.フォントは全て埋め込まれます.
行 254: 行 263:
 ちなみに李明博前大統領の例は以下の通り. ちなみに李明博前大統領の例は以下の通り.
  
-{{:korean:mecab:network_leemb.png?direct&400|qgraphで描画した李明博大統領就任スピーチの単語ネットワーク}}+{{:korean:network_leemb.png?direct&400|qgraphで描画した李明博大統領就任スピーチの単語ネットワーク}}
  
 登場する語とそのつながりにかなり違いがあることが分かります. 登場する語とそのつながりにかなり違いがあることが分かります.
korean/mecab/r_howto.1444637820.txt.gz · 最終更新: 2015/10/12 23:10 (外部編集)