ユーザ用ツール

サイト用ツール


korean:mecab:howto

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:howto [2016/05/14 23:29] – [基本形を基にした頻度の表示] yoshikorean:mecab:howto [2016/05/15 21:57] (現在) – [21世紀世宗計画のコーパス形式をシミュレート] yoshi
行 47: 行 47:
 ====== 便利な使い方 ====== ====== 便利な使い方 ======
  
-MeCabによる出力の制御とコマンドを組み合わせて,様々な結果を得ることができます.+MeCabによる[[http://taku910.github.io/mecab/format.html|出力の制御]]とコマンドを組み合わせて,様々な結果を得ることができます.いずれもHanDicが現在のディレクトリ以下の''dic''ディレクトリにあり,''k2jamo.pl''と対象のファイル''input.txt''が現在のディレクトリにあると仮定しています.
  
 ===== 基本形を基にした頻度の表示 ===== ===== 基本形を基にした頻度の表示 =====
  
-[[https://www.oreilly.co.jp/books/9784873117416/|『コマンドラインで始めるデータサイエンス』]]で紹介されていた方法をアレンジしたものです.HanDicが現在のディレクトリ以下の''dic''ディレクトリにあり,''k2jamo.pl''と対象のファイル''input.txt''が現在のディレクトリにあるとした場合です.+[[https://www.oreilly.co.jp/books/9784873117416/|『コマンドラインで始めるデータサイエンス』]]で紹介されていた方法をアレンジしたものです.
  
 <code bash> <code bash>
-perl k2jamo.pl input.txt | mecab -d dic/ --node-format="%f[5]\t%F-[0,1,2]\n" --unk-format="%m\tUNK\n" --eos-format="" | sort | uniq -c | sort -nr+perl k2jamo.pl input.txt | 
 +mecab -d dic/ --node-format="%f[5]\t%F-[0,1,2]\n" --unk-format="%m\tUNK\n" --eos-format=""
 +sort | 
 +uniq -c | 
 +sort -nr
 </code> </code>
 +
 +結果(延世大学校の韓国語読解テキストを分析した結果のうち,''head -n 10''で最初の10行を表示):
 +
 +<code text>
 +   4266 .       Symbol-ピリオド
 +   2377 다      Ending-語尾-終止形
 +   2374 을      Ending-助詞-対格
 +   2306 ㄴ      Ending-語尾-連体形
 +   2267 ㅆ      Prefinal-過去
 +   2039 에      Ending-助詞-処格
 +   1729 는      Ending-語尾-連体形
 +   1662 이      Ending-助詞-主格
 +   1543 는      Ending-助詞-題目
 +   1522 하다02  Suffix-動詞派生
 +</code>
 +
 +===== 21世紀世宗計画のコーパス形式をシミュレート =====
 +
 +21世紀世宗計画の形態素解析済みコーパス(형태 분석 말뭉치)のような出力を得ることができます.形態素ごとに「+」を出力し,文節末の「+」を後からPerlで消す,というようにしています.もっとスマートな方法があるかと思います.
 +
 +<code bash>
 +echo "좋은 결과가 나왔으면 좋겠습니다." | \
 +perl k2jamo.pl | \
 +mecab -d dic/ -F"%pS%f[6]/%f[10]+" -U"%M/UNK" -E"\n" | \
 +perl -pe 's/\+\s/\n/g;'
 +</code>
 +
 +結果:
 +<code text>
 +좋으/VA+ㄴ/ETM
 +결과/NNG+가/JKS
 +나와/VV+ㅆ으/EP+면/EC
 +좋/VA+겠/EP+습니다/EF+./SF
 +</code>
 +
 +21世紀世宗計画の지능형 형태소 분석기(知能型形態素解析器)による解析結果:
 +{{:korean:mecab:スクリーンショット_2016-05-15_1.28.54.png|}}
 +
 +基本形で表示する場合には,上記のコマンドの中で,''%f[6]''とある部分を''%f[**5**]''に変えてください.結果は
 +<code text>
 +좋다01/VA+ㄴ/ETM
 +결과02/NNG+가/JKS
 +나오다/VV+ㅆ/EP+면/EC
 +좋다01/VA+겠/EP+습니다/EF+./SF
 +</code>
 +となります.
  
  {{indexmenu_n>29}}  {{indexmenu_n>29}}
korean/mecab/howto.1463236183.txt.gz · 最終更新: 2016/05/14 23:29 by yoshi