korean:mecab:howto
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
korean:mecab:howto [2016/05/14 23:29] – [基本形を基にした頻度の表示] yoshi | korean:mecab:howto [2016/05/15 21:57] (現在) – [21世紀世宗計画のコーパス形式をシミュレート] yoshi | ||
---|---|---|---|
行 47: | 行 47: | ||
====== 便利な使い方 ====== | ====== 便利な使い方 ====== | ||
- | MeCabによる出力の制御とコマンドを組み合わせて,様々な結果を得ることができます. | + | MeCabによる[[http:// |
===== 基本形を基にした頻度の表示 ===== | ===== 基本形を基にした頻度の表示 ===== | ||
- | [[https:// | + | [[https:// |
<code bash> | <code bash> | ||
- | perl k2jamo.pl input.txt | mecab -d dic/ --node-format=" | + | perl k2jamo.pl input.txt | \ |
+ | mecab -d dic/ --node-format=" | ||
+ | sort | \ | ||
+ | uniq -c | \ | ||
+ | sort -nr | ||
</ | </ | ||
+ | |||
+ | 結果(延世大学校の韓国語読解テキストを分析した結果のうち,'' | ||
+ | |||
+ | <code text> | ||
+ | 4266 . | ||
+ | 2377 다 Ending-語尾-終止形 | ||
+ | 2374 을 Ending-助詞-対格 | ||
+ | 2306 ㄴ Ending-語尾-連体形 | ||
+ | 2267 ㅆ Prefinal-過去 | ||
+ | 2039 에 Ending-助詞-処格 | ||
+ | 1729 는 Ending-語尾-連体形 | ||
+ | 1662 이 Ending-助詞-主格 | ||
+ | 1543 는 Ending-助詞-題目 | ||
+ | 1522 하다02 | ||
+ | </ | ||
+ | |||
+ | ===== 21世紀世宗計画のコーパス形式をシミュレート ===== | ||
+ | |||
+ | 21世紀世宗計画の形態素解析済みコーパス(형태 분석 말뭉치)のような出力を得ることができます.形態素ごとに「+」を出力し,文節末の「+」を後からPerlで消す,というようにしています.もっとスマートな方法があるかと思います. | ||
+ | |||
+ | <code bash> | ||
+ | echo " | ||
+ | perl k2jamo.pl | \ | ||
+ | mecab -d dic/ -F" | ||
+ | perl -pe ' | ||
+ | </ | ||
+ | |||
+ | 結果: | ||
+ | <code text> | ||
+ | 좋으/ | ||
+ | 결과/ | ||
+ | 나와/ | ||
+ | 좋/ | ||
+ | </ | ||
+ | |||
+ | 21世紀世宗計画の지능형 형태소 분석기(知能型形態素解析器)による解析結果: | ||
+ | {{: | ||
+ | |||
+ | 基本形で表示する場合には,上記のコマンドの中で,'' | ||
+ | <code text> | ||
+ | 좋다01/ | ||
+ | 결과02/ | ||
+ | 나오다/ | ||
+ | 좋다01/ | ||
+ | </ | ||
+ | となります. | ||
| |
korean/mecab/howto.1463236183.txt.gz · 最終更新: 2016/05/14 23:29 by yoshi