korean:mecab:howto
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| korean:mecab:howto [2016/05/14 23:27] – yoshi | korean:mecab:howto [2016/05/15 21:57] (現在) – [21世紀世宗計画のコーパス形式をシミュレート] yoshi | ||
|---|---|---|---|
| 行 47: | 行 47: | ||
| ====== 便利な使い方 ====== | ====== 便利な使い方 ====== | ||
| - | MeCabによる出力の制御とコマンドを組み合わせて,様々な結果を得ることができます. | + | MeCabによる[[http:// |
| ===== 基本形を基にした頻度の表示 ===== | ===== 基本形を基にした頻度の表示 ===== | ||
| - | [[https:// | + | [[https:// |
| <code bash> | <code bash> | ||
| - | cat " | + | perl k2jamo.pl |
| + | mecab -d dic/ --node-format=" | ||
| + | sort | \ | ||
| + | uniq -c | \ | ||
| + | sort -nr | ||
| </ | </ | ||
| + | |||
| + | 結果(延世大学校の韓国語読解テキストを分析した結果のうち,'' | ||
| + | |||
| + | <code text> | ||
| + | 4266 . | ||
| + | 2377 다 Ending-語尾-終止形 | ||
| + | 2374 을 Ending-助詞-対格 | ||
| + | 2306 ㄴ Ending-語尾-連体形 | ||
| + | 2267 ㅆ Prefinal-過去 | ||
| + | 2039 에 Ending-助詞-処格 | ||
| + | 1729 는 Ending-語尾-連体形 | ||
| + | 1662 이 Ending-助詞-主格 | ||
| + | 1543 는 Ending-助詞-題目 | ||
| + | 1522 하다02 | ||
| + | </ | ||
| + | |||
| + | ===== 21世紀世宗計画のコーパス形式をシミュレート ===== | ||
| + | |||
| + | 21世紀世宗計画の形態素解析済みコーパス(형태 분석 말뭉치)のような出力を得ることができます.形態素ごとに「+」を出力し,文節末の「+」を後からPerlで消す,というようにしています.もっとスマートな方法があるかと思います. | ||
| + | |||
| + | <code bash> | ||
| + | echo " | ||
| + | perl k2jamo.pl | \ | ||
| + | mecab -d dic/ -F" | ||
| + | perl -pe ' | ||
| + | </ | ||
| + | |||
| + | 結果: | ||
| + | <code text> | ||
| + | 좋으/ | ||
| + | 결과/ | ||
| + | 나와/ | ||
| + | 좋/ | ||
| + | </ | ||
| + | |||
| + | 21世紀世宗計画の지능형 형태소 분석기(知能型形態素解析器)による解析結果: | ||
| + | {{: | ||
| + | |||
| + | 基本形で表示する場合には,上記のコマンドの中で,'' | ||
| + | <code text> | ||
| + | 좋다01/ | ||
| + | 결과02/ | ||
| + | 나오다/ | ||
| + | 좋다01/ | ||
| + | </ | ||
| + | となります. | ||
| | | ||
korean/mecab/howto.1463236062.txt.gz · 最終更新: 2016/05/14 23:27 by yoshi