korean:mecab:howto
差分
このページの2つのバージョン間の差分を表示します。
次のリビジョン | 前のリビジョン最新のリビジョン両方とも次のリビジョン | ||
korean:mecab:howto [2015/10/12 17:17] – 外部編集 127.0.0.1 | korean:mecab:howto [2016/05/15 21:55] – [21世紀世宗計画のコーパス形式をシミュレート] yoshi | ||
---|---|---|---|
行 29: | 行 29: | ||
HanDicは,UTF-8エンコーディングされたテキストを入力として形態素解析を行います.また,入力は通常のハングル(Hangul Syllables「ハングル音節文字」領域の文字,いわゆる「完成型ハングル」)ではなく,初声・中声・終声の字母に分解した入力(Hangul Jamo「ハングル字母」領域の文字)である必要があります.例えば完成型ハングルの「몸」(U+BAB8)は,字母に分解すると「ㅁ」(U+1106)「ㅗ」(U+1169)「ㅁ」(U+11B7)となります. | HanDicは,UTF-8エンコーディングされたテキストを入力として形態素解析を行います.また,入力は通常のハングル(Hangul Syllables「ハングル音節文字」領域の文字,いわゆる「完成型ハングル」)ではなく,初声・中声・終声の字母に分解した入力(Hangul Jamo「ハングル字母」領域の文字)である必要があります.例えば完成型ハングルの「몸」(U+BAB8)は,字母に分解すると「ㅁ」(U+1106)「ㅗ」(U+1169)「ㅁ」(U+11B7)となります. | ||
- | こうした字母への分解は,任意のスクリプトを使って行っても構いません.なの,本プロジェクトではPerlを用いたスクリプト'' | + | こうした字母への分解は,任意のスクリプトを使って行っても構いません.なお,本プロジェクトではPerlを用いたスクリプト'' |
- | '' | + | コマンドラインやターミナルで,'' |
<code bash> | <code bash> | ||
- | perl k2jamo.pl input.txt | mecab -d C: | + | > perl k2jamo.pl input.txt |
+ | </ | ||
+ | |||
+ | あるいはコマンドラインやターミナルで直接入力をする場合: | ||
+ | |||
+ | <code bash> | ||
+ | > echo " | ||
</ | </ | ||
のように行うことができます. | のように行うことができます. | ||
+ | ====== 便利な使い方 ====== | ||
+ | |||
+ | MeCabによる[[http:// | ||
+ | |||
+ | ===== 基本形を基にした頻度の表示 ===== | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | <code bash> | ||
+ | perl k2jamo.pl input.txt | \ | ||
+ | mecab -d dic/ --node-format=" | ||
+ | sort | \ | ||
+ | uniq -c | \ | ||
+ | sort -nr | ||
+ | </ | ||
+ | |||
+ | 結果(延世大学校の韓国語読解テキストを分析した結果のうち,'' | ||
+ | |||
+ | <code text> | ||
+ | 4266 . | ||
+ | 2377 다 Ending-語尾-終止形 | ||
+ | 2374 을 Ending-助詞-対格 | ||
+ | 2306 ㄴ Ending-語尾-連体形 | ||
+ | 2267 ㅆ Prefinal-過去 | ||
+ | 2039 에 Ending-助詞-処格 | ||
+ | 1729 는 Ending-語尾-連体形 | ||
+ | 1662 이 Ending-助詞-主格 | ||
+ | 1543 는 Ending-助詞-題目 | ||
+ | 1522 하다02 | ||
+ | </ | ||
+ | |||
+ | ===== 21世紀世宗計画のコーパス形式をシミュレート ===== | ||
+ | |||
+ | 21世紀世宗計画の形態素解析済みコーパス(형태 분석 말뭉치)のような出力を得ることができます.形態素ごとに「+」を出力し,文節末の「+」を後からPerlで消す,というようにしています.もっとスマートな方法があるかと思います. | ||
+ | |||
+ | <code bash> | ||
+ | echo " | ||
+ | perl k2jamo.pl | \ | ||
+ | mecab -d dic/ -F" | ||
+ | perl -pe ' | ||
+ | </ | ||
+ | |||
+ | 結果: | ||
+ | <code text> | ||
+ | 좋으/ | ||
+ | 결과/ | ||
+ | 나와/ | ||
+ | 좋/ | ||
+ | </ | ||
+ | |||
+ | 21世紀世宗計画の지능형 형태소 분석기(知能型形態素解析器)による解析結果: | ||
+ | {{: | ||
+ | |||
+ | > 基本形で表示する場合には,上記のコマンドの中で,'' | ||
| |
korean/mecab/howto.txt · 最終更新: 2016/05/15 21:57 by yoshi