korean:mecab:howto
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| korean:mecab:howto [2016/01/12 22:44] – [入力を与える] yoshi | korean:mecab:howto [2016/05/15 21:57] (現在) – [21世紀世宗計画のコーパス形式をシミュレート] yoshi | ||
|---|---|---|---|
| 行 29: | 行 29: | ||
| HanDicは,UTF-8エンコーディングされたテキストを入力として形態素解析を行います.また,入力は通常のハングル(Hangul Syllables「ハングル音節文字」領域の文字,いわゆる「完成型ハングル」)ではなく,初声・中声・終声の字母に分解した入力(Hangul Jamo「ハングル字母」領域の文字)である必要があります.例えば完成型ハングルの「몸」(U+BAB8)は,字母に分解すると「ㅁ」(U+1106)「ㅗ」(U+1169)「ㅁ」(U+11B7)となります. | HanDicは,UTF-8エンコーディングされたテキストを入力として形態素解析を行います.また,入力は通常のハングル(Hangul Syllables「ハングル音節文字」領域の文字,いわゆる「完成型ハングル」)ではなく,初声・中声・終声の字母に分解した入力(Hangul Jamo「ハングル字母」領域の文字)である必要があります.例えば完成型ハングルの「몸」(U+BAB8)は,字母に分解すると「ㅁ」(U+1106)「ㅗ」(U+1169)「ㅁ」(U+11B7)となります. | ||
| - | こうした字母への分解は,任意のスクリプトを使って行っても構いません.なの,本プロジェクトではPerlを用いたスクリプト'' | + | こうした字母への分解は,任意のスクリプトを使って行っても構いません.なお,本プロジェクトではPerlを用いたスクリプト'' |
| - | '' | + | コマンドラインやターミナルで,'' |
| <code bash> | <code bash> | ||
| - | perl k2jamo.pl input.txt | mecab -d C: | + | > perl k2jamo.pl input.txt | mecab -d C: |
| </ | </ | ||
| - | あるいは直接入力をする場合: | + | あるいはコマンドラインやターミナルで直接入力をする場合: |
| <code bash> | <code bash> | ||
| - | echo " | + | > echo " |
| </ | </ | ||
| のように行うことができます. | のように行うことができます. | ||
| + | |||
| + | ====== 便利な使い方 ====== | ||
| + | |||
| + | MeCabによる[[http:// | ||
| + | |||
| + | ===== 基本形を基にした頻度の表示 ===== | ||
| + | |||
| + | [[https:// | ||
| + | |||
| + | <code bash> | ||
| + | perl k2jamo.pl input.txt | \ | ||
| + | mecab -d dic/ --node-format=" | ||
| + | sort | \ | ||
| + | uniq -c | \ | ||
| + | sort -nr | ||
| + | </ | ||
| + | |||
| + | 結果(延世大学校の韓国語読解テキストを分析した結果のうち,'' | ||
| + | |||
| + | <code text> | ||
| + | 4266 . | ||
| + | 2377 다 Ending-語尾-終止形 | ||
| + | 2374 을 Ending-助詞-対格 | ||
| + | 2306 ㄴ Ending-語尾-連体形 | ||
| + | 2267 ㅆ Prefinal-過去 | ||
| + | 2039 에 Ending-助詞-処格 | ||
| + | 1729 는 Ending-語尾-連体形 | ||
| + | 1662 이 Ending-助詞-主格 | ||
| + | 1543 는 Ending-助詞-題目 | ||
| + | 1522 하다02 | ||
| + | </ | ||
| + | |||
| + | ===== 21世紀世宗計画のコーパス形式をシミュレート ===== | ||
| + | |||
| + | 21世紀世宗計画の形態素解析済みコーパス(형태 분석 말뭉치)のような出力を得ることができます.形態素ごとに「+」を出力し,文節末の「+」を後からPerlで消す,というようにしています.もっとスマートな方法があるかと思います. | ||
| + | |||
| + | <code bash> | ||
| + | echo " | ||
| + | perl k2jamo.pl | \ | ||
| + | mecab -d dic/ -F" | ||
| + | perl -pe ' | ||
| + | </ | ||
| + | |||
| + | 結果: | ||
| + | <code text> | ||
| + | 좋으/ | ||
| + | 결과/ | ||
| + | 나와/ | ||
| + | 좋/ | ||
| + | </ | ||
| + | |||
| + | 21世紀世宗計画の지능형 형태소 분석기(知能型形態素解析器)による解析結果: | ||
| + | {{: | ||
| + | |||
| + | 基本形で表示する場合には,上記のコマンドの中で,'' | ||
| + | <code text> | ||
| + | 좋다01/ | ||
| + | 결과02/ | ||
| + | 나오다/ | ||
| + | 좋다01/ | ||
| + | </ | ||
| + | となります. | ||
| | | ||
korean/mecab/howto.1452606284.txt.gz · 最終更新: 2016/01/12 22:44 by yoshi