korean:mecab:howto
文書の過去の版を表示しています。
HanDicの使い方
コンパイル済み辞書の場合,ダウンロードしたファイルを任意の場所に解凍して,以下の方法で辞書を指定します(辞書をC:\Users\username\dicdir\handic
に解凍した場合).
辞書を実行時に指定する
MeCabの -d
オプションでHanDic辞書ファイルのあるディレクトリを指定します.
mecab -d C:\Users\username\dicdir\handic
この方法では,実行するたびに辞書を指定する必要があります.
辞書を設定ファイルで指定する
ホームディレクトリに .mecabrc
を作成して,dicdir
にHanDic辞書ファイルのあるディレクトリを記述します.
.mecabrc
に以下の1行を記述:
dicdir = C:\Users\username\dicdir\handic
この方法では常にHanDicを使って解析することになります.
入力を与える
HanDicは,UTF-8エンコーディングされたテキストを入力として形態素解析を行います.また,入力は通常のハングル(Hangul Syllables「ハングル音節文字」領域の文字,いわゆる「完成型ハングル」)ではなく,初声・中声・終声の字母に分解した入力(Hangul Jamo「ハングル字母」領域の文字)である必要があります.例えば完成型ハングルの「몸」(U+BAB8)は,字母に分解すると「ㅁ」(U+1106)「ㅗ」(U+1169)「ㅁ」(U+11B7)となります.
こうした字母への分解は,任意のスクリプトを使って行っても構いません.なお,本プロジェクトではPerlを用いたスクリプトk2jamo.pl
を作成し,配布しています(ダウンロードサイト).
コマンドラインやターミナルで,k2jamo.pl
を使ってinput.txt
(例)を解析する場合:
> perl k2jamo.pl input.txt | mecab -d C:\Users\username\dicdir\handic
あるいはコマンドラインやターミナルで直接入力をする場合:
> echo "겨울 방학 때 뭐 했어요?" | perl k2jamo.pl | mecab -d C:\Users\username\dicdir\handic
のように行うことができます.
korean/mecab/howto.1452606441.txt.gz · 最終更新: 2016/01/12 22:47 by yoshi