====== HanDic Taggerについて ======
[[https://porocise.sakura.ne.jp/korean/mecab/uploader.html|HanDic Tagger]]は,アップロードしたテキストファイルをMeCabとHanDicで形態素解析し,その結果をダウンロードして保存できるツールです.
===== 使い方 =====
UTF-8(BOMなし)でエンコーディングされた韓国語のテキストファイルを選択し,出力形式を選んで「Submit」ボタンを押します.保存ダイアログが現れるので,必要であればファイル名を変更して保存します.
===== 出力形式について =====
HanDic Taggerでは,現在4つの出力形式を選択することができます.
- 「MeCabデフォルト」:通常のMeCabの出力と同じ形式です.
- 「21世紀世宗計画タグ」:지능형 형태소 분석기(知能型形態素解析器)の出力形式とほぼ同じ形式で,21世紀世宗計画のタグを出力します.
- 「ChaSen」:形態素解析器ChaSen(茶筌)とほぼ同じ形式ですが,出力される素性が一部異なります.KH Coderの出力と同じです.
- 「カスタム定義」:MeCabホームページの[[https://taku910.github.io/mecab/format.html|出力フォーマット]]で用いられるフォーマットを直接入力することができます.
===== 出力形式の詳細 =====
以下,「23~29일 사이에 쏠 것처럼 국제사회를 속여 놓고 원래 일정대로 발사한 것이다.」という入力が,それぞれの形式でどのように出力されるか,例を挙げておきます.
==== MeCabデフォルト ====
=== フォーマット ===
* 形態素:''%%%m\t%H\n%%''
* 未知語:''%%%m\t%H\n%%''
* EOS(文末):''%%EOS\n%%''
=== 出力の例 ===
23 Symbol,数字,*,*,*,*,*,*,*,*,SN
~ Symbol,一般,省略,*,*,~,~,*,물결:4시~5시,*,SO
29 Symbol,数字,*,*,*,*,*,*,*,*,SN
일 Noun,依存名詞,助数詞,*,*,일07,일,日,하루,A,NNB
사이 Noun,普通,*,*,*,사이01,사이,*,*,A,NNG
에 Ending,助詞,処格,*,*,에,에,*,*,*,JKB
쏘 Verb,自立,*,語基2,*,쏘다01,쏘,*,*,B,VV
ᆯ Ending,語尾,連体形,*,2接続,ㄹ,ㄹ,*,*,*,ETM
것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB
처럼 Ending,助詞,比況,*,*,처럼,처럼,*,*,*,JKB
국제 Noun,普通,*,*,*,국제02,국제,國際,*,B,NNG
사회 Noun,普通,*,*,*,사회07,사회,社會,*,B,NNG
를 Ending,助詞,対格,*,*,를,를,*,*,*,JKO
속여 Verb,自立,*,語基3,*,속이다,속여,*,*,C,VV
놓 Verb,非自立,*,語基1,3接続,놓다01,놓,*,*,A,VX
고 Ending,語尾,接続形,*,1接続,고,고,*,*,*,EC
원래 Noun,普通,*,*,*,원래01,원래,元來,*,B,NNG
일정 Noun,普通,*,*,*,일정03,일정,日程,*,B,NNG
대로 Ending,助詞,補助詞,*,*,대로,대로,*,*,*,JX
발사 Noun,普通,動作,*,*,발사01,발사,發射,*,*,NNG
하 Suffix,動詞派生,*,語基1,*,하다02,하,*,*,*,XSV
ᆫ Ending,語尾,連体形,*,2接続,ㄴ,ㄴ,*,*,*,ETM
것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB
이 Siteisi,非自立,*,語基1,*,이다,이,*,*,*,VCP
다 Ending,語尾,終止形,*,1接続,다,다,*,*,*,EF
. Symbol,ピリオド,*,*,*,.,.,*,*,*,SF
EOS
==== 21世紀世宗計画タグ ====
=== フォーマット ===
* 形態素:''%%%pS\t%f[6]/%f[10]%%''
* 未知語:''%%%pS\t%m/%f[10]%%''
* EOS(文末):''%%EOS\n%%''
> CGI側で出力を加工するために,形態素・未知語ともに''%%%pS%%''(形態素が空白で始まる場合の空白を指す),''%%\t%%''(タブ)を入れてあります.また,この形式ではスラッシュの前に出現形を示すようにしています.
=== 出力の例 ===
23~29일 23/SN+~/SO+29/SN+일/NNB
사이에 사이/NNG+에/JKB
쏠 쏘/VV+ㄹ/ETM
것처럼 것/NNB+처럼/JKB
국제사회를 국제/NNG+사회/NNG+를/JKO
속여 속여/VV
놓고 놓/VX+고/EC
원래 원래/NNG
일정대로 일정/NNG+대로/JX
발사한 발사/NNG+하/XSV+ㄴ/ETM
것이다. 것/NNB+이/VCP+다/EF+./SF
EOS
==== ChaSen ====
=== フォーマット ===
* 形態素:''%%%f[6]\t%M\t%f[5]\t%F-[0,1,2]\t%f[3]\t%f[4]\n%%''
* 未知語:''%%%f[6]\t%M\t%f[6]\t%F-[0,1,2]\t\t\n%%''
* EOS(文末):''%%EOS\n%%''
=== 出力の例 ===
23 Symbol-数字
~ ~ ~ Symbol-一般-省略
29 Symbol-数字
일 일 일07 Noun-依存名詞-助数詞
사이 사이 사이01 Noun-普通
에 에 에 Ending-助詞-処格
쏘 쏘 쏘다01 Verb-自立 語基2
ㄹ ᆯ ㄹ Ending-語尾-連体形 2接続
것 것 것01 Noun-依存名詞
처럼 처럼 처럼 Ending-助詞-比況
국제 국제 국제02 Noun-普通
사회 사회 사회07 Noun-普通
를 를 를 Ending-助詞-対格
속여 속여 속이다 Verb-自立 語基3
놓 놓 놓다01 Verb-非自立 語基1 3接続
고 고 고 Ending-語尾-接続形 1接続
원래 원래 원래01 Noun-普通
일정 일정 일정03 Noun-普通
대로 대로 대로 Ending-助詞-補助詞
발사 발사 발사01 Noun-普通-動作
하 하 하다02 Suffix-動詞派生 語基1
ㄴ ᆫ ㄴ Ending-語尾-連体形 2接続
것 것 것01 Noun-依存名詞
이 이 이다 Siteisi-非自立 語基1
다 다 다 Ending-語尾-終止形 1接続
. . . Symbol-ピリオド
EOS
===== 素性を示す番号 =====
[[.:summary#各項目の素性|HanDicの概要:各項目の素性]]に,素性の一覧を示しましたが,上記の出力フォーマット(特に「カスタム定義」)で素性を指定する際,''%%%f[?]%%''や''%%%F-[?]%%''などの項目で,素性を示す番号が必要になります.それぞれの番号は以下のとおりです:
* 0: 品詞1
* 1: 品詞2
* 2: 品詞3
* 3: 接続情報
* 4: 語基
* 5: 辞書形
* 6: 出現形
* 7: 漢字
* 8: 備考
* 9: 学習用レベル
* 10: 品詞タグ
「カスタム定義」で出力したい素性を指定する場合,例えば「漢字」だけを表すには''%%%f[7]%%''と記述することになります.ChaSen形式の出力のように,「品詞1」から「品詞3」までをハイフンでつなぎたい場合には,''%%%F-[0,1,2]%%''と記述します.この場合,ある素性が空白の場合には,その素性は出力されません.
{{indexmenu_n>220}}