====== HanDic Taggerについて ====== [[https://porocise.sakura.ne.jp/korean/mecab/uploader.html|HanDic Tagger]]は,アップロードしたテキストファイルをMeCabとHanDicで形態素解析し,その結果をダウンロードして保存できるツールです. ===== 使い方 ===== UTF-8(BOMなし)でエンコーディングされた韓国語のテキストファイルを選択し,出力形式を選んで「Submit」ボタンを押します.保存ダイアログが現れるので,必要であればファイル名を変更して保存します. ===== 出力形式について ===== HanDic Taggerでは,現在4つの出力形式を選択することができます. - 「MeCabデフォルト」:通常のMeCabの出力と同じ形式です. - 「21世紀世宗計画タグ」:지능형 형태소 분석기(知能型形態素解析器)の出力形式とほぼ同じ形式で,21世紀世宗計画のタグを出力します. - 「ChaSen」:形態素解析器ChaSen(茶筌)とほぼ同じ形式ですが,出力される素性が一部異なります.KH Coderの出力と同じです. - 「カスタム定義」:MeCabホームページの[[https://taku910.github.io/mecab/format.html|出力フォーマット]]で用いられるフォーマットを直接入力することができます. ===== 出力形式の詳細 ===== 以下,「23~29일 사이에 쏠 것처럼 국제사회를 속여 놓고 원래 일정대로 발사한 것이다.」という入力が,それぞれの形式でどのように出力されるか,例を挙げておきます. ==== MeCabデフォルト ==== === フォーマット === * 形態素:''%%%m\t%H\n%%'' * 未知語:''%%%m\t%H\n%%'' * EOS(文末):''%%EOS\n%%'' === 出力の例 === 23 Symbol,数字,*,*,*,*,*,*,*,*,SN ~ Symbol,一般,省略,*,*,~,~,*,물결:4시~5시,*,SO 29 Symbol,数字,*,*,*,*,*,*,*,*,SN 일 Noun,依存名詞,助数詞,*,*,일07,일,日,하루,A,NNB 사이 Noun,普通,*,*,*,사이01,사이,*,*,A,NNG 에 Ending,助詞,処格,*,*,에,에,*,*,*,JKB 쏘 Verb,自立,*,語基2,*,쏘다01,쏘,*,*,B,VV ᆯ Ending,語尾,連体形,*,2接続,ㄹ,ㄹ,*,*,*,ETM 것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB 처럼 Ending,助詞,比況,*,*,처럼,처럼,*,*,*,JKB 국제 Noun,普通,*,*,*,국제02,국제,國際,*,B,NNG 사회 Noun,普通,*,*,*,사회07,사회,社會,*,B,NNG 를 Ending,助詞,対格,*,*,를,를,*,*,*,JKO 속여 Verb,自立,*,語基3,*,속이다,속여,*,*,C,VV 놓 Verb,非自立,*,語基1,3接続,놓다01,놓,*,*,A,VX 고 Ending,語尾,接続形,*,1接続,고,고,*,*,*,EC 원래 Noun,普通,*,*,*,원래01,원래,元來,*,B,NNG 일정 Noun,普通,*,*,*,일정03,일정,日程,*,B,NNG 대로 Ending,助詞,補助詞,*,*,대로,대로,*,*,*,JX 발사 Noun,普通,動作,*,*,발사01,발사,發射,*,*,NNG 하 Suffix,動詞派生,*,語基1,*,하다02,하,*,*,*,XSV ᆫ Ending,語尾,連体形,*,2接続,ㄴ,ㄴ,*,*,*,ETM 것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB 이 Siteisi,非自立,*,語基1,*,이다,이,*,*,*,VCP 다 Ending,語尾,終止形,*,1接続,다,다,*,*,*,EF . Symbol,ピリオド,*,*,*,.,.,*,*,*,SF EOS ==== 21世紀世宗計画タグ ==== === フォーマット === * 形態素:''%%%pS\t%f[6]/%f[10]%%'' * 未知語:''%%%pS\t%m/%f[10]%%'' * EOS(文末):''%%EOS\n%%'' > CGI側で出力を加工するために,形態素・未知語ともに''%%%pS%%''(形態素が空白で始まる場合の空白を指す),''%%\t%%''(タブ)を入れてあります.また,この形式ではスラッシュの前に出現形を示すようにしています. === 出力の例 === 23~29일 23/SN+~/SO+29/SN+일/NNB 사이에 사이/NNG+에/JKB 쏠 쏘/VV+ㄹ/ETM 것처럼 것/NNB+처럼/JKB 국제사회를 국제/NNG+사회/NNG+를/JKO 속여 속여/VV 놓고 놓/VX+고/EC 원래 원래/NNG 일정대로 일정/NNG+대로/JX 발사한 발사/NNG+하/XSV+ㄴ/ETM 것이다. 것/NNB+이/VCP+다/EF+./SF EOS ==== ChaSen ==== === フォーマット === * 形態素:''%%%f[6]\t%M\t%f[5]\t%F-[0,1,2]\t%f[3]\t%f[4]\n%%'' * 未知語:''%%%f[6]\t%M\t%f[6]\t%F-[0,1,2]\t\t\n%%'' * EOS(文末):''%%EOS\n%%'' === 出力の例 === 23 Symbol-数字 ~ ~ ~ Symbol-一般-省略 29 Symbol-数字 일 일 일07 Noun-依存名詞-助数詞 사이 사이 사이01 Noun-普通 에 에 에 Ending-助詞-処格 쏘 쏘 쏘다01 Verb-自立 語基2 ㄹ ᆯ ㄹ Ending-語尾-連体形 2接続 것 것 것01 Noun-依存名詞 처럼 처럼 처럼 Ending-助詞-比況 국제 국제 국제02 Noun-普通 사회 사회 사회07 Noun-普通 를 를 를 Ending-助詞-対格 속여 속여 속이다 Verb-自立 語基3 놓 놓 놓다01 Verb-非自立 語基1 3接続 고 고 고 Ending-語尾-接続形 1接続 원래 원래 원래01 Noun-普通 일정 일정 일정03 Noun-普通 대로 대로 대로 Ending-助詞-補助詞 발사 발사 발사01 Noun-普通-動作 하 하 하다02 Suffix-動詞派生 語基1 ㄴ ᆫ ㄴ Ending-語尾-連体形 2接続 것 것 것01 Noun-依存名詞 이 이 이다 Siteisi-非自立 語基1 다 다 다 Ending-語尾-終止形 1接続 . . . Symbol-ピリオド EOS ===== 素性を示す番号 ===== [[.:summary#各項目の素性|HanDicの概要:各項目の素性]]に,素性の一覧を示しましたが,上記の出力フォーマット(特に「カスタム定義」)で素性を指定する際,''%%%f[?]%%''や''%%%F-[?]%%''などの項目で,素性を示す番号が必要になります.それぞれの番号は以下のとおりです: * 0: 品詞1 * 1: 品詞2 * 2: 品詞3 * 3: 接続情報 * 4: 語基 * 5: 辞書形 * 6: 出現形 * 7: 漢字 * 8: 備考 * 9: 学習用レベル * 10: 品詞タグ 「カスタム定義」で出力したい素性を指定する場合,例えば「漢字」だけを表すには''%%%f[7]%%''と記述することになります.ChaSen形式の出力のように,「品詞1」から「品詞3」までをハイフンでつなぎたい場合には,''%%%F-[0,1,2]%%''と記述します.この場合,ある素性が空白の場合には,その素性は出力されません. {{indexmenu_n>220}}