ユーザ用ツール

サイト用ツール


korean:mecab:handic_tagger

HanDic Taggerについて

HanDic Taggerは,アップロードしたテキストファイルをMeCabとHanDicで形態素解析し,その結果をダウンロードして保存できるツールです.

使い方

UTF-8(BOMなし)でエンコーディングされた韓国語のテキストファイルを選択し,出力形式を選んで「Submit」ボタンを押します.保存ダイアログが現れるので,必要であればファイル名を変更して保存します.

出力形式について

HanDic Taggerでは,現在4つの出力形式を選択することができます.

  1. 「MeCabデフォルト」:通常のMeCabの出力と同じ形式です.
  2. 「21世紀世宗計画タグ」:지능형 형태소 분석기(知能型形態素解析器)の出力形式とほぼ同じ形式で,21世紀世宗計画のタグを出力します.
  3. 「ChaSen」:形態素解析器ChaSen(茶筌)とほぼ同じ形式ですが,出力される素性が一部異なります.KH Coderの出力と同じです.
  4. 「カスタム定義」:MeCabホームページの出力フォーマットで用いられるフォーマットを直接入力することができます.

出力形式の詳細

以下,「23~29일 사이에 쏠 것처럼 국제사회를 속여 놓고 원래 일정대로 발사한 것이다.」という入力が,それぞれの形式でどのように出力されるか,例を挙げておきます.

MeCabデフォルト

フォーマット

  • 形態素:%m\t%H\n
  • 未知語:%m\t%H\n
  • EOS(文末):EOS\n

出力の例

23  Symbol,数字,*,*,*,*,*,*,*,*,SN
~   Symbol,一般,省略,*,*,~,~,*,물결:4시~5시,*,SO
29  Symbol,数字,*,*,*,*,*,*,*,*,SN
일 Noun,依存名詞,助数詞,*,*,일07,일,日,하루,A,NNB
사이    Noun,普通,*,*,*,사이01,사이,*,*,A,NNG
에  Ending,助詞,処格,*,*,에,에,*,*,*,JKB
쏘  Verb,自立,*,語基2,*,쏘다01,쏘,*,*,B,VV
ᆯ   Ending,語尾,連体形,*,2接続,ㄹ,ㄹ,*,*,*,ETM
것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB
처럼   Ending,助詞,比況,*,*,처럼,처럼,*,*,*,JKB
국제   Noun,普通,*,*,*,국제02,국제,國際,*,B,NNG
사회    Noun,普通,*,*,*,사회07,사회,社會,*,B,NNG
를 Ending,助詞,対格,*,*,를,를,*,*,*,JKO
속여   Verb,自立,*,語基3,*,속이다,속여,*,*,C,VV
놓 Verb,非自立,*,語基1,3接続,놓다01,놓,*,*,A,VX
고  Ending,語尾,接続形,*,1接続,고,고,*,*,*,EC
원래   Noun,普通,*,*,*,원래01,원래,元來,*,B,NNG
일정  Noun,普通,*,*,*,일정03,일정,日程,*,B,NNG
대로    Ending,助詞,補助詞,*,*,대로,대로,*,*,*,JX
발사   Noun,普通,動作,*,*,발사01,발사,發射,*,*,NNG
하  Suffix,動詞派生,*,語基1,*,하다02,하,*,*,*,XSV
ᆫ   Ending,語尾,連体形,*,2接続,ㄴ,ㄴ,*,*,*,ETM
것 Noun,依存名詞,*,*,*,것01,것,*,*,A,NNB
이  Siteisi,非自立,*,語基1,*,이다,이,*,*,*,VCP
다  Ending,語尾,終止形,*,1接続,다,다,*,*,*,EF
.   Symbol,ピリオド,*,*,*,.,.,*,*,*,SF
EOS

21世紀世宗計画タグ

フォーマット

  • 形態素:%pS\t%f[6]/%f[10]
  • 未知語:%pS\t%m/%f[10]
  • EOS(文末):EOS\n
CGI側で出力を加工するために,形態素・未知語ともに%pS(形態素が空白で始まる場合の空白を指す),\t(タブ)を入れてあります.また,この形式ではスラッシュの前に出現形を示すようにしています.

出力の例

23~29일    23/SN+~/SO+29/SN+일/NNB
사이에  사이/NNG+에/JKB
쏠 쏘/VV+ㄹ/ETM
것처럼    것/NNB+처럼/JKB
국제사회를    국제/NNG+사회/NNG+를/JKO
속여   속여/VV
놓고   놓/VX+고/EC
원래   원래/NNG
일정대로  일정/NNG+대로/JX
발사한    발사/NNG+하/XSV+ㄴ/ETM
것이다.    것/NNB+이/VCP+다/EF+./SF
EOS

ChaSen

フォーマット

  • 形態素:%f[6]\t%M\t%f[5]\t%F-[0,1,2]\t%f[3]\t%f[4]\n
  • 未知語:%f[6]\t%M\t%f[6]\t%F-[0,1,2]\t\t\n
  • EOS(文末):EOS\n

出力の例

23      Symbol-数字
~   ~   ~   Symbol-一般-省略
29      Symbol-数字
일   일 일07 Noun-依存名詞-助数詞
사이   사이   사이01    Noun-普通
에   에  에   Ending-助詞-処格
쏘    쏘 쏘다01    Verb-自立 語基2
ㄹ   ᆯ   ㄹ   Ending-語尾-連体形       2接続
것    것    것01 Noun-依存名詞
처럼  처럼   처럼  Ending-助詞-比況
국제   국제  국제02    Noun-普通
사회  사회    사회07    Noun-普通
를   를 를   Ending-助詞-対格
속여   속여  속이다 Verb-自立 語基3
놓    놓    놓다01    Verb-非自立    語基1 3接続
고   고  고   Ending-語尾-接続形       1接続
원래   원래  원래01    Noun-普通
일정   일정 일정03    Noun-普通
대로  대로    대로  Ending-助詞-補助詞
발사   발사  발사01    Noun-普通-動作
하   하  하다02    Suffix-動詞派生 語基1
ㄴ   ᆫ   ㄴ   Ending-語尾-連体形       2接続
것    것    것01 Noun-依存名詞
이   이  이다  Siteisi-非自立 語基1
다   다  다   Ending-語尾-終止形       1接続
.   .   .   Symbol-ピリオド
EOS

素性を示す番号

HanDicの概要:各項目の素性に,素性の一覧を示しましたが,上記の出力フォーマット(特に「カスタム定義」)で素性を指定する際,%f[?]%F-[?]などの項目で,素性を示す番号が必要になります.それぞれの番号は以下のとおりです:

  • 0: 品詞1
  • 1: 品詞2
  • 2: 品詞3
  • 3: 接続情報
  • 4: 語基
  • 5: 辞書形
  • 6: 出現形
  • 7: 漢字
  • 8: 備考
  • 9: 学習用レベル
  • 10: 品詞タグ

「カスタム定義」で出力したい素性を指定する場合,例えば「漢字」だけを表すには%f[7]と記述することになります.ChaSen形式の出力のように,「品詞1」から「品詞3」までをハイフンでつなぎたい場合には,%F-[0,1,2]と記述します.この場合,ある素性が空白の場合には,その素性は出力されません.

korean/mecab/handic_tagger.txt · 最終更新: 2021/11/06 11:48 by yoshi