ユーザ用ツール

サイト用ツール


korean:mecab:hira2han

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:mecab:hira2han [2019/02/15 22:14] – [dicrc] yoshikorean:mecab:hira2han [2020/11/07 13:59] (現在) yoshi
行 1: 行 1:
 ====== 変換用辞書の構築について ====== ====== 変換用辞書の構築について ======
  
-ここでは,[[http://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]で構築した変換用辞書を例として,辞書構築のケーススタディを紹介します.+ここでは,[[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCabによるひらがなのハングル転写]]で構築した変換用辞書を例として,辞書構築のケーススタディを紹介します.
  
 ===== はじめに ===== ===== はじめに =====
行 112: 行 112:
 ひらがなのハングル転写について,「외래어표기법」では日本語表記の細則第2項で,「長母音は別に表記しない」としており,「とうきょう」を「도쿄」,「にいがた」を「니가타」とする例を挙げています.この処理を行うには例えば「とう」を「도」と出力し,「にい」を「니」と出力するよう,辞書エントリを作成すればよいのですが,そうすると「ともだち<wrap hi>とう</wrap>たう」「いえ<wrap hi>にい</wrap>る」といった「とう」「にい」まで長音の表記と見なされてしまい,望ましい結果を得ることができません. ひらがなのハングル転写について,「외래어표기법」では日本語表記の細則第2項で,「長母音は別に表記しない」としており,「とうきょう」を「도쿄」,「にいがた」を「니가타」とする例を挙げています.この処理を行うには例えば「とう」を「도」と出力し,「にい」を「니」と出力するよう,辞書エントリを作成すればよいのですが,そうすると「ともだち<wrap hi>とう</wrap>たう」「いえ<wrap hi>にい</wrap>る」といった「とう」「にい」まで長音の表記と見なされてしまい,望ましい結果を得ることができません.
  
-こうした処理の誤りを回避するため,ユーザーが入力する時点で,長音については「ー」を入力してもらうことにしました.発音通りに入力してもらう,ということです.デフォルトの出力形式を''%pS%F-[0]''としてあり,「ー」のエントリは素性を「''*''」,即ち空要素としてあるため,「ー」が入力されると空文字を出力します.''%FC[N1,N2,N3,...]''は「N1,N2,N3番目の素性を,''C''をデリミタとして表示.ただし,要素が空の場合は以降表示が省略される」([[https://mecab.googlecode.com/svn/trunk/mecab/doc/format.html|出力フォーマット]]より引用)ためです.素性はひとつしかないため,その素性が空だとデリミタも出力されません.+こうした処理の誤りを回避するため,ユーザーが入力する時点で,長音については「ー」を入力してもらうことにしました.発音通りに入力してもらう,ということです.デフォルトの出力形式を''%pS%F-[0]''としてあり,「ー」のエントリは素性を「''*''」,即ち空要素としてあるため,「ー」が入力されると空文字を出力します.''%FC[N1,N2,N3,...]''は「N1,N2,N3番目の素性を,''C''をデリミタとして表示.ただし,要素が空の場合は以降表示が省略される」([[https://taku910.github.io/mecab/format.html|出力フォーマット]]より引用)ためです.素性はひとつしかないため,その素性が空だとデリミタも出力されません.
  
 ==== unk.def ==== ==== unk.def ====
行 125: 行 125:
 ===== 辞書の構築 ===== ===== 辞書の構築 =====
  
-以上のファイルをひとつのディレクトリに入れ,''mecab-dict-index''を用いて,辞書を構築します.出力の文字コードにUTF-8を指定します(''-f''オプション,''-t''オプションについては[[https://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#charset|文字コード変更]]を参照).+以上のファイルをひとつのディレクトリに入れ,''mecab-dict-index''を用いて,辞書を構築します.出力の文字コードにUTF-8を指定します(''-f''オプション,''-t''オプションについては[[https://taku910.github.io/mecab/index.html#charset|文字コード変更]]を参照).
  
 <code bash> <code bash>
korean/mecab/hira2han.1550236447.txt.gz · 最終更新: 2019/02/15 22:14 by yoshi