ユーザ用ツール

サイト用ツール


jakle:korea

文書の過去の版を表示しています。


高麗大コーパスの使い方

はじめに

ここでは,高麗大学(고려대학교)民族文化研究院(민족문화연구원)デジタル人文学センター(디지털인문학센터)を通して公開されているコーパスの利用方法についてまとめます.

検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.

いくつかの文書に分けて説明していきます.

各コーパスの概要と特徴

上に書いたように,大きく分けて2種類のコーパスを検索することができます. それぞれ含まれているジャンルや内容が異なるため,適宜使い分けることが必要です. 以下,デジタル人文学センターの記述などを元に,概要を整理します.

SJ-RIKS

SJ-RIKSは,21世紀世宗計画の「형태의미분석 말뭉치」(形態・意味解析コーパス)を修正,補完したコーパスです.SJ-RIKSは428ファイル,約1500万文節からなるコーパスです.2009年に修正・補完作業を開始,2010年にウェブサービスが公開されました.현대한국어 용례검색기(現代韓国語用例検索器)で,形態素・文節・連語(語の連続)検索が可能です.

さらに,21世紀世宗計画の「원시 말뭉치」全体を形態素解析した「SJ-RIKS 확장판(SJ-RIKS Extension)」も公開されており,1億1600万文節が収録されています.収録テキストの構成について,書きことばと話しことばの比率は94:6程度とのこと. 21世紀世宗計画との対比で,これらの規模が詳細に記述されている「일러두기」(SJ-RIKS ext.)から,表1を翻訳して転載しておきます.

分類 文節数1 文節数2
世宗現代韓国語原文コーパス 新規構築 63,899,412 130,898,291
統合・後処理 66,998,879
世宗現代韓国語形態分析コーパス 15,226,186
世宗現代韓国語形態・意味分析コーパス 12,642,725
SJ-RIKSコーパス(形態・意味分析) 14,496,204
SJ-RIKSコーパス拡張版(形態分析) 116,065,151

拡張版は,形態素解析されたコーパスにもかかわらず原文コーパスの分量に迫る規模ということになります.21世紀世宗計画の「形態分析コーパス」が「原文コーパス」の1割くらいしかなかったので,規模としてはかなり大きくなったと言えます.

また,拡張版についてはジャンルごとの文節数が「일러두기」に示されており(表2),統計的処理の際に必要と思われるので,こちらも翻訳して転載しておきます.

ジャンル ファイル数 文節数
話しことば 純口語(転写資料) 733 4,151,572
準口語(台本類) 415 2,563,073
書きことば 新聞 898 24,333,650
雑誌 380 10,475,209
書籍:想像的テキスト 1,817 39,495,642
書籍:情報的テキスト 1,779 32,768,310
書籍:総説 93 2,277,695
合計 6,115 116,065,151

各テキストの出典についても検索器ページの右側,「출전목록」に詳細に示されているので,参考にしてください.

물결21(Trend21)

2000年以降の新聞に特化したコーパスです.東亜日報,朝鮮日報,中央日報,ハンギョレの記事を収録しています.2000年~2013年までの14年分,6億文節を形態素解析したものです. ウェブベースのコーパス分析ツールが公開されており,形態素・文節の検索だけでなく,年度別・月別の単語頻度を表示,共起語の検索などが可能となっています.

年度別の推移を見るのには良いが,検索の際に記事のジャンルや新聞を選択できない,検索結果の保存用コマンドがない,といった難点があります.なお,2011年までの記事データを用いた分析は정유진 외(2013)などを参照.

品詞タグセットは21世紀世宗計画のものとほぼ同じですが,以下の変更点があるので注意(김일환 외 2013:95).

  • 語根(XR)を形容詞派生接尾辞「하–」をつけて形容詞(VA)に統合
  • 否定の指定詞(VCN)「아니다」を形容詞(VA)に統合
  • 補格助詞(JKC,-가/이 되다)を主格助詞(JKS)に統合
  • 接続助詞(JC,학교 집)を副詞格助詞(JKB,친구 같이)に統合
  • 연결어미(連結語尾,EC)と종결어미(終結語尾,EF)を統合して어말어미(語末語尾,EM)を設定

終わりに

高麗大関連のコーパスについて,概要は以上です.それぞれのコーパスを扱うツールで特徴や機能が異なるので,使い方はそれぞれ以下の文書を参照してください.

内容に誤りや不正確な部分があれば,ご教示お願いいたします.

参考文献

  • 김일환 외(2013), “ '물결21' 코퍼스의 구축과 활용”, 소명출판.
  • 정유진 외(2013), “신문의 언어 사용 통계”, 소명출판.
jakle/korea.1649848877.txt.gz · 最終更新: 2022/04/13 20:21 by yoshi