高麗大コーパスの使い方
以下の項目は韓国語コーパスの使い方に移行しました.今後更新されません.
はじめに
ここでは,高麗大学(고려대학교)民族文化研究院(민족문화연구원)のデジタル人文学センター(디지털인문학센터)を通して公開されているコーパスの利用方法についてまとめます.
検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.
いくつかの文書に分けて説明していきます.
- 概要(この文書)
各コーパスの概要と特徴
上に書いたように,大きく分けて2種類のコーパスを検索することができます. それぞれ含まれているジャンルや内容が異なるため,適宜使い分けることが必要です. 以下,デジタル人文学センターの記述などを元に,概要を整理します.
SJ-RIKS
SJ-RIKSは,21世紀世宗計画の「형태의미분석 말뭉치」(形態・意味解析コーパス)を修正,補完したコーパスです.SJ-RIKSは428ファイル,約1500万文節からなるコーパスです.2009年に修正・補完作業を開始,2010年にウェブサービスが公開されました.현대한국어 용례검색기(現代韓国語用例検索器)で,形態素・文節・連語(語の連続)検索が可能です.
さらに,21世紀世宗計画の「원시 말뭉치」全体を形態素解析した「SJ-RIKS 확장판(SJ-RIKS Extension)」も公開されており,1億1600万文節が収録されています.収録テキストの構成について,書きことばと話しことばの比率は94:6程度とのこと. 21世紀世宗計画との対比で,これらの規模が詳細に記述されている「일러두기」(SJ-RIKS ext.)から,表1を翻訳して転載しておきます.
分類 | 文節数1 | 文節数2 | |
---|---|---|---|
世宗現代韓国語原文コーパス | 新規構築 | 63,899,412 | 130,898,291 |
統合・後処理 | 66,998,879 | ||
世宗現代韓国語形態分析コーパス | 15,226,186 | ||
世宗現代韓国語形態・意味分析コーパス | 12,642,725 | ||
SJ-RIKSコーパス(形態・意味分析) | 14,496,204 | ||
SJ-RIKSコーパス拡張版(形態分析) | 116,065,151 |
拡張版は,形態素解析されたコーパスにもかかわらず原文コーパスの分量に迫る規模ということになります.21世紀世宗計画の「形態分析コーパス」が「原文コーパス」の1割くらいしかなかったので,規模としてはかなり大きくなったと言えます.
また,拡張版についてはジャンルごとの文節数が「일러두기」に示されており(表2),統計的処理の際に必要と思われるので,こちらも翻訳して転載しておきます.
ジャンル | ファイル数 | 文節数 | |
---|---|---|---|
話しことば | 純口語(転写資料) | 733 | 4,151,572 |
準口語(台本類) | 415 | 2,563,073 | |
書きことば | 新聞 | 898 | 24,333,650 |
雑誌 | 380 | 10,475,209 | |
書籍:想像的テキスト | 1,817 | 39,495,642 | |
書籍:情報的テキスト | 1,779 | 32,768,310 | |
書籍:総説 | 93 | 2,277,695 | |
合計 | 6,115 | 116,065,151 |
各テキストの出典についても検索器ページの右側,「출전목록」に詳細に示されているので,参考にしてください.
물결21(Trend21)
2000年以降の新聞に特化したコーパスです.東亜日報,朝鮮日報,中央日報,ハンギョレの記事を収録しています.2000年~2013年までの14年分,6億文節を形態素解析したものです. ウェブベースのコーパス分析ツールが公開されており,形態素・文節の検索だけでなく,年度別・月別の単語頻度を表示,共起語の検索などが可能となっています.
年度別の推移を見るのには良いが,検索の際に記事のジャンルや新聞を選択できない,検索結果の保存用コマンドがない,といった難点があります.なお,2011年までの記事データを用いた分析は정유진 외(2013)などを参照.
品詞タグセットは21世紀世宗計画のものとほぼ同じですが,以下の変更点があるので注意(김일환 외 2013:95).
- 語根(XR)を形容詞派生接尾辞「하–」をつけて形容詞(VA)に統合
- 否定の指定詞(VCN)「아니다」を形容詞(VA)に統合
- 補格助詞(JKC,-가/이 되다)を主格助詞(JKS)に統合
- 接続助詞(JC,학교와 집)を副詞格助詞(JKB,친구와 같이)に統合
- 연결어미(連結語尾,EC)と종결어미(終結語尾,EF)を統合して어말어미(語末語尾,EM)を設定
終わりに
高麗大関連のコーパスについて,概要は以上です.それぞれのコーパスを扱うツールで特徴や機能が異なるので,使い方はそれぞれ以下の文書を参照してください.
- SJ-RIKS:現代韓国語用例検索器の使い方
- 물결21(Trend21):コーパス分析ツールの使い方
内容に誤りや不正確な部分があれば,ご教示お願いいたします.
参考文献
- 김일환 외(2013), “ '물결21' 코퍼스의 구축과 활용”, 소명출판.
- 정유진 외(2013), “신문의 언어 사용 통계”, 소명출판.