====== 高麗大コーパスの使い方 ====== 以下の項目は[[https://okikirmui.github.io/|韓国語コーパスの使い方]]に移行しました.今後更新されません. ===== はじめに ===== ここでは,高麗大学(고려대학교)[[https://riks.korea.ac.kr/|民族文化研究院(민족문화연구원)]]の[[https://riks.korea.ac.kr/organization/digitalhumanities|デジタル人文学センター(디지털인문학센터)]]を通して公開されているコーパスの利用方法についてまとめます. 検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます. いくつかの文書に分けて説明していきます. * 概要(この文書) * [[jakle:korea:sjriks|現代韓国語用例検索器の使い方]] * [[jakle:korea:trend21|コーパス分析ツールの使い方]] * [[jakle:korea:donga|東亜日報コーパスの使い方]] ===== 各コーパスの概要と特徴 ===== 上に書いたように,大きく分けて2種類のコーパスを検索することができます. それぞれ含まれているジャンルや内容が異なるため,適宜使い分けることが必要です. 以下,デジタル人文学センターの記述などを元に,概要を整理します. ==== SJ-RIKS ==== SJ-RIKSは,21世紀世宗計画の「형태의미분석 말뭉치」(形態・意味解析コーパス)を修正,補完したコーパスです.SJ-RIKSは428ファイル,約1500万文節からなるコーパスです.2009年に修正・補完作業を開始,2010年にウェブサービスが公開されました.[[http://riksdb.korea.ac.kr/|현대한국어 용례검색기(現代韓国語用例検索器)]]で,形態素・文節・連語(語の連続)検索が可能です. さらに,21世紀世宗計画の「원시 말뭉치」全体を形態素解析した「SJ-RIKS 확장판(SJ-RIKS Extension)」も公開されており,1億1600万文節が収録されています.収録テキストの構成について,書きことばと話しことばの比率は94:6程度とのこと. 21世紀世宗計画との対比で,これらの規模が詳細に記述されている「일러두기」(SJ-RIKS ext.)から,表1を翻訳して転載しておきます. ^ 分類 ^^ 文節数1 ^ 文節数2 ^ |世宗現代韓国語原文コーパス |新規構築 | 63,899,412| 130,898,291| | ::: |統合・後処理 | 66,998,879| ::: | |世宗現代韓国語形態分析コーパス ||| 15,226,186| |世宗現代韓国語形態・意味分析コーパス ||| 12,642,725| |SJ-RIKSコーパス(形態・意味分析)||| 14,496,204| |SJ-RIKSコーパス拡張版(形態分析)||| 116,065,151| 拡張版は,形態素解析されたコーパスにもかかわらず原文コーパスの分量に迫る規模ということになります.21世紀世宗計画の「形態分析コーパス」が「原文コーパス」の1割くらいしかなかったので,規模としてはかなり大きくなったと言えます. また,拡張版についてはジャンルごとの文節数が「일러두기」に示されており(表2),統計的処理の際に必要と思われるので,こちらも翻訳して転載しておきます. ^ ジャンル ^^ ファイル数 ^ 文節数 ^ | 話しことば |純口語(転写資料) | 733| 4,151,572| | ::: |準口語(台本類) | 415| 2,563,073| | 書きことば |新聞 | 898| 24,333,650| | ::: |雑誌 | 380| 10,475,209| | ::: |書籍:想像的テキスト | 1,817| 39,495,642| | ::: |書籍:情報的テキスト | 1,779| 32,768,310| | ::: |書籍:総説 | 93| 2,277,695| | 合計 || 6,115| 116,065,151| 各テキストの出典についても検索器ページの右側,「출전목록」に詳細に示されているので,参考にしてください. ==== 물결21(Trend21) ==== 2000年以降の新聞に特化したコーパスです.東亜日報,朝鮮日報,中央日報,ハンギョレの記事を収録しています.2000年~2013年までの14年分,6億文節を形態素解析したものです. ウェブベースの[[http://corpus.korea.ac.kr/|コーパス分析ツール]]が公開されており,形態素・文節の検索だけでなく,年度別・月別の単語頻度を表示,共起語の検索などが可能となっています. 年度別の推移を見るのには良いが,検索の際に記事のジャンルや新聞を選択できない,検索結果の保存用コマンドがない,といった難点があります.なお,2011年までの記事データを用いた分析は정유진 외(2013)などを参照. 品詞タグセットは21世紀世宗計画のものとほぼ同じですが,以下の変更点があるので注意(김일환 외 2013:95). * 語根(XR)を形容詞派生接尾辞「하--」をつけて形容詞(VA)に統合 * 否定の指定詞(VCN)「아니다」を形容詞(VA)に統合 * 補格助詞(JKC,**-가/이** 되다)を主格助詞(JKS)に統合 * 接続助詞(JC,학교**와** 집)を副詞格助詞(JKB,친구**와** 같이)に統合 * 연결어미(連結語尾,EC)と종결어미(終結語尾,EF)を統合して어말어미(語末語尾,EM)を設定 ===== 終わりに ===== 高麗大関連のコーパスについて,概要は以上です.それぞれのコーパスを扱うツールで特徴や機能が異なるので,使い方はそれぞれ以下の文書を参照してください. * SJ-RIKS:[[jakle:korea:sjriks|現代韓国語用例検索器の使い方]] * 물결21(Trend21):[[jakle:korea:trend21|コーパス分析ツールの使い方]] 内容に誤りや不正確な部分があれば,ご教示お願いいたします. ===== 参考文献 ===== * 김일환 외(2013), " '물결21' 코퍼스의 구축과 활용", 소명출판. * 정유진 외(2013), "신문의 언어 사용 통계", 소명출판.