目次

연세 말뭉치(延世コーパス)の使い方

以下の項目は韓国語コーパスの使い方に移行しました.今後更新されません.

はじめに

ここでは,延世大学(연세대학교)言語情報研究院(언어정보연구원)が公開しているコーパスの利用方法についてまとめます.ウェブで公開されているコーパスを取り上げます.

検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.

いくつかの文書に分けて説明していきます.

ウェブで利用できるコーパスの種類

このコンテンツの執筆時点で,以下のコーパスが利用可能です.

いろいろありますが,とりあえずここでは文語均衡コーパスを例にして説明します.

基本的な操作

以下では,基本的な操作について説明します.検索の種類によらず,全体で共通する内容を見ていきます.

検索画面

初期画面は以下の通りです.

 search_main

左から,

となっています.検索の範囲・対象を変えると,表示されるフォームも若干変わります.

検索の範囲・対象

延世コーパスでは,検索の範囲と,検索の対象とするコーパスを選ぶことができます.文語均衡コーパスの場合,その組み合わせは以下の通りです.

範囲 対象とするコーパス
어절(文節) 원시(原文),형태의미(形態・意味)
연어(連語) 원시(原文:2文節~4文節),형태의미(形態・意味:2文節~4文節)
어절 내 연접(文節内の連接)형태의미(形態・意味:全体,2形態素~4形態素)

上記の表のうち,検索の範囲は,以下の通りとなっています.

また,対象とするコーパスは以下の通りです.

検索結果に表示する前後文脈の長さ

検索結果はKWIC(Key Word In Context)形式で表示されますが,検索語を中心語として,前後の文節数を10~50まで,5個刻みで設定することができます.前文脈と後文脈とで文節数を変えることはできません.

検索結果のソート

検索範囲「어절」と「어절 내 연접」でのみ表示されます.検索結果をソートする基準を設定します.以下の項目が利用可能です.

  1. 검색어 기준 정렬:検索語を基準としてソート
  2. 검색어 오른쪽 어절 기준 정렬:検索語の右側(後文脈)の文節を基準としてソート
  3. 검색어 왼쪽 어절 기준 정렬:検索語の左側(前文脈)の文節を基準としてソート
  4. 검색어 왼쪽 어절 기준 역순 정렬:検索語の左側(前文脈)の文節を基準として逆順にソート

このうち,4番目について説明しておきます.これは文字通り前文脈の後からソートを行っていきます.「어절」を範囲として「원시」コーパスを対象に「때가」という文節を検索してみました.その際に,ソート基準を「검색어 왼쪽 어절 기준 역순 정렬」にしておくと,以下のような順序で結果が表示されます.ここでは前文脈の一部分と検索語のみ提示し,後文脈を省略します.

上記は一部を抜き出していますが,見ての通り,前文脈の最後の文字から順番にソートされています.ただ,保存した結果などを利用して,前文脈の文字列を逆順にし,文字列単位でソートすると,ちょっと順番が違ったりします.もしかしたら字母単位でやっているのかもしれませんが,とりあえずこういうソートができますよ,という感じでよいのではないでしょうか.

残念ながら,以下で説明する検索結果の保存を行うと,生成されたファイルではこのソート結果が無視されているので注意.

検索結果の保存

検索を行って結果が表示されると,右上に「CSV」「XLS」というボタンが表示されます.

 result_save

このボタンを押すと,(CSVとは書いてありますが)タブ区切り・UTF-8エンコーディングのテキストファイルか,Microsoft Excelのxls形式で検索結果を保存することができます. 一連番号を除き,検索結果に表示されているのと同じ内容(前文脈・検索語・後文脈・ジャンル・時期・出典名)が含まれます.テキストファイルは1行目から検索結果が入力されており,xlsファイルは1行目に見出し行が含まれています.また,xlsファイルは開くときに何か警告が出ますが,気にせず開きましょう.

また,ウェブブラウザで検索結果を見ていくと,途中でエラーが出て表示されないことがあります.そうした場合でも,どの形式であれファイルに保存すると,全ての検索結果が含まれています.

頻度情報の活用

検索とはちょっと話がずれますが,検索画面の上の方,「빈도 차트」という青いボタンと,「빈도 목록」という赤いボタンがあります.赤いボタンを押すと,形態素の頻度が一覧で示されたテキストファイルをダウンロードできます.

青いボタンを押すと画面が変わり,形態素を検索して,その頻度を表示することができるようになります.

 chart_main

左2つのドロップダウンリストで,「X축 선택(X軸選択)」は「구분(区分)」,2つ目は「전체(全体)」しか選べません.3つ目の「형태소 입력(形態素入力)」に検索したい形態素を入力します.ハングルで入力していくと,候補が提示されるので,目当てのものを選びましょう.例えば「당신」と入力して「당신_y0/NP」を選ぶと,以下のようなグラフが表示されます.

 chart_you_1

左の棒グラフはコーパス全体における絶対頻度を表し,右の棒グラフは「구분」=コーパスのジャンル別の相対頻度を表します.グラフの棒にカーソルを重ねると,その数値が表示されます.

検索する形態素を複数入力することもできます.先の「당신_y0/NP」に「너_y1/NP」を加えて検索した結果は以下の通りです.

 chart_you_2

絶対頻度では「너」が多く使われていますが,コーパスのジャンル別に相対頻度を見ると,ジャンルによってバラツキのあることが分かります.

ここでは簡単な例を示しましたが,頻度情報を簡単に可視化できるのは便利そうです.

終わりに

연세 말뭉치(延世コーパス)の基本的な操作については以上です.以下,文語均衡コーパスの使い方は,文節の検索などの文書を参照してください.

内容に誤りや不正確な部分があれば,ご教示お願いいたします.