以下の項目は韓国語コーパスの使い方に移行しました.今後更新されません.
ここでは,高麗大学(고려대학교)民族文化研究院(민족문화연구원)のデジタル人文学センター(디지털인문학센터)を通して公開されている検索ツールのうち,SJ-RIKSコーパスを検索できる현대한국어 용례검색기(現代韓国語用例検索器)の利用方法についてまとめます.
検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.
SJ-RIKSコーパスの概要については高麗大コーパスの使い方や김일환·이도길·강범모(2010)などを参照のこと.「検索器」ページの右の方にある「일러두기」にも詳細な説明があり,検索の仕方も含め参考になります.
ここではSJ-RIKSコーパスと,SJ-RIKS拡張版(SJ-RIKS ext.)コーパスとを区別せずに扱います.検索における両者の違いは規模(文節数)と,ジャンル別の検索をするかどうか,という点です.SJ-RIKS拡張版コーパスでは,常にジャンルを特定して検索を行います.
また,延世大のコーパスとは異なり,検索結果を一発で保存する方法がありません.残念ながらコピー&ペーストを繰り返すしかないかと.
この辺りは割り切って,한마루2.0を使って21世紀世宗計画のコーパスを検索・保存する,というのもアリかもしれません.
気をつけないといけないのが,21世紀世宗計画の形態・意味コーパスとは形態素の区切りが異なることです.特に,21世紀世宗計画では割と細かく形態素解析していたのが,直感に合うような形で,1つの形態素としてまとめられているものが多くあります(김일환·이도길·강범모 2010).その最たるものが接尾辞ですが,例えば「과학적(科学的)」という文節を21世紀世宗計画では「과학/NNG+적/XSN」のように分けていたのですが,SJ-RIKSコーパス(拡張版含む)では「과학적/NNG」として,一つの普通名詞にしています.
上記の点を勘案の上,以下の内容に進んでください.
リンクから「検索器」に進むと,以下の画面が表示されます.
一番左のドロップダウンリストで検索の対象=形態素,文節,連語を選びます.
2番目のドロップダウンリストは,形態素検索と文節検索の場合は検索の際の「一致」方法=前方一致,完全一致,後方一致を,連語検索の場合は検索する構成=句構成,隣接構成,文構成を選ぶためのものです.
それでは,それぞれの検索について,ドロップダウンリストの順に沿って見てみます.基本的にはSJ-RIKSコーパスを例にしますが,適宜SJ-RIKS拡張版についても触れます.
デフォルトの設定—「형태소 분석(形態素検索)」+「완전 일치(完全一致)」で検索を行ってみましょう.例えば検索語に「법
」と入力し,リターンキーを押すか,「검색(検索)」ボタンをクリックします.すると左側に候補のリストが頻度付きで一覧表示されます.「번호(番号)」は同音異義語を示したもので,『標準国語大辞典』に沿っています.
ただし,ウェブ版の方は番号付けの改訂が行われたので,合わない場合もあります.
この例では,品詞の異なる候補があります.目当ての項目の行をクリックすると,その右側にKWIC形式で用例が30例ずつ表示されます. さらに,用例の各行をクリックすると,今度はその用例が含まれる文全体に加え,その解析内容まで表示されます.「법/XSN」の最初の例を見てみます.
上記画像のように出典まで表示され,さらに原文の左右にある「<」「>」を押していくと,他の文も解析結果付きで見ることができ,前後の文脈を確認できて便利です.
なお,用言を検索する際は語幹だけを入力します.例えば動詞の「마치다」を検索したい場合,検索語に「마치
」だけを入力してください.
今度は候補が多いですが,「番号」が「90」となっているのは,『標準国語大辞典』にない項目です.実際に例を見ると,日本語の「町」だったり,英語の「much」や「March」だったり,でした.
ここで番号が「02」,品詞が「VV」となっている項目を選ぶと,動詞「마치다」を含む文節が検索例として表示されます.
上記では「完全一致」検索ということで,検索語と完全に一致する形態素だけが検索されました.それに対し,「전방 일치(前方一致)」は検索語から始まる形態素が検索され,「후방 일치(後方一致)」は検索語で終わる形態素が検索されます.検索語「당하
」を例に,候補がどのように変わるか見てみましょう.
完全一致 | 前方一致 | 後方一致 |
---|---|---|
당하_/XSV | 당하_/XSV | 당하_/XSV |
당하_01/NNG | 당하_01/NNG | 당하_01/NNG |
당하_01/VA | 당하_01/VA | 당하_01/VA |
당하_01/VV | 당하_01/VV | 당하_01/VV |
당하관_/NNG | ||
당하리_/NNP | ||
가당하_/VA | ||
간당간당하_/VV | ||
당당하_/VA | ||
맞당하_/VV | ||
부적당하_/VA | ||
부정당하_/VA | ||
온당하_/VA | ||
적당하_02/VA | ||
정당하_01/VA | ||
정정당당하_/VA | ||
지당하_/VA | ||
타당하_/VA | ||
합당하_01/VA | ||
황당하_/VA |
上の表では対比をしやすいよう,順序を入れ替えてありますが,実際には가나다順で表示されます.前方一致も後方一致も含む「部分一致」のような検索ができると,上記を一発で検索できるのですが,それはないので,検索語を含む形態素を探す場合は,前方一致と後方一致の両方を検索するのがよいでしょう.
基本的には21世紀世宗計画コーパスが元なので,品詞タグもそれにならっていますが,高麗大コーパスの使い方にも書いたように,接続形語尾(연결어미=EC)と終止形語尾(종결어미=EF)とをまとめて,「어말어미(語末語尾)」=EMとしているなど,いくつかの変更があります.項目を選ぶ際に注意しましょう.
また,タグ付けのゆれなども散見されますので,用例の確認は必須です.
「어절 검색(文節の検索)」は,1つの文節だけを対象に検索を行います.「完全一致」では検索語と全く同じ形の文節にマッチします.「前方一致」は検索語で始まる文節が,「後方一致」は検索語で終わる文節がマッチします.特定の形を検索したい場合には,こちらの方が便利でしょう.
試しに検索してみましょう.「어절 검색」を選び,「완전 일치」のままで,検索語を「고프」とします.そうすると,「고프」だけで構成される文節はないでしょうから,検索結果がないと表示されます.
次に,検索語は変えずに「전방 일치」にして検索しましょう.そうすると,今度は「고프」で始まる「고프거나」「고프겠지」「고프고」などの候補が表示されます.ただし,用言の「고프다」の活用形だけでなく,「고프바초프는」のような例も検索されます.「고프」で始まる文節だからです.
今度は「후방 일치」で検索してみましょう.そうすると「벨로노고프」「센차고프」の例が出てきます.
こちらも「部分一致」のような検索ができないので,「○○」を含む文節を検索,といった場合,前方一致と後方一致のどちらも行う必要があります.
2つの形態素について,入力した順序に現れる用例を検索します.検索語に,2つの形態素をスペースで区切って入力します.単語ではなく形態素を検索するので,用言については語幹の形を入力し,体言の場合は助詞をつけないようにしてください.
なお,検索には時間がかかります.連体形語尾「-을」と形式名詞「수」のように,非常に用例が多い場合はサーバーが処理しきれず,エラーが帰ってくることがあります. また,サーバーへの負担から,検索の範囲を1000個に制限しているとのこと(일러두기より).
形態素の検索,文節の検索とは異なり,連語の検索では検索の範囲を指定します.以下の3種類です.
検索の範囲指定 | 検索される範囲 |
---|---|
인접 구성(隣接構成) | 形態素間の距離が1文節以下.分かち書きされていない例も検索されるよう,2つの形態素が同一文節に現れる場合も含まれる. |
구 구성(句構成) | 形態素間の距離が1文節以上4文節未満. |
문장 구성(文構成) | 形態素間の距離に制限を置かず,同一文内に現れる2つの形態素を検索する |
延世コーパスの連語の検索は1つ目の検索語を1番目として,その直後が2番目,その次が3番目,という数え方でしたが,こちらは1つ目の検索語を0番目として数えることになります.
コーパス | 1文節目 | 2文節目 | 3文節目 | 4文節目 | 5文節目以降 | |
---|---|---|---|---|---|---|
연세 문어 균형 말뭉치 | 検索語1 | 2어절 | 3어절 | 4어절 | 範囲外 | |
SJ-RIKS | 인접 구성 | 検索語1 検索語2 | 検索語2 | 範囲外 | ||
구 구성 | 検索語1 | 検索語2 | 範囲外 | |||
문장 구성 | 検索語1 検索語2 | 検索語2 |
以下,「학교 내
」(학교と내の間に半角スペース)という検索語で,それぞれの例を示してみたいと思います.
同一文節もしくは1文節(隣の文節)まで.
「1文節以下」ということなのですぐ隣の文節までが範囲になるはずなのですが,形式名詞「내(内)」との共起は同一文節に現れる例しか含まれていませんでした.「○」がついているのは,その文節に検索語2がある例が検索結果に出てきたことを指します.「検索語1と同じ文節」にだけ「○」がついている場合は,隣の文節に検索語2が含まれる例が検索されなかったことを指します.
隣の文節が含まれるかどうか,ちょっと挙動が分からないので,いくつか実験をしてみました.
検索語 | 検索語1と同じ文節 | 隣の文節 | 備考 |
---|---|---|---|
나이 먹 | ○ | ☓ | 「나이먹은」「나이먹어서」「나이먹고」「나이먹어가면서」 |
나이 를 | ○ | ○ | 「나이를」「젊은 나이에 아기를」「사람들은 나이에 의미부여하기를 좋아한다.」 |
먹 나이 | 検索結果なし | ||
물구나무 서 | 検索結果なし | ||
물구나무 를 | ○ | ○ | 「물구나무를」「물구나무 서기를」「물구나무 재주를」 |
밥 하 | ○ | ○ | |
기억 하 | ○ | ○ | |
선진 국가 | ○ | ○ | |
시간 동안 | ○ | ☓ | 「1시간여동안」「3시간동안이나」 |
받 겠 | ○ | ○ | |
김치 담그 | ○ | ☓ | 「김치담금법이」の1例 |
소설 읽 | ○ | ☓ | 「소설읽기」 |
읽 소설 | ☓ | ○ | 「읽은 연애소설은」「읽던 연애소설은」「읽는 모험소설이나」 |
차이 크 | 検索結果なし1) | ||
크 차이 | 検索結果なし2) | ||
차이 나 | △3) | △ | |
나 차이 | ☓ | ○ | 「1년만 나이차가 나도 '세대차이'를 느낀다는데」の1例 |
좋 사람 | ○ | ○ | |
사람 좋 | ○ | ○ | |
년 만 | ○ | ○ |
何だか傾向がよく分かりませんが,「名詞―動詞」(という想定の)組み合わせの場合,同一文節に2つの検索語が含まれている用例だけが検索されることがある,という感じでしょうか. とりあえず,ターゲットが隣り合っている例を検索したいときは,この隣接構成の検索と,次の句構成の検索とを行い,重複するものを除く,という手順にするのがよさそうです.
1文節(隣の文節)以上4文節未満.1つ目の検索語をN(中心語)とした場合,N+3までの範囲.
「-(으)ㄹ 수 있다」や「-(으)ㄹ 것이다」のような分析的な形式を検索したい場合は,だいたい3文節までならカバーできるかと思うので,こちらの句構成で検索すればよいかもしれません.ただし,分かち書きの誤りなどがあるので,やはり上記の隣接構成の検索も行っておくのがよいでしょう.
形態素間の距離を問わず,同一文内を検索.同一文節内も含まれる4).
「학교 내
」:
範囲を限定せずに調べたいなら,この文構成を選ぶのが良さそうです.ただ,2つの形態素に何の関連もない例が多く出てくる可能性があるので注意.漏れがないよう,とにかく広範囲に拾って,無関係なものを除外していく作業をしていくのであれば,この方式が無難です.
ここまではSJ-RIKSの検索について見てきましたが,拡張版(SJ-RIKS Extention)を使って,より多くの例を検索することができます.SJ-RIKSとの違いは,検索の際にジャンルを指定しなければならない点です.
最初の画面で「SJ-RIKS ext.」という部分をクリックすると,拡張版の検索画面になります.基本的にはSJ-RIKSの場合と同じですが,「검색(検索)」ボタンの右に,ドロップダウンリストが追加されます.ここからジャンルを指定します.選べるジャンルは,
となっています.検索のタイプや方法は,SJ-RIKSの場合と同じです.
현대한국어 용례검색기(現代韓国語用例検索器)の利用方法については以上です.割と手軽に大量の解析済みコーパスを検索できるのは便利ですが,検索結果を簡単に保存できないのが玉に瑕と言えるでしょう.頻度情報を見るには便利かもしれません.
김치 담그
」を文構成の検索で試したところ,同じ例「김치담금법이」が検索されました.