ユーザ用ツール

サイト用ツール


jakle:yonsei:written_2

連語の検索

以下の項目は韓国語コーパスの使い方に移行しました.今後更新されません.

ここでは,延世大学(연세대학교)言語情報研究院(언어정보연구원)が公開しているコーパス(연세 말뭉치)のうち,문어 균형 말뭉치(文語均衡コーパス)の使い方,特に「연어(連語)」の検索についてまとめます.

検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.

延世コーパスの概要については연세 말뭉치(延世コーパス)の使い方を参照のこと.以下の記述では,「文節の検索」の内容を既に読んでいることを前提とします.

연어(連語)の検索では,単独の文節内ではなく,2~4までの複数の文節に渡って検索を行います.正規表現は使えますが,字素検索はできません.

検索に先立って

ここでいう「연어(連語)」とは,単に複数の文節のまとまりを指すと考えてください.コロケーションのような,慣用的な語の連続ではありません.

また,文節の検索とは異なり,常に2つの検索語を必要とします.1つ目の検索語を1番目の文節として,そこからn番目の文節を2つ目の検索語とし,それらの組み合わせだけを検索します(nは2~4).検索画面で一番左のドロップダウンリストから「연어」「원시」(または「형태의미」)を選ぶと,さらに「2어절」から「4어절」までの文節数を指定するよう,表示されます.この文節数の指定と,検索する対象の文節との対応は以下のようになります.

文節指定 1文節目 2文節目 3文節目 4文節目
지역구 사무실에 대학생들이 화염병을
2어절 検索語1 検索語2
3어절 検索語1 検索語2
4어절 検索語1 検索語2

気をつけないといけないのは,文節数の指定は出現する範囲を設定するのではなく,指定した場所の文節だけが検索対象となる,という点です.上記の例で見ると,2つの検索ボックスにそれぞれ「지역구」と「사무실에」を入力して検索する際,「2어절」を指定すると検索にマッチしますが,「3어절」や「4어절」を検索するとマッチしません.「3어절」と指定すると,「1文節目から3文節目まで」を検索するのではなく,「1文節目3文節目だけ」を検索するためです.

なお,「文節の検索」でも触れたように,コーパスのデータ入力段階での分かち書きの揺れがあるため,文節数の指定をする際はちょっと注意しましょう.含まれるべき例が検索されていないケースがあり得ます.1)

원시(原文コーパス)の検索

検索画面で,一番左のドロップダウンリストから「연어」「원시」を選び,検索する文節数の範囲を選びます.まずは2文節,「2어절」を選びましょう.検索語の入力ボックスが2つ表示されます.左の検索ボックスが1番目の文節を,右側の検索ボックスが2番目の文節を,すなわち1番目の文節にすぐ続く文節を指します.

例として,「나이」と「먹다」が隣り合っている文節の並びを検索してみましょう.

検索例:1番目の文節=나이+0以上の文字(*),2番目の文節=먹+0以上の文字(*)

# 1番目の検索ボックス
나이*
# 2番目の検索ボックス
먹*

結果(一部): - 아픈 속울음은 언제나 나 자신을 위하여 터져 나오니 얼마나 더 나이 먹어야 마음은 자라고 마음의 키가 얼마나 자라야 남의 몫도 울게 될까요 - 날의 왈츠>는 <얼지마, 죽지마, 부활 할거야>의 주인공인 발레르카가 좀 더 나이를 먹고 고향인 스촨을 떠나 이모집에 찾아가서 연애를 경험하며 성장하는 이야기인데 영화 - 두려워한 채 인생의 설계도에서 슬쩍 밀어놓는다. 그러나 인생을 허비하지 않고 나이를 먹을수록 성숙해 간다면 노년은 ’인생의 황금기’가 될 수 있다. 부모님의 나이가

今度は文節数を変えてみます.「연어」「원시」「3어절」としてみましょう.やはり検索語は「나이*」「먹*」とします.そうすると,今度は以下の1例だけがマッチします.

  • 숫자를 복제하다 보니 어쩔 수 없이 에러가 생기게 마련입니다. 사람이 나이를 먹으면 먹을수록 세포 분열 횟수도 늘어나고, 그만큼 DNA상에 에러가 많이 축적되므로 결국은

これだと2文節目も「먹으면」なので,ちょっと違いが分かりにくいかもしれませんが.

|」を使ったOR条件も利用できます.

나이*|밥* # 1番目の検索ボックス
먹* # 2番目の検索ボックス

などといった検索が可能です.

형태의미(形態・意味コーパス)の検索

形態素解析,意味解析がされたコーパスの検索も可能です.検索語の入力は「文節の検索」と同じです.正規表現が使えない点も同様です.

例として,未来連体形語尾-(으)ㄹに続く文節に,指定詞-이다が用いられている文節の連続を検索してみます. 一番左のドロップダウンリストで,「연어」「형태의미」「2어절」を選びます. 次に,検索語にㄹを入力すると,複数の候補が表示されるので,「ㄹ_y3/ETM」を選びます.

その2番目の検索語に이と入力し,「이_y3/VC」を選びましょう.結果の一部を抜き出すと,以下の通りです.

  • 청원이 필요하다. 청원이 적법한 것으로 판단되면 절차상 11월 말 소환투표가 실시될 예정이다. 앞서 야당을 비롯한 반(反)차베스파는 대통령 소환투표를 요구하는 유권자 320만명의 서명을
  • 파병과 관련해 여론의 눈치를 살피고 있는 한국 정부의 결정에 탄력을 제공할 것이라는 점이다. 일본의 파병은 한국 정부가 파병 반대론자를 설득하는 무기로 활용될
  • 상응해 개편되는 것. 일본은 미국에 대한 무기 수출도 가능하도록 관련법을 바꿀 계획이다. ▽MD 도입= 일본 정부는 19일 오전 안전보장회의와 각의를 잇달아 열고

今度は,一番左のドロップダウンリストで,「연어」「형태의미」「3어절」を選びます.検索の内容は上記と同じにしてみます.そうすると,連体形語尾-(으)ㄹを含む文節を1番目として,3番目の文節に指定詞-이다が含まれる例が検索されます.

  • 파병과 관련해 여론의 눈치를 살피고 있는 한국 정부의 결정에 탄력을 제공할 것이라는 점이다. 일본의 파병은 한국 정부가 파병 반대론자를 설득하는 무기로 활용될 수
  • 어느 정도의 분노는 당연한 것이다. 그러나 한국의 심각한 전략적 상황을 감안할정상적인 정부였다면 중요한 우방과의 관계 손상을 막기 위해 가능한 모든 방법을
  • 타고 중국내에 1백여 주문처를 확보하면서 정착에 성공했다. 상해와 대련에 사무소를 계획도 진행중이다. 매출 목표는 내년 4백만 달러, 95년 5백만 달러. 권 사장은

次に「머리를 맞대다」に当たる表現を検索してみます. 「2어절」で「머리_y1/NNG」「맞대_y0/VV」を検索すると,8例が出てきます.

  • 춘희는 지연의 경솔함을 나무란다. 춘희는 덕배네를 찾아오고 온 가족이 모여앉아 머리를 맞댄 끝에 지연과 윤식의 결혼을 추진하기로 합의한다. 덕진은 윤식에게 결혼취소 결정을
  • 완강했다. 60대도 많다는 것이었다. 할 수 없이 공군 수뇌부는 다시 머리를 맞대고 최저선을 짜냈다. 그래서 등장한 것이 2개 전투대대, 즉 40대 전투기
  • 속이다 . 작년 가을 따봉 제작팀은 델몬트 오렌지 쥬스를 놓고 머리를 맞댔다 . 상대방은 썬키스트 훼밀리 쥬스 . 남궁원이라는 중량급 모델이 가족과

上記の2例目で,「다시」という副詞が前に使われていますが,「머리를 서로 맞대고」のように,間に副詞の入った例はないでしょうか.それで,今度は文節数を「3어절」にして検索すると,2つ目の検索ボックスに「맞대」と入れても候補が表示されません.これは検索結果がない,ということを指しています.実際,文節の検索(形態・意味コーパス)で「맞대_y0/VV」を検索すると,맞대다に副詞が前接する例は一つもありませんでした.

他に,「-(으)면 ~ -(으)ㄹ수록」などといった表現を検索することも可能です.ただし,語尾の記述が韓国式なので,「-면」と「-으면,「-ㄹ수록」と「-을수록」をそれぞれ検索する必要があります.

ㄹ수록_y0/EC 을수록_y0/EC
면_y6/EC 17例 2) 結果なし
으면_y0/EC 1例 3) 7例 4)

それぞれの組み合わせによる検索の結果は上記の通りとなりました.基本的には前の用言を後ろでもそのまま使うという結果ですが,「보고 있으면 있을수록」ではない例が出てきました.

終わりに

連語の検索については以上です.次は「어절 내 연접(文節内連接)」の検索をどうぞ.

内容に誤りや不正確な部分があれば,ご教示お願いいたします.

1)
例えば「2어절」に設定して「웃을」「수」を検索すると,1文節内に「웃을수」と入力されている例は検索されません.
2)
하면 할수록, 쳐다보면 볼수록, 살면 살수록, 되면 될수록など
3)
보고 있으면 볼수록
4)
떨어져 있으면 있을수록, 먹으면 먹을수록, 무거우면 무거울수록, 많으면 많을수록など
jakle/yonsei/written_2.txt · 最終更新: 2022/04/25 23:29 by yoshi