jakle:sejong:tagged_corpus
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
jakle:sejong:tagged_corpus [2017/09/11 00:32] – yoshi | jakle:sejong:tagged_corpus [2022/04/25 23:28] (現在) – yoshi | ||
---|---|---|---|
行 1: | 行 1: | ||
====== 品詞タグを利用した形態素の検索 ====== | ====== 品詞タグを利用した形態素の検索 ====== | ||
- | < | + | <WRAP important> |
+ | |||
+ | ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の形態素解析済みコーパス(형태분석 말뭉치)を検索する方法について紹介します. | ||
+ | |||
+ | ===== 検索の基本 ===== | ||
+ | |||
+ | まず,品詞タグ((検索時に用いることのできる品詞タグは以下の通り. | ||
+ | |||
+ | ^ | ||
+ | | 일반명사 | ||
+ | | 의존명사 | ||
+ | | | ||
+ | | | ||
+ | | 긍정지정사 | ||
+ | | | ||
+ | | 접속부사 | ||
+ | | 주격조사 | ||
+ | | 관형격조사 | ||
+ | | 부사격조사 | ||
+ | | 인용격조사 | ||
+ | | 접속조사 | ||
+ | | 종결어미 | ||
+ | | | ||
+ | | 체언접두사 | ||
+ | | | ||
+ | | | ||
+ | | 쉼표, | ||
+ | | | ||
+ | | | ||
+ | | 기타기호(논리수학기호, | ||
+ | | | ||
+ | | | ||
+ | ))を用いて検索する場合,**基本的に文節を単位とする検索のみ可能**であることに注意しましょう.ある1つの単語もしくは形態素を検索式に入力すると,文節内にその単語・形態素を含む場合しか検索されません.例えば,検索ボックスに | ||
+ | |||
+ | < | ||
+ | 고향/ | ||
+ | </ | ||
+ | を入力して検索すると, | ||
+ | |||
+ | * 흑수말갈의 **고향** 바다에 연해 있다고 하여 | ||
+ | * 나는 **고향** 집 앞마당에 있는 감나무와 살구나무를 떠올려보고 | ||
+ | |||
+ | もしくは | ||
+ | |||
+ | * 시는 모든 예술의 **고향**/ | ||
+ | |||
+ | といった,直後に記号が続く例のみ検索されます. | ||
+ | |||
+ | 「고향이」など後ろに助詞が続く例や,場合によっては分かち書きがされていない「내고향」などは検索されません. | ||
+ | |||
+ | ==== 品詞タグの入力 ==== | ||
+ | |||
+ | 上記では,品詞タグ('' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | 上の検索ダイアログ画像で,赤枠で示した部分のリストから該当する項目を選び,隣の「품사 적용」(品詞適用)ボタンを押します.すると検索ボックスのカーソル位置に,スラッシュ('' | ||
+ | |||
+ | 動詞や形容詞などの用言を検索する際には,語幹のみ入力して品詞タグを付ける,という点に注意してください.例えば動詞먹다「食べる」は,'' | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | のように,品詞タグのアルファベットや形態素まで含めて,前のスラッシュから4文字目以降でないと,品詞タグをボタンで入力することはできません(あくまで仮説ですが).ともかく,上記の「適用不可」のケースでは,検索ボックスに直接品詞タグを手入力する必要があります.)). | ||
+ | |||
+ | ===== 演算子を用いた検索 ===== | ||
+ | |||
+ | ==== 「# | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | 고향/ | ||
+ | </ | ||
+ | を検索すると,最初の検索例に加えて, | ||
+ | |||
+ | * 그들의 **고향은** 언제나 현재 머물러 있는 곳이다. | ||
+ | * 싸릿대 얽어 만든 울타리와 사립문도 모두 다 바뀌어 버린 낯선 **고향집**. | ||
+ | |||
+ | のように,「『고향/ | ||
+ | |||
+ | また,前にも'' | ||
+ | |||
+ | < | ||
+ | # | ||
+ | </ | ||
+ | を検索すると,さらに | ||
+ | |||
+ | * `한국의 맛', **`고향의** 소리', | ||
+ | * 차를 세우고 마셔본 우물물도 **옛고향의** 우물맛 그대로였다. | ||
+ | |||
+ | などの例が検索されます. | ||
+ | |||
+ | ==== 「-」=1以上の独立した音節/品詞 ==== | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | -고향/ | ||
+ | </ | ||
+ | を検索すると, | ||
+ | |||
+ | * 마음은 **제고향** 지니지 않고 | ||
+ | |||
+ | のように,文節内で他の要素が前にある例だけが検索され,「고향」だけで成り立つ文節は除外されます.さらに | ||
+ | |||
+ | < | ||
+ | -고향/ | ||
+ | </ | ||
+ | としてみると, | ||
+ | |||
+ | * 둘은 **한고향에서** 온 형제 같은 사이였습니다. | ||
+ | * 누가 **" | ||
+ | |||
+ | などのように,記号も含め,文節内で前後に他の要素がある例だけが検索されます. | ||
+ | |||
+ | ==== 「# | ||
+ | |||
+ | また,'' | ||
+ | |||
+ | < | ||
+ | -고향/ | ||
+ | </ | ||
+ | とすれば,「文節内で普通名詞『고향』の前に他の要素が**必ずあり**,後ろには他の要素が**あってもなくてもよい**」という,以下のような例が検索されます. | ||
+ | |||
+ | * 파충류의 위협을 피하여 **옛고향인** 물 속으로 다시 들어가 | ||
+ | * 대표곡 **' | ||
+ | |||
+ | ==== 「!」=全ての品詞 ==== | ||
+ | |||
+ | 上記の検索例では全て「고향/// | ||
+ | |||
+ | < | ||
+ | 제일! | ||
+ | </ | ||
+ | のような検索を行うと,「제일」という語/形態素からなる文節を全て検索します. | ||
+ | |||
+ | ==== 注意すべき事項 ==== | ||
+ | |||
+ | なお,助詞や語尾だけで成り立つ文節,というものが全くないとは言い切れませんが,通常の場合,体言や用言などがたいていついているものです.そのため,語尾や助詞などの検索においては'' | ||
+ | |||
+ | ===== 字母を指定した検索 ===== | ||
+ | |||
+ | 1つの音節内での字母を指定して,検索を行うことができます(ガイドp.25「5. 가. 어절 검색 5) 자소 검색식」).1つの音節を'' | ||
+ | |||
+ | なお,字母の代わりに以下のような演算子を用いることができます. | ||
+ | |||
+ | ^ 演算子 | ||
+ | | ? | ||
+ | | | ||
+ | |||
+ | 要するに,'' | ||
+ | |||
+ | 形態素を示す演算子やタグとの併用もできます: | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | ===== ブーリアン演算子による検索 ===== | ||
+ | |||
+ | 「文節の検索」の「[[jakle: | ||
+ | |||
+ | ==== 「& | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | 절대/ | ||
+ | </ | ||
+ | という検索式は,「절대」という副詞('' | ||
+ | |||
+ | * 점차 혼자 자는 날을 늘려 나가는데 도중에 아이가 울거나 불안해하더라도 부모는 **// | ||
+ | * 아무리 배고파도 자기 차례를 기다릴 것, 입안 가득 음식이 들었을 때는 **// | ||
+ | * ▴ 알콜 중독자는 환자임을 명심하고 **// | ||
+ | |||
+ | 「文節の検索」の「[[jakle: | ||
+ | |||
+ | ==== 「|」=OR「または」 ==== | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | (# | ||
+ | </ | ||
+ | という検索式では,0以上の形態素に補助詞('' | ||
+ | |||
+ | * 하나 **우리는** 아직 축하의 폭죽을 터뜨리기에는 이른 것 같다. | ||
+ | * 내 **집은** 어디에." | ||
+ | * ' | ||
+ | |||
+ | ==== ブーリアン演算子の組み合わせ ==== | ||
+ | |||
+ | '' | ||
+ | |||
+ | 例えば | ||
+ | |||
+ | < | ||
+ | (# | ||
+ | </ | ||
+ | という検索式では,以下のような例が検索されます. | ||
+ | |||
+ | * 이렇게 **볼 때** 종교적 문제가 요인으로 작용했던 것은 2차 기포에 극히 한정됩니다. | ||
+ | * 시민 스스로가 공명하게 대표를 뽑아야 한다는 인식과 실천이 그 어느 때보다도 **중요한 때다**. | ||
+ | * 그것은 영하 14∼15도로 땅이 **얼던 때였다**. | ||
+ | * **// | ||
+ | * 그 가운데 얼굴을 못 알아 **//볼// 만큼, // | ||
+ | * 이번 사고를 보면서 우리가 우선 지적하고 **// | ||
+ | * **// | ||
+ | * 24일 광고 **// | ||
+ | |||
+ | ===== 文節の範囲を指定した検索 ===== | ||
+ | |||
+ | 「文節の検索」の「[[jakle: | ||
+ | |||
+ | ある項目Aを基準として,その前後の範囲を文節数で指定し,指定した範囲内に項目Bが現れる,というような検索を行うことができます.範囲の指定には'' | ||
+ | |||
+ | < | ||
+ | 項目A 3@2 項目B | ||
+ | </ | ||
+ | のような検索式を書きます.項目Aと範囲指定の式,項目Bの間には,それぞれスペースが必要です.範囲指定の数に0を指定すると,そちら側の範囲は除外されます.例えば'' | ||
+ | |||
+ | ===== 検索式の例 ===== | ||
+ | |||
+ | ==== 目的格助詞(JKO)-를/ | ||
+ | |||
+ | <code> | ||
+ | (#를/JKO|# | ||
+ | </ | ||
+ | * 자동차 지붕 위에 자전거를 서너 대까지 장착하고 일가족이 **여행을 가곤** 한다. | ||
+ | * 지리산 자락의 대원사에서 **불경을 접하고 해인사로 가** 동산 스님에게 출가한 것이 24세때인 36년. | ||
+ | * 그 엄마는 자기 아이가 그날 익혀야 할 **것을 배워 가** 방과 후 반복해 가르치는 것이었다. | ||
+ | * 수도 부다페스트에서 헝가리 초원의 **기마쇼를 보기 위해 가는** 길도 끝 없는 초원의 연속이었다. | ||
+ | |||
+ | なお,この例では項目を入れ替えて | ||
+ | |||
+ | < | ||
+ | 가/VV# 3@ (# | ||
+ | </ | ||
+ | としても,同じ結果を得ることができます. | ||
+ | |||
+ | ==== ㄹで終わる連体形語尾(ETM)にスペース一つを空けて,依存名詞(NNB)만と0以上の形態素が来る例 ==== | ||
+ | |||
+ | < | ||
+ | # | ||
+ | </ | ||
+ | * 미LPGA투어 소속 선수 중에서 나이키와 계약하는 ' | ||
+ | * 이럴 경우엔 유신의원을 사직하고 지역구 보선에 **출마할 만도** 했다. | ||
+ | * ' | ||
+ | * 그런 점에서 예산 편성 과정에서 벌써 정치성 사업을 포함시켰다는 사실은 **비판받을 만하다**. | ||
+ | |||
+ | この例から末尾の「'' | ||
+ | |||
+ | * 충남 내륙-서해안-저수지 얕은 곳 **노려볼 만** | ||
+ | * ' | ||
+ | * 그 활력은 과연 ' | ||
+ | |||
+ | <WRAP center round information 60%> 以下続々追加予定 </ | ||
+ | |||
+ | {{indexmenu_n>42}} | ||
jakle/sejong/tagged_corpus.1505057520.txt.gz · 最終更新: 2017/09/11 00:32 by yoshi