ユーザ用ツール

サイト用ツール


jakle:sejong:tagged_corpus

文書の過去の版を表示しています。


品詞タグを利用した形態素の検索

この文書は現在書きかけです.

ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の形態素解析済みコーパス(형태분석 말뭉치)を検索する方法について紹介します.

検索の基本

まず,品詞タグ1)を用いて検索する場合,基本的に文節を単位とする検索のみ可能であることに注意しましょう.ある1つの単語もしくは形態素を検索式に入力すると,文節内にその単語・形態素を含む場合しか検索されません.例えば,検索ボックスに

고향/NNG

を入力して検索すると,

  • 흑수말갈의 고향 바다에 연해 있다고 하여
  • 나는 고향 집 앞마당에 있는 감나무와 살구나무를 떠올려보고

もしくは

  • 시는 모든 예술의 고향/홍신자 외 지음 문학사상사

といった,直後に記号が続く例のみ検索されます.

「고향이」など後ろに助詞が続く例や,場合によっては分かち書きがされていない「내고향」などは検索されません.

演算子を用いた検索

#=0以上の独立した音節/品詞

#は,「0以上の独立した音節/品詞」を表します.検索対象の前か後,または前後両方につけると,検索対象以外の要素がついている場合/ついていない場合の両方を検索してくれます.例えば,

고향/NNG#

を検索すると,最初の検索例に加えて,

  • 그들의 고향은 언제나 현재 머물러 있는 곳이다.
  • 싸릿대 얽어 만든 울타리와 사립문도 모두 다 바뀌어 버린 낯선 고향집.

のように,「『고향/NNG』の後ろに何か続く文節」も検索されます.

また,前にも#をつけた

#고향/NNG#

を検索すると,さらに

  • `한국의 맛', `고향의 소리', `고향의 맛'으로 이어지는 일련의 광고 캠페인이 탄생하게 된다.
  • 차를 세우고 마셔본 우물물도 옛고향의 우물맛 그대로였다.

などの例が検索されます.

-=1以上の独立した音節/品詞

#と似た要素に-がありますが,これは「1以上の独立した音節/品詞」を指すため,検索したい要素の前後に他の形態素を伴う例だけが抽出されます.例えば

-고향/NNG

を検索すると,

  • 마음은 제고향 지니지 않고

のように,文節内で他の要素が前にある例だけが検索され,「고향」だけで成り立つ文節は除外されます.さらに

-고향/NNG-

としてみると,

  • 둘은 한고향에서 온 형제 같은 사이였습니다.
  • 누가 “고향이 어데시오?”

などのように,記号も含め,文節内で前後に他の要素がある例だけが検索されます.

#と-の組み合わせ

また,#-を組み合わせて,

-고향/NNG#

とすれば,「文節内で普通名詞『고향』の前に他の要素が必ずあり,後ろには他の要素があってもなくてもよい」という,以下のような例が検索されます.

  • 파충류의 위협을 피하여 옛고향인 물 속으로 다시 들어가
  • 대표곡 '내고향 마산항'을 새겨넣은 것이다.

!=全ての品詞

上記の検索例では全て「고향/NNG」のように品詞を指定していましたが,代わりに!を用いることで,全ての品詞を含めることができます.例えば,

제일!

のような検索を行うと,「제일」という語/形態素からなる文節を全て検索します.

?? #/VV -/NNG のような使い方可能か?

注意すべき事項

なお,助詞や語尾だけで成り立つ文節,というものが全くないとは言い切れませんが,通常の場合,体言や用言などがたいていついているものです.そのため,語尾や助詞などの検索においては#-を用いる必要があるでしょう.例えば接続形語尾の-고を検索する場合,고/ECのような検索式では検索結果が得られません.語尾の前に用言や接尾辞などがつくのは当然なので,#고/ECのように,語尾の前に#(または-)をつけてやる必要があります.

字母を指定した検索

1つの音節内での字母を指定して,検索を行うことができます.1つの音節を[ ]でくくり,[初声,中声,終声]のように,字母をコンマで区切って指定します.[ ]内にスペースは含めません.

なお,字母の代わりに以下のような演算子を用いることができます.

演算子 意味・役割 使用可能な箇所
? 何らかの字母が必ずあり,その字母は何でもよい 初声・中声・終声
% 字母があってもなくてもよい 終声のみ

要するに,?は「1つの字母」を表し,%は「0または1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要があります.

いくつか例を挙げます:

  • [ㄱ,?,ㄴ]:初声はㄱ,中声は何でもよい,終声はㄴ=간, 갠, 갼, 근, …
  • [?,ㅗ,ㄹ]:初声は何でもよい,中声はㅗ,終声はㄹ=골, 꼴, 놀, 돌, 똘, …
  • [ㅂ,?,]:初声はㅂ,中声は何でもよい,終声はない=바, 뱌, 배, 뱨, 베, …
  • [ㅂ,?,%]:初声はㅂ,中声は何でもよい,終声はないか,何でもよい=바, 박, 밖, 보, 봄, 부, 불, …
  • [ㅂ,?,?]:初声はㅂ,中声は何でもよい,終声は必ずあるが,何でもよい=박, 밖, 봄, 불, 뱀, …

複数を列挙することも可能です:

  • [ㄱ,?,ㅇ][?,?,ㅇ]:강정, 경영, 강장, 강령, 공용, 긍정, …

形態素を示す演算子やタグとの併用もできます:

  • #[?,?,ㄴ]데/EC:0以上の形態素に続く,終声ㄴで終わる音節に데が続く接続形語尾=-는데,-(으)ㄴ데などの接続形語尾を含む活用形
  • #[ㄹ,?,]/EC:0以上の形態素に続く,初声ㄹで始まる接続形語尾=-라,-러,-려などの接続形語尾を含む活用形

ブーリアン演算子による検索

「文節の検索」の「ブーリアン演算子による検索」で説明した演算子,&(「AでありかつB」,AND)と|(「AまたはB」,OR)を用いることも可能です.

&=AND「かつ」

A&Bのように記述し,項目Aの後ろに項目Bが現れる例を検索します.例えば

절대/MAG&아니/VCN#

という検索式は,「절대」という副詞(MAG)が現れた後に,指定詞(否定の指定詞=VCN)「아니다」に0以上の形態素がついた文節が現れる例を検索します.

??例

上記のように,直後に続く例だけでなく,複数の文節(長い場合は文)をまたいだ検索例が出る点に注意しましょう.できれば文内でおさめたい,という場合には,次の「文節の範囲を指定した検索」や,ピリオドなどの終止符(SF)も含めて절대/MAG&아니/VCN#&-/SFのような検索式を試してみてください.

|=OR「または」

A|Bのように記述し,項目Aか項目Bが現れる例を検索します.助詞の異形態などを一括して検索する場合に有効です.例えば

(#는/JX|#은/JX|#ㄴ/JX)

という検索式では,0以上の形態素に補助詞(JX)の-는または-은または縮約形-ㄴがついている文節を検索します.

ブーリアン演算子の組み合わせ

&|を組み合わせて用いることができます.その場合は,優先順位に応じて()でくくりますが,()でくくった部分が優先されます.

文節の範囲を指定した検索

「文節の検索」の「文節の範囲を指定した検索」で説明した@を用いることも可能です.

ある項目Aを基準として,その前後の範囲を文節数で指定し,指定した範囲内に項目Bが現れる,というような検索を行うことができます.範囲の指定には@を用い,@の前後に,検索の範囲として指定する文節数を数字で記述します.例えば,項目Aの前(=左側)3文節以内か,後ろ(=右側)2文節以内に項目Bが現れる,という検索を行う場合は,

項目A 3@2 項目B

のような検索式を書きます.項目Aと範囲指定の式,項目Bの間には,それぞれスペースが必要です.範囲指定の数に0を指定すると,そちら側の範囲は除外されます.例えば3@0であれば,基準とする項目の前3文節だけが範囲として指定されます.0の代わりに数字を省略して,3@としても同じです.

検索式の例

(#를/JKO|#을/JKO) @3 가/VV#

「目的格助詞(JKO)-를/을の右側3文節以内に動詞(VV)가다が来る例」 真ん中の「@3」のうち「3」は,右側の文節数を表します.

#[?,?,ㄹ]/ETM 만/NNB#

「ㄹで終わる連体形語尾(ETM)にスペース一つを空けて,依存名詞(NNB)만と0以上の形態素が来る例」

  • 미LPGA투어 소속 선수 중에서 나이키와 계약하는 '1호' 골퍼라는 점도 주목할 만하다.
  • 이럴 경우엔 유신의원을 사직하고 지역구 보선에 출마할 만도 했다.
  • '할인'이라고 이름붙일 만한 품목은 모조리 없애버린 것이다.

この例から末尾の「#」を取ると,만の後ろにスペースが来る例だけが検索されます.

  • 충남 내륙-서해안-저수지 얕은 곳 노려볼 만
  • '디자인의 시대'라고도 불리는 21세기에 이 책은 문화 산업과 마케팅 등에 관심을 갖고있는 독자들에게 안내서로 적극 추천할 만 하다.
  • 그 활력은 과연 '삶의 예술'이라 할 만 하다.
品詞 記号 品詞 記号
일반명사 NNG 고유명사 NNP
의존명사 NNB 대명사 NP
수사 NR 동사 VV
형용사 VA 보조용언 VX
긍정지정사 VCP 부정지정사 VCN
관형사 MM 일반부사 MAG
접속부사 MAJ 감탄사 IC
주격조사 JKS 보격조사 JKC
관형격조사 JKG 목적격조사 JKO
부사격조사 JKB 호격조사 JKV
인용격조사 JKQ 보조사 JX
접속조사 JC 선어말어미 EP
종결어미 EF 연결어미 EC
명사형전성어미 ETN 관형형전성어미 ETM
체언접두사 XPN 명사파생접미사 XSN
동사파생접미사 XSV 형용사파생접미사 XSA
어근 XR 마침표,물음표,느낌표 SF
쉼표,가운뎃점,콜론,빗금 SP 따옴표,괄호표,줄표 SS
줄임표 SE 붙임표(물결,숨김,빠짐) SO
외국어 SL 한자 SH
기타기호(논리수학기호,화폐기호) SW 명사추정범주 NF
용언추정범주 NV 숫자 SN
분석불능범주 NA
1)
検索時に用いることのできる品詞タグは以下の通り.
jakle/sejong/tagged_corpus.1505057121.txt.gz · 最終更新: 2017/09/11 00:25 by 127.0.0.1