品詞タグを利用した形態素の検索
ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の形態素解析済みコーパス(형태분석 말뭉치)を検索する方法について紹介します.
検索の基本
まず,品詞タグ1)を用いて検索する場合,基本的に文節を単位とする検索のみ可能であることに注意しましょう.ある1つの単語もしくは形態素を検索式に入力すると,文節内にその単語・形態素を含む場合しか検索されません.例えば,検索ボックスに
고향/NNG
を入力して検索すると,
もしくは
といった,直後に記号が続く例のみ検索されます.
「고향이」など後ろに助詞が続く例や,場合によっては分かち書きがされていない「내고향」などは検索されません.
品詞タグの入力
上記では,品詞タグ(/NNG
)まで直接検索ボックスに入力しましたが,品詞タグの記号が分からない場合,検索ダイアログのリストから選んで入力することができます.
上の検索ダイアログ画像で,赤枠で示した部分のリストから該当する項目を選び,隣の「품사 적용」(品詞適用)ボタンを押します.すると検索ボックスのカーソル位置に,スラッシュ(/
)も含めた品詞タグが入力されます.
動詞や形容詞などの用言を検索する際には,語幹のみ入力して品詞タグを付ける,という点に注意してください.例えば動詞먹다「食べる」は,먹다/VV
ではなく,먹/VV
のように入力する必要があります2).
演算子を用いた検索
「#」=0以上の独立した音節/品詞
#
は,「0以上の独立した音節/品詞」を表します.検索対象の前か後,または前後両方につけると,検索対象以外の要素がついている場合/ついていない場合の両方を検索してくれます.例えば,
고향/NNG#
を検索すると,最初の検索例に加えて,
のように,「『고향/NNG』の後ろに何か続く文節」も検索されます.
また,前にも#
をつけた
#고향/NNG#
を検索すると,さらに
`한국의 맛', `고향의 소리', `고향의 맛'으로 이어지는 일련의 광고 캠페인이 탄생하게 된다.
차를 세우고 마셔본 우물물도 옛고향의 우물맛 그대로였다.
などの例が検索されます.
「-」=1以上の独立した音節/品詞
#
と似た要素に-
がありますが,これは「1以上の独立した音節/品詞」を指すため,検索したい要素の前後に他の形態素を伴う例だけが抽出されます.例えば
-고향/NNG
を検索すると,
のように,文節内で他の要素が前にある例だけが検索され,「고향」だけで成り立つ文節は除外されます.さらに
-고향/NNG-
としてみると,
둘은 한고향에서 온 형제 같은 사이였습니다.
누가 “고향이 어데시오?”
などのように,記号も含め,文節内で前後に他の要素がある例だけが検索されます.
「#」と「-」の組み合わせ
また,#
と-
を組み合わせて,
-고향/NNG#
とすれば,「文節内で普通名詞『고향』の前に他の要素が必ずあり,後ろには他の要素があってもなくてもよい」という,以下のような例が検索されます.
「!」=全ての品詞
上記の検索例では全て「고향/NNG」のように品詞を指定していましたが,代わりに!
を用いることで,全ての品詞を含めることができます.例えば,
제일!
のような検索を行うと,「제일」という語/形態素からなる文節を全て検索します.
注意すべき事項
なお,助詞や語尾だけで成り立つ文節,というものが全くないとは言い切れませんが,通常の場合,体言や用言などがたいていついているものです.そのため,語尾や助詞などの検索においては#
や-
を用いる必要があるでしょう.例えば接続形語尾の-고を検索する場合,고/EC
のような検索式では検索結果が得られません.語尾の前に用言や接尾辞などがつくのは当然なので,#고/EC
のように,語尾の前に#
(または-
)をつけてやる必要があります.
字母を指定した検索
1つの音節内での字母を指定して,検索を行うことができます(ガイドp.25「5. 가. 어절 검색 5) 자소 검색식」).1つの音節を[ ]
でくくり,[初声,中声,終声]
のように,字母をコンマで区切って指定します.[ ]
内,コンマの前後にスペースが入らないようにしてください.ただし,「終声がない」例を検索する場合に限り,「終声」として` `(スペース)を記述することが可能です.
なお,字母の代わりに以下のような演算子を用いることができます.
演算子 | 意味・役割 | 使用可能な箇所 |
? | 何らかの字母が必ずあり,その字母は何でもよい | 初声・中声・終声 |
% | 字母があってもなくてもよい | 終声のみ |
要するに,?
は「1つの字母」を表し,%
は「0または1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要があります.
形態素を示す演算子やタグとの併用もできます:
#[?,?,ㄴ]데/EC
:0以上の形態素に続く,終声ㄴで終わる音節に데が続く接続形語尾=接続形語尾-ㄴ데がついた活用形
#[ㄹ,?,%]/EC
:0以上の形態素に続く,初声ㄹで始まる接続形語尾=-라,-러,-려などの接続形語尾がついた活用形.「初声ㄹで始まる」語尾のみ検索するため,-으러や-으려といった異形態は含まれない
ブーリアン演算子による検索
「文節の検索」の「ブーリアン演算子による検索」で説明した演算子,&
(「AでありかつB」,AND)と|
(「AまたはB」,OR)を用いることも可能です.
「&」=AND「かつ」
A&B
のように記述し,項目Aの後ろに項目Bが現れる例を検索します.例えば
절대/MAG&안!#
という検索式は,「절대」という副詞(MAG
)が現れた後に,品詞を指定しない「안」に0以上の形態素がついた文節が現れる例を検索します.
점차 혼자 자는 날을 늘려 나가는데 도중에 아이가 울거나 불안해하더라도 부모는 절대 초조한 빛을 보여선 안 된다.
아무리 배고파도 자기 차례를 기다릴 것, 입안 가득 음식이 들었을 때는 절대 말하지 말 것, 좋아하는 것만 골라 먹거나 싫다고 안 먹지 말 것, 다 먹고 나면 자기가 먹은 쟁반을 지정된 자리에 놓고 나갈 것 등등….
▴ 알콜 중독자는 환자임을 명심하고 절대 감정적으로 대하지 말라 ▴ 술값 외상을 갚아 주거나 회사에 거짓 핑계로 결근을 알려 주는 일은 절대 피하라 (알콜 중독자의 책임을 대신하지 말라) ▴ 먹고, 자고, 일어나는 것 등 알콜 중독자의 생활을 챙겨주지 말라 ▴ 실수나 비행을 감싸지 말라 ▴ 섣불리 파경의 위기를 만들지 말되 자연스런 파경이라면 피하지 말라 ▴ 알콜 중독자에게 꼬박꼬박 반응해선 안되지만 반대로 너무 무관심한 척해도 상황을 악화하기 쉽다 ▴ 상황이 심각하면 무조건 피하라.
「文節の検索」の「ブーリアン演算子による検索」で説明したように,直後に続く例だけでなく,複数の文節をまたいだ検索例が出る点に注意しましょう.
「|」=OR「または」
A|B
のように記述し,項目Aか項目Bが現れる例を検索します.助詞の異形態などを一括して検索する場合に有効です.例えば
(#는/JX|#은/JX|#ㄴ/JX)
という検索式では,0以上の形態素に補助詞(JX
)の-는または-은または縮約形-ㄴがついている文節を検索します.
ブーリアン演算子の組み合わせ
&
と|
を組み合わせて用いることができます.その場合は,優先順位に応じて()
でくくりますが,()
でくくった部分が優先されます.
例えば
(#는/ETM|#ㄴ/ETM|#은/ETM|#ㄹ/ETM|#을/ETM|#던/ETM)&때/NNG#
という検索式では,以下のような例が検索されます.
이렇게 볼 때 종교적 문제가 요인으로 작용했던 것은 2차 기포에 극히 한정됩니다.
시민 스스로가 공명하게 대표를 뽑아야 한다는 인식과 실천이 그 어느 때보다도 중요한 때다.
그것은 영하 14∼15도로 땅이 얼던 때였다.
경사진 곳에 차를 세울 때 주차 브레이크를 당겨놓고 기어를 넣어 둠은 물론, 바퀴에 버팀목을 받치는 등 2중, 3중의 안전 조치를 취해야 한다는 것쯤은 운전사로서 기초 의무에 속하는 일이다.
그 가운데 얼굴을 못 알아 볼 만큼, 때묻은 사람이 있었다.
이번 사고를 보면서 우리가 우선 지적하고 싶은 것은 항상 대형 사고를 겪을 때마다 '고질'로 꼽혀온 안전 관리 상의 허점이 전혀 개선되지 않았다는 점이다.
지난 총선거 때 '국회 의원은 기독교인이, 대통령으로 장로가 되어야 한다'고 발언한 개신교 목사가 있었다는 것도 그 점을 깨닫게 한다.
24일 광고 대행사인 (주)비티가 서울 시민 5백 명을 대상으로 실시한 '선물 행태 조사'에 따르면 조사 대상자의 84.7%가 명절 때 선물을 받은 경험이 있다고 답변했으며, 선물로는 구두 티켓이 89.5%로 가장 많았다.
文節の範囲を指定した検索
「文節の検索」の「文節の範囲を指定した検索」で説明した@
を用いることも可能です.
ある項目Aを基準として,その前後の範囲を文節数で指定し,指定した範囲内に項目Bが現れる,というような検索を行うことができます.範囲の指定には@
を用い,@
の前後に,検索の範囲として指定する文節数を数字で記述します.例えば,項目Aの前(=左側)3文節以内か,後ろ(=右側)2文節以内に項目Bが現れる,という検索を行う場合は,
項目A 3@2 項目B
のような検索式を書きます.項目Aと範囲指定の式,項目Bの間には,それぞれスペースが必要です.範囲指定の数に0を指定すると,そちら側の範囲は除外されます.例えば3@0
であれば,基準とする項目の前3文節だけが範囲として指定されます.0の代わりに数字を省略して,3@
としても同じです.
検索式の例
目的格助詞(JKO)-를/을の右側3文節以内に動詞(VV)가다が来る例
(#를/JKO|#을/JKO) @3 가/VV#
자동차 지붕 위에 자전거를 서너 대까지 장착하고 일가족이 여행을 가곤 한다.
지리산 자락의 대원사에서 불경을 접하고 해인사로 가 동산 스님에게 출가한 것이 24세때인 36년.
그 엄마는 자기 아이가 그날 익혀야 할 것을 배워 가 방과 후 반복해 가르치는 것이었다.
수도 부다페스트에서 헝가리 초원의 기마쇼를 보기 위해 가는 길도 끝 없는 초원의 연속이었다.
なお,この例では項目を入れ替えて
가/VV# 3@ (#를/JKO|#을/JKO)
としても,同じ結果を得ることができます.
ㄹで終わる連体形語尾(ETM)にスペース一つを空けて,依存名詞(NNB)만と0以上の形態素が来る例
#[?,?,ㄹ]/ETM 만/NNB#
미LPGA투어 소속 선수 중에서 나이키와 계약하는 '1호' 골퍼라는 점도 주목할 만하다.
이럴 경우엔 유신의원을 사직하고 지역구 보선에 출마할 만도 했다.
'할인'이라고 이름붙일 만한 품목은 모조리 없애버린 것이다.
그런 점에서 예산 편성 과정에서 벌써 정치성 사업을 포함시켰다는 사실은 비판받을 만하다.
この例から末尾の「#
」を取ると,만の後ろにスペースが来る例だけが検索されます.