ユーザ用ツール

サイト用ツール


jakle:sejong:corpus_calc

検索結果の演算

以下の項目は韓国語コーパスの使い方に移行しました.今後更新されません.

ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画のコーパス検索結果を「연산」(演算)処理で取捨選択する方法について紹介します.

演算の基本

何をおいても,検索結果が表示されていることが前提となります.コーパスを開いただけの状態では,「연산」(演算)メニューがアクティブになっていません.

演算に際しては検索式を入力し,該当する例に対して「검색」(検索),「제외」(除外),「포함」(包含)という処理を行います.検索式は「文節の検索」や「品詞タグを利用した検索」と同じように入力します.

検索式には「文節の検索」や「品詞タグを利用した検索」と同じ演算子を用いることができますが,範囲を指定する@のみ使用できません.

「検索」など処理の内容は以下の通りです.

<HTML> <dl> <dt> </HTML> 검색(検索) <HTML> </dt> <dd> </HTML> 検索結果全体の内容は<html><strong></html>維持したまま<html></strong></html>,検索式にヒットする行をハイライトします. <HTML> </dd> <dt> </HTML> 제외(除外) <HTML> </dt> <dd> </HTML> 検索結果から,検索式にヒットする行を除外します. <HTML> </dd> <dt> </HTML> 포함(包含) <HTML> </dt> <dd> </HTML> 検索結果から,検索式にヒットする行だけを残します. <HTML> </dd> </dl> </HTML> 上記のうち,「除外」と「包含」は何らの確認もなく,元の検索結果に直接影響を及ぼします.望ましい結果が得られるか,「検索」処理で一度確認してから,「除外」や「包含」の処理を行うのがよいでしょう.

演算の実際

検索結果を得る

まず,検索結果を取得します.ここでは例として,형태분석 말뭉치(形態素解析済みコーパス)のうち,BTAA0001.txtから連番のBTAA0016.txtを対象として,以下の検索(形態素検索)を行い動詞가다「行く」の活用形を取得します.

가/VV#

上記の検索により,対象の16ファイルから233文,240個の例が検索されました.

検索結果の処理

次に,上記の検索結果から「検索語の前2文節以内に対格助詞(JKO)のついた文節がある例」を検索します.

「연산」(演算)メニューから「형태소(의미) 연산」(形態素(意味)演算)を選び,検索式に

#를/JKO|#을/JKO

を入力し,「연산 범위」(演算の範囲)の「이전」(以前:前文脈)に「2」,「이후」(以後:後文脈)に「0」を入力して「검색」(検索)ボタンを押します.

演算範囲は文節の数を入力しますが,「以前」「以後」の両方を開けておくか,両方に「0」を入力すると,検索語を対象とすることになります.

 corpus_calc_dialog

すると,40個の例がヒットし,行の背景色が変わり,元の検索結果の先頭部分に表示されます.

corpus_calc_search

演算のダイアログで,「検索」ではなく「除外」を選択すれば40例が削除された結果が残り,「包含」を選択すれば40例だけが結果として残ります.

jakle/sejong/corpus_calc.txt · 最終更新: 2022/04/25 23:28 by yoshi