ユーザ用ツール

サイト用ツール


jakle:sejong:tagged_corpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
jakle:sejong:tagged_corpus [2017/09/11 00:46] – [「&」=AND「かつ」] yoshijakle:sejong:tagged_corpus [2022/04/25 23:28] (現在) yoshi
行 1: 行 1:
 ====== 品詞タグを利用した形態素の検索 ====== ====== 品詞タグを利用した形態素の検索 ======
  
-<WRAP center round important 60%文書現在書きかけです. </WRAP>+<WRAP important>以下項目[[https://okikirmui.github.io/|韓国語コーパスの使い方]]に移行しました.今後更新されません.</WRAP>
  
 ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の形態素解析済みコーパス(형태분석 말뭉치)を検索する方法について紹介します. ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の形態素解析済みコーパス(형태분석 말뭉치)を検索する方法について紹介します.
行 8: 行 8:
  
 まず,品詞タグ((検索時に用いることのできる品詞タグは以下の通り. まず,品詞タグ((検索時に用いることのできる品詞タグは以下の通り.
 +
 ^         品詞          ^  記号         品詞        ^  記号   ^ ^         品詞          ^  記号         品詞        ^  記号   ^
 |        일반명사          NNG  |      고유명사        NNP  | |        일반명사          NNG  |      고유명사        NNP  |
行 31: 行 32:
 |  기타기호(논리수학기호,화폐기호)  |  SW       명사추정범주      |  NF   | |  기타기호(논리수학기호,화폐기호)  |  SW       명사추정범주      |  NF   |
 |       용언추정범주        |  NV         숫자        |  SN   | |       용언추정범주        |  NV         숫자        |  SN   |
-|       분석불능범주        |  NA                   |+|       분석불능범주        |  NA                   |       |
 ))を用いて検索する場合,**基本的に文節を単位とする検索のみ可能**であることに注意しましょう.ある1つの単語もしくは形態素を検索式に入力すると,文節内にその単語・形態素を含む場合しか検索されません.例えば,検索ボックスに ))を用いて検索する場合,**基本的に文節を単位とする検索のみ可能**であることに注意しましょう.ある1つの単語もしくは形態素を検索式に入力すると,文節内にその単語・形態素を含む場合しか検索されません.例えば,検索ボックスに
  
行 49: 行 50:
  
 「고향이」など後ろに助詞が続く例や,場合によっては分かち書きがされていない「내고향」などは検索されません. 「고향이」など後ろに助詞が続く例や,場合によっては分かち書きがされていない「내고향」などは検索されません.
 +
 +==== 品詞タグの入力 ====
 +
 +上記では,品詞タグ(''%%/NNG%%'')まで直接検索ボックスに入力しましたが,品詞タグの記号が分からない場合,検索ダイアログのリストから選んで入力することができます.
 +
 +{{:jakle/tagged_tagging.png| tagged_tagging}}
 +
 +上の検索ダイアログ画像で,赤枠で示した部分のリストから該当する項目を選び,隣の「품사 적용」(品詞適用)ボタンを押します.すると検索ボックスのカーソル位置に,スラッシュ(''%%/%%'')も含めた品詞タグが入力されます.
 +
 +動詞や形容詞などの用言を検索する際には,語幹のみ入力して品詞タグを付ける,という点に注意してください.例えば動詞먹다「食べる」は,''%%먹다/VV%%''ではなく,''%%먹/VV%%''のように入力する必要があります((複数の品詞タグを「品詞適用」ボタンで入力する場合,「품사를 연속으로 적용할 수 없습니다.…」(品詞を連続で適用することはできません)といった警告が表示されることがあります.いろいろ試してみたところ,スラッシュから4文字目以降でないと,品詞タグが適用できないようです.つまり, 
 +
 +  * ''%%이/NP는%%''の末尾…適用不可,警告表示
 +  * ''%%이/NNG는%%''の末尾…適用可能
 +  * ''%%이/NP부터%%''の末尾…適用可能
 +  * ''%%이/NNG부터%%''の末尾…適用可能
 +
 +のように,品詞タグのアルファベットや形態素まで含めて,前のスラッシュから4文字目以降でないと,品詞タグをボタンで入力することはできません(あくまで仮説ですが).ともかく,上記の「適用不可」のケースでは,検索ボックスに直接品詞タグを手入力する必要があります.)).
  
 ===== 演算子を用いた検索 ===== ===== 演算子を用いた検索 =====
行 128: 行 146:
 ===== 字母を指定した検索 ===== ===== 字母を指定した検索 =====
  
-1つの音節内での字母を指定して,検索を行うことができます.1つの音節を''%%[  ]%%''でくくり,''%%[初声,中声,終声]%%''のように,字母をコンマで区切って指定します.''%%[  ]%%''内にスペースは含めません+1つの音節内での字母を指定して,検索を行うことができます(ガイドp.25「5. 가. 어절 검색 5) 자소 검색식」).1つの音節を''%%[  ]%%''でくくり,''%%[初声,中声,終声]%%''のように,字母をコンマで区切って指定します.''%%[  ]%%'',コンマの前後にスペースが入らないようにしてください.ただし,「終声がない」例を検索する場合に限り,「終声」として` `(スペース)を記述することが可能です
  
 なお,字母の代わりに以下のような演算子を用いることができます. なお,字母の代わりに以下のような演算子を用いることができます.
行 137: 行 155:
  
 要するに,''%%?%%''は「1つの字母」を表し,''%%%%%''は「0または1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要があります. 要するに,''%%?%%''は「1つの字母」を表し,''%%%%%''は「0または1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要があります.
- 
-いくつか例を挙げます: 
- 
-  * ''%%[ㄱ,?,ㄴ]%%'':初声はㄱ,中声は何でもよい,終声はㄴ=간, 갠, 갼, 근, ... 
-  * ''%%[?,ㅗ,ㄹ]%%'':初声は何でもよい,中声はㅗ,終声はㄹ=골, 꼴, 놀, 돌, 똘, ... 
-  * ''%%[ㅂ,?,]%%'':初声はㅂ,中声は何でもよい,終声はない=바, 뱌, 배, 뱨, 베, ... 
-  * ''%%[ㅂ,?,%]%%'':初声はㅂ,中声は何でもよい,終声はないか,何でもよい=바, 박, 밖, 보, 봄, 부, 불, ... 
-  * ''%%[ㅂ,?,?]%%'':初声はㅂ,中声は何でもよい,終声は必ずあるが,何でもよい=박, 밖, 봄, 불, 뱀, ... 
- 
-複数を列挙することも可能です: 
- 
-  * ''%%[ㄱ,?,ㅇ][?,?,ㅇ]%%'':강정, 경영, 강장, 강령, 공용, 긍정, ... 
  
 形態素を示す演算子やタグとの併用もできます: 形態素を示す演算子やタグとの併用もできます:
  
-  * ''%%#[?,?,ㄴ]데/EC%%'':0以上の形態素に続く,終声ㄴで終わる音節に데が続く接続形語尾=-는데,-(으)ㄴ데などの接続形語尾を含む活用形 +  * ''%%#[?,?,ㄴ]데/EC%%'':0以上の形態素に続く,終声ㄴで終わる音節に데が続く接続形語尾=接続形語尾-ㄴ데がついた活用形 
-  * ''%%#[ㄹ,?,]/EC%%'':0以上の形態素に続く,初声ㄹで始まる接続形語尾=-라,-러,-려などの接続形語尾を含む活用形+  * ''%%#[ㄹ,?,%]/EC%%'':0以上の形態素に続く,初声ㄹで始まる接続形語尾=-라,-러,-려などの接続形語尾がついた活用形.「初声ㄹで始まる」語尾のみ検索するため,-으러や-으려といった異形態は含まれない
  
 ===== ブーリアン演算子による検索 ===== ===== ブーリアン演算子による検索 =====
行 164: 行 170:
  
 <code> <code>
-절대/MAG&아니/VCN#+절대/MAG&안!#
 </code> </code>
-という検索式は,「절대」という副詞(''%%MAG%%'')が現れた後に,指定(否定の指定詞=''%%VCN%%''아니다」に0以上の形態素がついた文節が現れる例を検索します.+という検索式は,「절대」という副詞(''%%MAG%%'')が現れた後に,指定しない」に0以上の形態素がついた文節が現れる例を検索します.
  
-直後に続く例だけでなく,複数の文節(長い場合は文)をまたいだ検索例が出る点に注意しましょう.できれば文内でおさめたい,という場合には,次の「文節の範囲を指定した検索」や,ピリオドなどの終止符(''%%SF%%'')も含めて''%%절대/MAG&아니/VCN#&-/SF%%''のような検索式を試してみてください+  * 점차 혼자 자는 날을 늘려 나가는데 도중에 아이가 울거나 불안해하더라도 부모는 **//절대// 초조한 빛을 보여선 //안//** 된다. 
 +  * 아무리 배고파도 자기 차례를 기다릴 것, 입안 가득 음식이 들었을 때는 **//절대// 말하지 말 것, 좋아하는 것만 골라 먹거나 싫다고 //안//** 먹지 말 것, 다 먹고 나면 자기가 먹은 쟁반을 지정된 자리에 놓고 나갈 것 등등…. 
 +  * ▴ 알콜 중독자는 환자임을 명심하고 **//절대// 감정적으로 대하지 말라 ▴ 술값 외상을 갚아 주거나 회사에 거짓 핑계로 결근을 알려 주는 일은 절대 피하라 (알콜 중독자의 책임을 대신하지 말라) ▴ 먹고, 자고, 일어나는 것 등 알콜 중독자의 생활을 챙겨주지 말라 ▴ 실수나 비행을 감싸지 말라 ▴ 섣불리 파경의 위기를 만들지 말되 자연스런 파경이라면 피하지 말라 ▴ 알콜 중독자에게 꼬박꼬박 반응해선 //안되지만//** 반대로 너무 무관심한 척해도 상황을 악화하기 쉽다 ▴ 상황이 심각하면 무조건 피하라. 
 + 
 +「文節の検索」の「[[jakle:sejong:raw_corpus#ブーリアン演算子による検索|ブーリアン演算子による検索]]」で説明したように,直後に続く例だけでなく,複数の文節をまたいだ検索例が出る点に注意しましょう.
  
 ==== 「|」=OR「または」 ==== ==== 「|」=OR「または」 ====
行 178: 行 188:
 </code> </code>
 という検索式では,0以上の形態素に補助詞(''%%JX%%'')の-는または-은または縮約形-ㄴがついている文節を検索します. という検索式では,0以上の形態素に補助詞(''%%JX%%'')の-는または-은または縮約形-ㄴがついている文節を検索します.
 +
 +  * 하나 **우리는** 아직 축하의 폭죽을 터뜨리기에는 이른 것 같다.
 +  * 내 **집은** 어디에."
 +  * '공간의 시학'은 어떤 **의미에선** 바슐라르 상상력 이론 체계의 중요한 전환점을 가져온 저작이라 볼 수 있다.
  
 ==== ブーリアン演算子の組み合わせ ==== ==== ブーリアン演算子の組み合わせ ====
  
 ''%%&%%''と''%%|%%''を組み合わせて用いることができます.その場合は,優先順位に応じて''%%()%%''でくくりますが,''%%()%%''でくくった部分が優先されます. ''%%&%%''と''%%|%%''を組み合わせて用いることができます.その場合は,優先順位に応じて''%%()%%''でくくりますが,''%%()%%''でくくった部分が優先されます.
 +
 +例えば
 +
 +<code>
 +(#는/ETM|#ㄴ/ETM|#은/ETM|#ㄹ/ETM|#을/ETM|#던/ETM)&때/NNG#
 +</code>
 +という検索式では,以下のような例が検索されます.
 +
 +  * 이렇게 **볼 때** 종교적 문제가 요인으로 작용했던 것은 2차 기포에 극히 한정됩니다.
 +  * 시민 스스로가 공명하게 대표를 뽑아야 한다는 인식과 실천이 그 어느 때보다도 **중요한 때다**.
 +  * 그것은 영하 14∼15도로 땅이 **얼던 때였다**.
 +  * **//경사진// 곳에 차를 세울 //때//** 주차 브레이크를 당겨놓고 기어를 넣어 둠은 물론, 바퀴에 버팀목을 받치는 등 2중, 3중의 안전 조치를 취해야 한다는 것쯤은 운전사로서 기초 의무에 속하는 일이다.
 +  * 그 가운데 얼굴을 못 알아 **//볼// 만큼, //때묻은//** 사람이 있었다.
 +  * 이번 사고를 보면서 우리가 우선 지적하고 **//싶은// 것은 항상 대형 사고를 겪을 //때마다//** '고질'로 꼽혀온 안전 관리 상의 허점이 전혀 개선되지 않았다는 점이다.
 +  * **//지난// 총선거 //때//** '국회 의원은 기독교인이, 대통령으로 장로가 되어야 한다'고 발언한 개신교 목사가 있었다는 것도 그 점을 깨닫게 한다.
 +  * 24일 광고 **//대행사인// (주)비티가 서울 시민 5백 명을 대상으로 실시한 '선물 행태 조사'에 따르면 조사 대상자의 84.7%가 명절 //때//** 선물을 받은 경험이 있다고 답변했으며, 선물로는 구두 티켓이 89.5%로 가장 많았다.
  
 ===== 文節の範囲を指定した検索 ===== ===== 文節の範囲を指定した検索 =====
行 195: 行 225:
  
 ===== 検索式の例 ===== ===== 検索式の例 =====
 +
 +==== 目的格助詞(JKO)-를/을の右側3文節以内に動詞(VV)가다が来る例 ====
  
 <code> <code>
 (#를/JKO|#을/JKO) @3 가/VV# (#를/JKO|#을/JKO) @3 가/VV#
 </code> </code>
-「目的格助詞(JKO)-/の右側3文節以内に動詞(VV)가다が来る例」 真ん中の「@3」のうち「3」は右側文節数表します.+  * 자동차 지붕 위에 자전거를 서너 대까지 장착하고 일가족이 **여행을 가곤** 한
 +  * 지리산 자락의 대원사에서 **불경을 접하고 해인사로 가** 동산 스님에게 출가한 것이 24세때인 36년. 
 +  * 그 엄마는 자기 아이가 그날 익혀야 할 **것을 배워 가** 방과 후 반복해 가르치는 것이었다. 
 +  * 수도 부다페스트에서 헝가리 초원의 **기마쇼를 보기 위해 가는** 길도 끝 없는 초원의 연속이었다. 
 + 
 +なお例では項目入れ替えて
  
 <code> <code>
-#[?,?,ㄹ]/ETM 만/NNB#+가/VV3@ (#를/JKO|#을/JKO)
 </code> </code>
-「ㄹで終わる連体形語尾(ETM)にスペース一つを空けて,依存名詞(NNB)만0以上の形態素来る例」+とし同じ結果を得ることができます.
  
 +==== ㄹで終わる連体形語尾(ETM)にスペース一つを空けて,依存名詞(NNB)만と0以上の形態素が来る例 ====
 +
 +<code>
 +#[?,?,ㄹ]/ETM 만/NNB#
 +</code>
   * 미LPGA투어 소속 선수 중에서 나이키와 계약하는 '1호' 골퍼라는 점도 **주목할 만하다**.   * 미LPGA투어 소속 선수 중에서 나이키와 계약하는 '1호' 골퍼라는 점도 **주목할 만하다**.
   * 이럴 경우엔 유신의원을 사직하고 지역구 보선에 **출마할 만도** 했다.   * 이럴 경우엔 유신의원을 사직하고 지역구 보선에 **출마할 만도** 했다.
   * '할인'이라고 **이름붙일 만한** 품목은 모조리 없애버린 것이다.   * '할인'이라고 **이름붙일 만한** 품목은 모조리 없애버린 것이다.
 +  * 그런 점에서 예산 편성 과정에서 벌써 정치성 사업을 포함시켰다는 사실은 **비판받을 만하다**.
  
 この例から末尾の「''%%#%%''」を取ると,만の後ろにスペースが来る例だけが検索されます. この例から末尾の「''%%#%%''」を取ると,만の後ろにスペースが来る例だけが検索されます.
行 216: 行 259:
   * 그 활력은 과연 '삶의 예술'이라 **할 만** 하다.   * 그 활력은 과연 '삶의 예술'이라 **할 만** 하다.
  
 +<WRAP center round information 60%> 以下続々追加予定 </WRAP>
 +
 +{{indexmenu_n>42}}
  
jakle/sejong/tagged_corpus.1505058369.txt.gz · 最終更新: 2017/09/11 00:46 by yoshi