ユーザ用ツール

サイト用ツール


jakle:sejong:raw_corpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
jakle:sejong:raw_corpus [2017/09/07 22:29] yoshijakle:sejong:raw_corpus [2022/04/25 23:28] (現在) yoshi
行 1: 行 1:
 ====== 文節の検索 ====== ====== 文節の検索 ======
 +
 +<WRAP important>以下の項目は[[https://okikirmui.github.io/|韓国語コーパスの使い方]]に移行しました.今後更新されません.</WRAP>
  
 ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します. ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します.
行 50: 行 52:
 ??그룹 ??그룹
 </code> </code>
- 
 は「그룹の前に2音節ある文節」を指し, は「그룹の前に2音節ある文節」を指し,
  
行 246: 行 247:
 > どちらの演算子も,前後に空白(スペース)を入れてはいけません. > どちらの演算子も,前後に空白(スペース)を入れてはいけません.
  
-#### 「&」=AND・論理積+=== 「&」=AND・論理積 ===
  
 前後の項目が同時に現れる例を検索します.例えば 前後の項目が同時に現れる例を検索します.例えば
行 259: 行 260:
 のように「가장」に続いて「많은」が出現する例だけでなく, のように「가장」に続いて「많은」が出現する例だけでなく,
  
-  * 다임러 벤츠(daimler benz) 그룹은 독일에서 **가장 규모가 큰 제조업체다. 이같은 강점 외에도 다임러 벤츠는 세계 최고급 자동차 브랜드인 메르세데스 벤츠를 가지고 있다. 이쯤 되면 많은** 사람들은 다임러가 돈을 긁어모으고 있다고 생각할 법하다. +  * 다임러 벤츠(daimler benz) 그룹은 독일에서 **//가장// 규모가 큰 제조업체다. 이같은 강점 외에도 다임러 벤츠는 세계 최고급 자동차 브랜드인 메르세데스 벤츠를 가지고 있다. 이쯤 되면 //많은//** 사람들은 다임러가 돈을 긁어모으고 있다고 생각할 법하다. 
-  * 그러나 **가장 중요한 것은 - 그리고 안데스의 농민을 소문난 존재로 만든 것은 - 그들이 활용하고 가꾸는 식물들의 엄청나게 다양한 종류이다. 농부들은 식물들의 다양성과 다채로움을 수단으로 하여 다양하고 변화무쌍한 기후와 대화를 나누고 선물을 주고받는다. 예를 들어, 농부들이 건조한 해에 대비하여 좀더 고지대의 밭에 농작물을 심을 때 그들은 그 차크라속에서 어떤 식물들이 예상되는 가뭄에 특히 잘 적응하는 것인지를 안다. 이러한 식물들 덕분에 그 해의 수확은 보다 비가 많은** 계절의 수확과 거의 맞먹는 것으로 된다.+  * 그러나 **//가장// 중요한 것은 - 그리고 안데스의 농민을 소문난 존재로 만든 것은 - 그들이 활용하고 가꾸는 식물들의 엄청나게 다양한 종류이다. 농부들은 식물들의 다양성과 다채로움을 수단으로 하여 다양하고 변화무쌍한 기후와 대화를 나누고 선물을 주고받는다. 예를 들어, 농부들이 건조한 해에 대비하여 좀더 고지대의 밭에 농작물을 심을 때 그들은 그 차크라속에서 어떤 식물들이 예상되는 가뭄에 특히 잘 적응하는 것인지를 안다. 이러한 식물들 덕분에 그 해의 수확은 보다 비가 //많은//** 계절의 수확과 거의 맞먹는 것으로 된다.
  
 など,文をまたがった場合も含めて,「가장」の後に「많은」が出現する例を検索します.検索される項目の順序は,並べる順序に準じます.そのため,上記の検索式では「많은」の後に「가장」が出現する例は該当しません. など,文をまたがった場合も含めて,「가장」の後に「많은」が出現する例を検索します.検索される項目の順序は,並べる順序に準じます.そのため,上記の検索式では「많은」の後に「가장」が出現する例は該当しません.
行 286: 行 287:
 という検索式(「한테の前に0以上の音節があり,後ろに1つの音節がある文節」の後ろに「미스」という文節が現れる)で検索される以下の例 という検索式(「한테の前に0以上の音節があり,後ろに1つの音節がある文節」の後ろに「미스」という文節が現れる)で検索される以下の例
  
-  * **아무한테나 살살 눈웃음치는 미스** 리? 아니면, 호젓한 카페에서 시집 읽을 때가 제일 행복해요, 하는 //미스// 박? 시집이나 갈 일이지, 그 여자 시라는 게 뭔지나 알고 그럴까, 참. 어쨌거나 그런 폼 잡는 //미스// 박은 아무래도 이런 건 우습달 거고, 그렇다고 화장이라면 몰라도 이런 고상한 취밀 //미스// 리가 가지고 있을 법하지도 않은데, 더구나 //미스// 리 타자 솜씨라고는 상상이 안 되거든.+  * **//아무한테나// 살살 눈웃음치는 //미스//** 리? 아니면, 호젓한 카페에서 시집 읽을 때가 제일 행복해요, 하는 //미스// 박? 시집이나 갈 일이지, 그 여자 시라는 게 뭔지나 알고 그럴까, 참. 어쨌거나 그런 폼 잡는 //미스// 박은 아무래도 이런 건 우습달 거고, 그렇다고 화장이라면 몰라도 이런 고상한 취밀 //미스// 리가 가지고 있을 법하지도 않은데, 더구나 //미스// 리 타자 솜씨라고는 상상이 안 되거든.
  
 では,最初の「아무한테나」以降,「미스」という文節が複数現れますが,検索にマッチするのは太字で示している,最初の「미스」までです. では,最初の「아무한테나」以降,「미스」という文節が複数現れますが,検索にマッチするのは太字で示している,最初の「미스」までです.
行 320: 行 321:
   * "초콜릿을주고받는 밸런타인 데이 때는 난리법석인데 전래 민속놀이가 **가장 많은** 명절과 정월 대보름날 축제는 점차 밀려나고 있습니다.   * "초콜릿을주고받는 밸런타인 데이 때는 난리법석인데 전래 민속놀이가 **가장 많은** 명절과 정월 대보름날 축제는 점차 밀려나고 있습니다.
   * 이렇게 한 장씩 빼어던지는 지편은 일정한 규칙에 따라, 그 중 **제일 많은** 끗수를 낸 사람이 다른 석 장을 먹게 되는데, 그 4매 1조를 ‘한(一)수’라 하고, 네 사람 중 가장 여러 수를 먹은 사람이 이기게 된다.   * 이렇게 한 장씩 빼어던지는 지편은 일정한 규칙에 따라, 그 중 **제일 많은** 끗수를 낸 사람이 다른 석 장을 먹게 되는데, 그 4매 1조를 ‘한(一)수’라 하고, 네 사람 중 가장 여러 수를 먹은 사람이 이기게 된다.
-  * **가장 두드러진 것은 핸드폰. 폴더형이 보편화하면서 삼성·엘지·현대 등 각사가 출시하는 제품들이 하루가 다르게 무게와 부피가 줄고 있다. 최소형은 지난 3월 삼성전자가 내놓은 `워치폰'이다. 많은** 업체들이 배터리 용량 문제로 상용화하지 못했으나 삼성이 처음으로 판매를 시작했다. +  * **//가장// 두드러진 것은 핸드폰. 폴더형이 보편화하면서 삼성·엘지·현대 등 각사가 출시하는 제품들이 하루가 다르게 무게와 부피가 줄고 있다. 최소형은 지난 3월 삼성전자가 내놓은 `워치폰'이다. //많은//** 업체들이 배터리 용량 문제로 상용화하지 못했으나 삼성이 처음으로 판매를 시작했다. 
-  * 인민재판에 회부돼서 당장 목숨을 잃었거나 모진 벌을 받고 있을 줄 알았는데 인민 총궐기대회에서 **제일 먼저 의용군을 지원해서 많은** 젊은이들로 하여금 감격해서 동조케 했다는 소식이었다.+  * 인민재판에 회부돼서 당장 목숨을 잃었거나 모진 벌을 받고 있을 줄 알았는데 인민 총궐기대회에서 **//제일// 먼저 의용군을 지원해서 //많은//** 젊은이들로 하여금 감격해서 동조케 했다는 소식이었다.
  
 カッコの位置を変えて, カッコの位置を変えて,
行 343: 行 344:
   * ▴구학서 신세계 사장=지표상 소비가 **매우 나쁜** 건 틀림없다.   * ▴구학서 신세계 사장=지표상 소비가 **매우 나쁜** 건 틀림없다.
   * 알고 보니 선생님은 **아주 나쁜** 사람이군요.   * 알고 보니 선생님은 **아주 나쁜** 사람이군요.
-  * 향미:노름해서 노름빚 왕창왕창 빚지고 해서 지금 **아주 안 좋은** 쪽으로 팔려 다닐 거예요. +  * 향미:노름해서 노름빚 왕창왕창 빚지고 해서 지금 **//아주// 안 //좋은//** 쪽으로 팔려 다닐 거예요. 
-  * 젊은 남녀가 일생을 좌우할 혼인을 전제로 하여 맞선을 본다는 것은 **매우 조심스러운 일이요, 신중을 기해야 하는 일이다. 쉽게 말해서 이 세상에서 가장 좋은** 사람, 가장 마음에 드는 사람을 찾아내는 일이다. +  * 젊은 남녀가 일생을 좌우할 혼인을 전제로 하여 맞선을 본다는 것은 **//매우// 조심스러운 일이요, 신중을 기해야 하는 일이다. 쉽게 말해서 이 세상에서 가장 //좋은//** 사람, 가장 마음에 드는 사람을 찾아내는 일이다. 
-  * **아주 냉철하게 논리적으로 북한과 김정일을 기술했기 때문에 앞으로의 남북관계 일을 하는데 좋은** 참고서가 될 것이다.+  * **//아주// 냉철하게 논리적으로 북한과 김정일을 기술했기 때문에 앞으로의 남북관계 일을 하는데 //좋은//** 참고서가 될 것이다.
  
 > 上述の通り,ブーリアン演算子のうち''%%&%%''が優先されるので,この検索式からカッコを外した''%%아주|매우&좋은|나쁜%%''は,''%%아주|(매우&좋은)|나쁜%%''を検索するのと同じことになります. > 上述の通り,ブーリアン演算子のうち''%%&%%''が優先されるので,この検索式からカッコを外した''%%아주|매우&좋은|나쁜%%''は,''%%아주|(매우&좋은)|나쁜%%''を検索するのと同じことになります.
行 356: 行 357:
 という検索式は,「아주か매우という文節」,「좋은か나쁜という文節」,「사람か놈という文節」がこの順序で並ぶ例を指します. という検索式は,「아주か매우という文節」,「좋은か나쁜という文節」,「사람か놈という文節」がこの順序で並ぶ例を指します.
  
-  * 노인을 이번 일에서 손 떼게 하려면 '박학수 **//아주// //나쁜// ////**'이란 데서 더이상 얘기를 진전시키지 말아야 했다.+  * 노인을 이번 일에서 손 떼게 하려면 '박학수 **아주 나쁜 놈**'이란 데서 더이상 얘기를 진전시키지 말아야 했다.
   * 우승 상금과 맞먹는 돈을 하루에 벌 수 있으니까 한턱 쓰는 사람이나, 공짜 음식을 먹는 사람이나 부담이 안 가는 **//아주// 기분좋은 광경이다. 인터뷰에서도 박지은은 아주 능숙하고 거침이 없다. 본인의 능력과 노력도 뛰어났겠지만 일찍이 외국에 나가 학업과 운동을 병행할 수 있도록 뒷받침을 해준 부모가 있었기 때문에 부자의 여유로움과 //좋은// 환경에서 자란 //사람//** 특유의 자신감이 배어났다.   * 우승 상금과 맞먹는 돈을 하루에 벌 수 있으니까 한턱 쓰는 사람이나, 공짜 음식을 먹는 사람이나 부담이 안 가는 **//아주// 기분좋은 광경이다. 인터뷰에서도 박지은은 아주 능숙하고 거침이 없다. 본인의 능력과 노력도 뛰어났겠지만 일찍이 외국에 나가 학업과 운동을 병행할 수 있도록 뒷받침을 해준 부모가 있었기 때문에 부자의 여유로움과 //좋은// 환경에서 자란 //사람//** 특유의 자신감이 배어났다.
   * 물론 다른 사람이 당신의 기술이나 외모, 재산 등을 평가하는 것은 **//매우// 정확할 수도 있다. 하지만 당신의 기술이나 외모, 재산 등을 다져서 당신을 '//좋은// //사람//**' 혹은 '나쁜 사람'이라고 판단하는 것은 결코 옳은 일이 아니다.   * 물론 다른 사람이 당신의 기술이나 외모, 재산 등을 평가하는 것은 **//매우// 정확할 수도 있다. 하지만 당신의 기술이나 외모, 재산 등을 다져서 당신을 '//좋은// //사람//**' 혹은 '나쁜 사람'이라고 판단하는 것은 결코 옳은 일이 아니다.
行 400: 行 401:
 ===== 字素の検索 ===== ===== 字素の検索 =====
  
-ハングル1音節を初声・中声・終声に分解して,演算子を使いながら検索することができます.ただし,「ガイドp.255. 가. 어절 검색 5) 자소 검색식と同じ検索式を「원시 말뭉치のファイルしててみしたが,いずれも検索結果がありませんでした.「형태분석 말뭉치」では検索されましたので,[[jakle:sejong:tagged_corpus|品詞タグを利用した形態素検索]]説明します.+1つの音節内での字母指定して,検索を行うことができますガイドp.255. 가. 어절 검색 5) 자소 검색식」).1つの音節''%%[  ]%%''でくくり,''%%[初声,中声,終声]%%''のように,字母をコンマで区切って指定します.''%%[  ]%%''内,コンマの前後にスペースが入らないようにしてください.ただし,終声がない例を検索する場合限り,「終声」として` `(スペース)を記述することが可能です. 
 + 
 +なお,字母の代わりに以下のような演算子をいることができます. 
 + 
 +^  演算子  ^          意味・役割            使用可能な箇所   ^ 
 +|   ?    何らかの字母が必ずあり,その字母は何でもよい  |  初声・中声・終声 
 +|          字母があっもなくてもよい          終声のみ    | 
 + 
 +要するに,''%%?%%''は「1つの字母」を表,''%%%%%''は「0まは1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要あります. 
 + 
 +いくつか例を挙げます: 
 + 
 +  * ''%%[ㄱ,?,ㄴ]%%'':初声はㄱ,中声は何でもよい,終声はㄴ=간, 갠, 갼, 근, ... 
 +  * ''%%[?,ㅗ,ㄹ]%%'':初声は何でもよい,中声はㅗ,終声はㄹ=골, 꼴, 놀, 돌, 똘, ... 
 +  * ''%%[ㅂ,?, ]%%'':初声はㅂ,中声は何でもよい,終声はない=바, 뱌, 배, 뱨, 베, ... 
 +  * ''%%[ㅂ,?,%]%%'':初声はㅂ,中声は何でもよい,終声はないか,何でもよい=바, 박, 밖, 보, 봄, 부, 불, ... 
 +  * ''%%[ㅂ,?,?]%%'':初声はㅂ,中声は何でもよい,終声は必ずあるが,何でもよい=박, 밖, 봄, 불, 뱀, ... 
 + 
 +複数を列挙することも可能です: 
 + 
 +  * ''%%[ㄱ,?,ㅇ][?,?,ㅇ]%%'':강정, 경영, 강장, 강령, 공용, 긍정, ... 
 + 
 +<WRAP center round important 60%> 日本語版のWindows 7上で上記の検索を行ったところ,いずれも検索結果がありませんでした.字母による検索は,韓国語版Windowsでのみ実行可能なようです. </WRAP> 
 + 
 +{{indexmenu_n>41}}
  
  
jakle/sejong/raw_corpus.1504790990.txt.gz · 最終更新: 2017/09/07 22:29 by yoshi