jakle:sejong:raw_corpus
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
jakle:sejong:raw_corpus [2017/01/30 22:41] – yoshi | jakle:sejong:raw_corpus [2022/04/25 23:28] (現在) – yoshi | ||
---|---|---|---|
行 1: | 行 1: | ||
====== 文節の検索 ====== | ====== 文節の検索 ====== | ||
- | < | + | <WRAP important> |
- | この文書は現在書きかけです. | + | |
- | </ | + | |
ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します. | ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します. | ||
行 37: | 行 35: | ||
など,많に記号が続く例,または많に空白が続く例だけが検索されます. | など,많に記号が続く例,または많に空白が続く例だけが検索されます. | ||
- | ===== 「演算子」を用いた検索 ===== | + | ===== 音節を表す演算子による検索 ===== |
- | 検索式には,様々な役割を持った特殊文字=演算子(연산자)を用いることができます.文節の検索に用いることができる演算子には,以下の様なものがあります(ガイドp.24「4)音節検索式 表3」). | + | 検索式には,様々な役割を持った特殊文字=演算子(연산자)を用いることができます.以下の演算子は,音節を表すのに用いられます(ガイドp.24「4)音節検索式 表3」). |
^ 演算子 | ^ 演算子 | ||
行 47: | 行 45: | ||
| | | | ||
- | ==== ? | + | ==== 「?」=1つの音節 ==== |
'' | '' | ||
行 80: | 行 78: | ||
* 삼백(**三白)그룹** 회장의 차남이라는 타고난 족보 덕에 | * 삼백(**三白)그룹** 회장의 차남이라는 타고난 족보 덕에 | ||
- | など,그룹の前に3音節ある文節は検索されません.((記号の扱いはやや曖昧です.上記の「(g& | + | など,그룹の前に3音節ある文節は検索されません.((記号の扱いはやや曖昧です.上記の「(g& |
^ | ^ | ||
行 91: | 行 89: | ||
)) | )) | ||
- | ==== %=0または1つの音節 ==== | + | ==== 「%」=0または1つの音節 ==== |
'' | '' | ||
行 129: | 行 127: | ||
* " | * " | ||
- | ==== *=0以上の音節 ==== | + | ==== 「*」=0以上の音節 ==== |
'' | '' | ||
行 170: | 行 168: | ||
> 가까이は助詞ではないため,上記の例の多くは分かち書きの誤りを含んでいることになりますが,実際はこうしたケースが多く含まれています.そのため,例えば가까이の用例を網羅したい場合,'' | > 가까이は助詞ではないため,上記の例の多くは分かち書きの誤りを含んでいることになりますが,実際はこうしたケースが多く含まれています.そのため,例えば가까이の用例を網羅したい場合,'' | ||
- | ==== +=1つ以上の音節 ==== | + | ==== 「+」=1つ以上の音節 ==== |
'' | '' | ||
行 189: | 行 187: | ||
などの例が検索され,근처だけで成り立つ文節や근처で終わる文節,근처に助詞などが続く文節は検索されません.また,결**근처**리や천**근처**럼など,名詞の근처以外の例も検索される点に注意しましょう. | などの例が検索され,근처だけで成り立つ文節や근처で終わる文節,근처に助詞などが続く文節は検索されません.また,결**근처**리や천**근처**럼など,名詞の근처以外の例も検索される点に注意しましょう. | ||
- | (書きかけここまで) | + | ===== 文節をまたいだ検索 ===== |
+ | |||
+ | ここまで説明した検索の方法は,その範囲が1つの文節内に限定されたものでした.以下では,複数の文節にまたがる検索について説明します. | ||
+ | |||
+ | ==== 隣り合う文節を検索する ==== | ||
+ | |||
+ | 検索式に | ||
+ | |||
+ | < | ||
+ | 문화 교육 | ||
+ | </ | ||
+ | のように,2つの項目をスペースで区切って並べると,2つの検索対象項目がこの順序で隣り合って出現する文節が検索されます.上記の場合,「문화」「교육」だけで成り立つ文節が,この順序で隣り合って出現するという例が検索されます. | ||
+ | |||
+ | * {한겨레신문}의 김선주 논설 위원은 우리 나라의 대중 **문화 교육** 기관의 실태에 대해 다음과 같이 말한다. | ||
+ | * 이달 중에 시의회 **문화 교육** 위원 회의실에서 감사를 재기키로 하고 해산했다. | ||
+ | * " | ||
+ | |||
+ | そのため,2つの項目が逆の順で現れる,以下のような例は検索から外れます. | ||
+ | |||
+ | * 1970 년에는 대통령 **교육 문화** 담당 특별 보좌관에 임명되었으며, | ||
+ | |||
+ | また,「문화」「교육」だけで成り立つ文節が検索対象になるので, | ||
+ | |||
+ | * 결국 사람들의 대중 문화에 대한 생각을 바꾸어야 하므로 대중 **문화 교육이** 절대적으로 중요하다. | ||
+ | * 대중 **문화 교육은** 어떻게 해야 하나 | ||
+ | * 학생들의 학습 발달 단계와 **문화 교육적** 표현 감각에 맞춰 대중 문화를 도입, 고급 예술 문화에 접목해 나가는 식으로 청소년 문화 활동에 대한 짜임새 있는 학교 교육 활동을 펴 나가자는 것이다. | ||
+ | |||
+ | のような文節は検索されません. | ||
+ | |||
+ | 検索項目の順序については,項目が3つ以上の場合でも同様です. | ||
+ | |||
+ | < | ||
+ | 미술관 옆 동물원 | ||
+ | </ | ||
+ | という検索式では, | ||
+ | |||
+ | * < | ||
+ | * 일례로 영화 ' | ||
+ | |||
+ | は検索されますが,もし仮に「동물원 옆 미술관」という例があっても,検索されません. | ||
+ | |||
+ | なお,それぞれの項目には[[# | ||
+ | |||
+ | < | ||
+ | *을 수% 있* | ||
+ | </ | ||
+ | という検索式は「을だけか,을の前に1つ以上の音節がある文節」と「수だけか,수の後ろに1つの音節がある文節」と「있だけか,있の後ろに1つ以上の音節がある文節」がこの順序で隣り合っている例が検索されます.例は以下の通り. | ||
+ | |||
+ | * 한의원에서도 교통사고 환자들이 맘놓고 **치료받을 수 있는** 법적 제도적 체계가 하루빨리 마련됐으면 한다. | ||
+ | * 그는 아마도 부왕의 유골을 고국땅으로 옮겨 **묻을 수도 있었을** 것입니다. | ||
+ | * 여관일을 봐주는 아주머니에게 물어 그가 묵는 방을 쉽게 **찾을 수가 있었다**. | ||
+ | * 한마디로 말해서 만약을 위해 벽장 속에 총 한자루쯤 가지고 **있을 수는 있어도** 이 총은 반드시 자기방어를 위한 수단으로만 사용해야 한다는 것이다. | ||
+ | * 저 저녁 노을에 빛나는 가을 바윗산을 카메라에다 **담을 수야 있겠오**? | ||
+ | |||
+ | ==== ブーリアン演算子による検索 ==== | ||
+ | |||
+ | ブーリアン(불리언)演算子には'' | ||
+ | |||
+ | > どちらの演算子も,前後に空白(スペース)を入れてはいけません. | ||
+ | |||
+ | === 「& | ||
+ | |||
+ | 前後の項目が同時に現れる例を検索します.例えば | ||
+ | |||
+ | < | ||
+ | 가장& | ||
+ | </ | ||
+ | という検索式は, | ||
+ | |||
+ | * 소설이 **가장 많은** 독자를 확보하고 있는 것은, | ||
+ | |||
+ | のように「가장」に続いて「많은」が出現する例だけでなく, | ||
+ | |||
+ | * 다임러 벤츠(daimler benz) 그룹은 독일에서 **// | ||
+ | * 그러나 **// | ||
+ | |||
+ | など,文をまたがった場合も含めて,「가장」の後に「많은」が出現する例を検索します.検索される項目の順序は,並べる順序に準じます.そのため,上記の検索式では「많은」の後に「가장」が出現する例は該当しません. | ||
+ | |||
+ | 以下のように,3つ以上の項目を並べることもできます. | ||
+ | |||
+ | < | ||
+ | 가장& | ||
+ | </ | ||
+ | この検索式では, | ||
+ | |||
+ | * 통계 자료를 정리할 때 **가장 많이 나타나는** 변량의 값. | ||
+ | |||
+ | といった例だけでなく, | ||
+ | |||
+ | * 현재 우울증은 뇌에서 분비되는 신경전달물질의 일종인 세로토닌의 저하가 **// | ||
+ | |||
+ | のように,「가장」「많이」「나타나는」の順序でそれぞれの文節が出現する例も検索されます. | ||
+ | |||
+ | なお,'' | ||
+ | |||
+ | < | ||
+ | *한테%& | ||
+ | </ | ||
+ | という検索式(「한테の前に0以上の音節があり,後ろに1つの音節がある文節」の後ろに「미스」という文節が現れる)で検索される以下の例 | ||
+ | |||
+ | * **// | ||
+ | |||
+ | では,最初の「아무한테나」以降,「미스」という文節が複数現れますが,検索にマッチするのは太字で示している,最初の「미스」までです. | ||
+ | |||
+ | === 「|」=OR・論理和 === | ||
+ | |||
+ | 前後の項目のどちらかが出現する例を検索します.単独の文節における複数の候補を検索する,という点では,「文節をまたいだ検索」ではないかもしれません. | ||
+ | |||
+ | < | ||
+ | 한국어|우리말 | ||
+ | </ | ||
+ | という検索式では,「한국어」もしくは「우리말」という文節を検索します. | ||
+ | |||
+ | * 영어와 달리, 띄어쓰기 등 철자법 규정이 엄격하지 않은 **한국어** 텍스트는 그 교정을 위해 많은 시간이 필요하였다. | ||
+ | * 처음 출판되고 40년이 지나 **우리말** 번역본이 나왔으니 어찌 보면 약간 뒤늦은 감이 없지 않지만 이 책은 우리에게도 대단히 큰 영감을 줄 것이 분명하다. | ||
+ | |||
+ | この演算子も,複数の項目を並べることができます. | ||
+ | |||
+ | < | ||
+ | 한국어|한국말|우리말 | ||
+ | </ | ||
+ | といった検索が可能です.いずれかの項目が出現する例を検索するため,項目の並び順は問いません. | ||
+ | |||
+ | === ブーリアン演算子の組み合わせ === | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | (가장|제일)& | ||
+ | </ | ||
+ | という検索式では,「가장か제일という文節の後に,많은という文節が現れる」例(2, | ||
+ | |||
+ | * " | ||
+ | * 이렇게 한 장씩 빼어던지는 지편은 일정한 규칙에 따라, 그 중 **제일 많은** 끗수를 낸 사람이 다른 석 장을 먹게 되는데, 그 4매 1조를 ‘한(一)수’라 하고, 네 사람 중 가장 여러 수를 먹은 사람이 이기게 된다. | ||
+ | * **// | ||
+ | * 인민재판에 회부돼서 당장 목숨을 잃었거나 모진 벌을 받고 있을 줄 알았는데 인민 총궐기대회에서 **// | ||
+ | |||
+ | カッコの位置を変えて, | ||
+ | |||
+ | < | ||
+ | 가장|(제일& | ||
+ | </ | ||
+ | とすると,「가장という文節」あるいは「제일という文節の後に많은という文節が現れる」例が検索されることになります.この検索式は「가장」だけで成り立つ例を含むので,検索される例は非常に多くなります(35, | ||
+ | |||
+ | > カッコを外して,'' | ||
+ | |||
+ | また, | ||
+ | |||
+ | < | ||
+ | (아주|매우)& | ||
+ | </ | ||
+ | という検索式は,「아주か매우という文節の後に,좋은か나쁜という文節が現れる」,以下のような例が検索されます. | ||
+ | |||
+ | * 그믐께 쯤해서 마음에 둔 어른을 뵙고 세배를 하는 것은 **매우 좋은** 생각이라 하겠다. | ||
+ | * 심장병을 앓고 있는 자나, 불면증 환자, 잘 놀라는 자, 무서움을 타는 자에게 **아주 좋은** 약주가 된다. | ||
+ | * ▴구학서 신세계 사장=지표상 소비가 **매우 나쁜** 건 틀림없다. | ||
+ | * 알고 보니 선생님은 **아주 나쁜** 사람이군요. | ||
+ | * 향미: | ||
+ | * 젊은 남녀가 일생을 좌우할 혼인을 전제로 하여 맞선을 본다는 것은 **// | ||
+ | * **// | ||
+ | |||
+ | > 上述の通り,ブーリアン演算子のうち'' | ||
+ | |||
+ | さらに, | ||
+ | |||
+ | < | ||
+ | (아주|매우)& | ||
+ | </ | ||
+ | という検索式は,「아주か매우という文節」,「좋은か나쁜という文節」,「사람か놈という文節」がこの順序で並ぶ例を指します. | ||
+ | |||
+ | * 노인을 이번 일에서 손 떼게 하려면 ' | ||
+ | * 우승 상금과 맞먹는 돈을 하루에 벌 수 있으니까 한턱 쓰는 사람이나, | ||
+ | * 물론 다른 사람이 당신의 기술이나 외모, 재산 등을 평가하는 것은 **// | ||
+ | * 올바른 手順이나 합당한 행마법에서 벗어난, **// | ||
+ | |||
+ | ==== 文節の範囲を指定した検索 ==== | ||
+ | |||
+ | ある項目Aを基準として,その前後の範囲を文節数で指定し,指定した範囲内に項目Bが現れる,というような検索を行うことができます.範囲の指定には'' | ||
+ | |||
+ | < | ||
+ | 項目A 3@2 項目B | ||
+ | </ | ||
+ | のような検索式を書きます.項目Aと範囲指定の式,項目Bの間には,それぞれスペースが必要です.範囲指定の数に0を指定すると,そちら側の範囲は除外されます.例えば'' | ||
+ | |||
+ | === 他の演算子との組み合わせ === | ||
+ | |||
+ | 範囲を指定した検索においても,音節を表す演算子やブーリアン演算子を用いることができます.例えば, | ||
+ | |||
+ | < | ||
+ | ?거나 3@ +거나 | ||
+ | </ | ||
+ | という検索式は,「거나の前に1音節ある文節」(='' | ||
+ | |||
+ | * 이 말의 뜻은, 현재 네가 받고 있는 정치는 **좋거나 궂거나** 다 너 스스로가 벌어얻은 것이라 함에 있다. | ||
+ | * 그들은 오염을 **유발하거나 쓰레기가 되거나** 또는 어떤 식으로든 생태계를 손상시키는 제품은 우수한 제품이 아니라는 것을 알아차리고, | ||
+ | * 세간에 **있거나 세간을 떠나 있거나** 인욕(人慾)을 따르는 것도 고통이요, | ||
+ | |||
+ | また,ブーリアン演算子も使用した | ||
+ | |||
+ | < | ||
+ | 절대 @5 (않+|없+|안*) | ||
+ | </ | ||
+ | という検索式は,「절대だけで成り立つ文節」(='' | ||
+ | |||
+ | * " | ||
+ | * 거기서 있었던 일은 **절대 말하지 않는다는** 내용의 각서에 지장을 찍고. | ||
+ | * **절대 진리가 없다면** 진리는 절대로 없다는 이 무섭고도 한심한 이분법! | ||
+ | * 터키식 커피는 **절대 주문하면 안된다는** 점! | ||
+ | * 지금도 생생하게 억양과 음색이 기억이 나고 있는데, 그날 당신은 내게, 천만에요, | ||
+ | * **절대 흥분해서 앞으로 나가면 안** 돼. | ||
+ | * 그녀는 **절대 그보다 더 빠를 수가 없었다.** | ||
+ | |||
+ | ===== 字素の検索 ===== | ||
+ | |||
+ | 1つの音節内での字母を指定して,検索を行うことができます(ガイドp.25「5. 가. 어절 검색 5) 자소 검색식」).1つの音節を'' | ||
+ | |||
+ | なお,字母の代わりに以下のような演算子を用いることができます. | ||
+ | |||
+ | ^ 演算子 | ||
+ | | ? | ||
+ | | | ||
+ | |||
+ | 要するに,'' | ||
+ | |||
+ | いくつか例を挙げます: | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | 複数を列挙することも可能です: | ||
+ | |||
+ | * '' | ||
+ | |||
+ | <WRAP center round important 60%> 日本語版のWindows 7上で上記の検索を行ったところ,いずれも検索結果がありませんでした.字母による検索は,韓国語版のWindowsでのみ実行可能なようです. </ | ||
+ | |||
+ | {{indexmenu_n> | ||
jakle/sejong/raw_corpus.1485783699.txt.gz · 最終更新: 2017/01/30 22:41 by yoshi