ユーザ用ツール

サイト用ツール


jakle:sejong:raw_corpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
jakle:sejong:raw_corpus [2017/09/11 00:39] – 外部編集 127.0.0.1jakle:sejong:raw_corpus [2022/04/25 23:28] (現在) yoshi
行 1: 行 1:
 ====== 文節の検索 ====== ====== 文節の検索 ======
  
-====== ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します. ======+<WRAP important>以下の項目は[[https://okikirmui.github.io/|韓国語コーパスの使い方]]に移行しました.今後更新されません.</WRAP> 
 + 
 +ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画の平文コーパス(원시 말뭉치)を検索する方法について紹介します.
  
 [[..:sejong#検索のための準備:コーパスの読み込み|検索のための準備:コーパスの読み込み]]を参考に,書きことばあるいは話しことばのコーパスを読み込みます.平文コーパスの場合,自分で作成したテキストファイルを読み込むことも可能です.その場合,テキストファイルはUTF-16LEエンコーディング(BOM付き)で作成しておく必要があります. [[..:sejong#検索のための準備:コーパスの読み込み|検索のための準備:コーパスの読み込み]]を参考に,書きことばあるいは話しことばのコーパスを読み込みます.平文コーパスの場合,自分で作成したテキストファイルを読み込むことも可能です.その場合,テキストファイルはUTF-16LEエンコーディング(BOM付き)で作成しておく必要があります.
行 245: 行 247:
 > どちらの演算子も,前後に空白(スペース)を入れてはいけません. > どちらの演算子も,前後に空白(スペース)を入れてはいけません.
  
-#### 「&」=AND・論理積+=== 「&」=AND・論理積 ===
  
 前後の項目が同時に現れる例を検索します.例えば 前後の項目が同時に現れる例を検索します.例えば
行 399: 行 401:
 ===== 字素の検索 ===== ===== 字素の検索 =====
  
-ハングル1音節を初声・中声・終声に分解して,演算子を使いながら検索することができます.ただし,「ガイドp.255. 가. 어절 검색 5) 자소 검색식と同じ検索式を「원시 말뭉치のファイルしててみしたが,いずれも検索結果がありませんでした.「형태분석 말뭉치」では検索されましたので,[[jakle:sejong:tagged_corpus|品詞タグを利用した形態素検索]]説明します.+1つの音節内での字母指定して,検索を行うことができますガイドp.255. 가. 어절 검색 5) 자소 검색식」).1つの音節''%%[  ]%%''でくくり,''%%[初声,中声,終声]%%''のように,字母をコンマで区切って指定します.''%%[  ]%%''内,コンマの前後にスペースが入らないようにしてください.ただし,終声がない例を検索する場合限り,「終声」として` `(スペース)を記述することが可能です. 
 + 
 +なお,字母の代わりに以下のような演算子をいることができます. 
 + 
 +^  演算子  ^          意味・役割            使用可能な箇所   ^ 
 +|   ?    何らかの字母が必ずあり,その字母は何でもよい  |  初声・中声・終声 
 +|          字母があっもなくてもよい          終声のみ    | 
 + 
 +要するに,''%%?%%''は「1つの字母」を表,''%%%%%''は「0まは1つの終声字母」を表すということになります.なお,初声・中声・終声の全てに1つずつ字母を記述することはできません.少なくとも一つは,上記の演算子を含む必要あります. 
 + 
 +いくつか例を挙げます: 
 + 
 +  * ''%%[ㄱ,?,ㄴ]%%'':初声はㄱ,中声は何でもよい,終声はㄴ=간, 갠, 갼, 근, ... 
 +  * ''%%[?,ㅗ,ㄹ]%%'':初声は何でもよい,中声はㅗ,終声はㄹ=골, 꼴, 놀, 돌, 똘, ... 
 +  * ''%%[ㅂ,?, ]%%'':初声はㅂ,中声は何でもよい,終声はない=바, 뱌, 배, 뱨, 베, ... 
 +  * ''%%[ㅂ,?,%]%%'':初声はㅂ,中声は何でもよい,終声はないか,何でもよい=바, 박, 밖, 보, 봄, 부, 불, ... 
 +  * ''%%[ㅂ,?,?]%%'':初声はㅂ,中声は何でもよい,終声は必ずあるが,何でもよい=박, 밖, 봄, 불, 뱀, ... 
 + 
 +複数を列挙することも可能です: 
 + 
 +  * ''%%[ㄱ,?,ㅇ][?,?,ㅇ]%%'':강정, 경영, 강장, 강령, 공용, 긍정, ... 
 + 
 +<WRAP center round important 60%> 日本語版のWindows 7上で上記の検索を行ったところ,いずれも検索結果がありませんでした.字母による検索は,韓国語版Windowsでのみ実行可能なようです. </WRAP> 
 + 
 +{{indexmenu_n>41}}
  
  
jakle/sejong/raw_corpus.1505057955.txt.gz · 最終更新: 2017/09/11 00:39 by 127.0.0.1