ユーザ用ツール

サイト用ツール


jakle:korea:trend21

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
jakle:korea:trend21 [2022/04/13 20:13] – 作成 yoshijakle:korea:trend21 [2022/04/25 23:30] (現在) yoshi
行 1: 行 1:
 ====== コーパス分析ツールの使い方 ====== ====== コーパス分析ツールの使い方 ======
 +
 +<WRAP important>以下の項目は[[https://okikirmui.github.io/|韓国語コーパスの使い方]]に移行しました.今後更新されません.</WRAP>
  
 ここでは,高麗大学(고려대학교)[[https://riks.korea.ac.kr/|民族文化研究院(민족문화연구원)]]の[[https://riks.korea.ac.kr/organization/digitalhumanities|デジタル人文学センター(디지털인문학센터)]]を通して公開されている検索ツールのうち,물결21(Trend21)コーパスを検索できる[[http://corpus.korea.ac.kr/|웹 기반 코퍼스 분석 도구(ウェブベースコーパス分析ツール)]](以下「分析ツール」)の利用方法についてまとめます. ここでは,高麗大学(고려대학교)[[https://riks.korea.ac.kr/|民族文化研究院(민족문화연구원)]]の[[https://riks.korea.ac.kr/organization/digitalhumanities|デジタル人文学センター(디지털인문학센터)]]を通して公開されている検索ツールのうち,물결21(Trend21)コーパスを検索できる[[http://corpus.korea.ac.kr/|웹 기반 코퍼스 분석 도구(ウェブベースコーパス分析ツール)]](以下「分析ツール」)の利用方法についてまとめます.
行 27: 行 29:
 なお,用例数が多すぎるので,全ての検索結果を表示するのではなく,頻度により制約を加えているそうです.左側メニューの「용례검색」から翻訳・引用すると以下の通り. なお,用例数が多すぎるので,全ての検索結果を表示するのではなく,頻度により制約を加えているそうです.左側メニューの「용례검색」から翻訳・引用すると以下の通り.
  
-^[対象の]年度^形態素の検索^文節の検索 ^ + [対象の]年度   形態素の検索   文節の検索  
-|全年度    |頻度2以上 |頻度10以上| + 全年度   頻度2以上   頻度10以上  
-|各年度    |制約なし  |頻度5以上 |+ 各年度   制約なし  頻度5以上  |
  
 あと,こちらも検索結果を一発で保存する方法がありません.年度別の比較をする際には,年度ごとに検索して結果をコピー&ペーストしていくしかなさそうです.「単語頻度チャート」が使えないのは返す返すも残念.また分野ごとの検索もできないようです. あと,こちらも検索結果を一発で保存する方法がありません.年度別の比較をする際には,年度ごとに検索して結果をコピー&ペーストしていくしかなさそうです.「単語頻度チャート」が使えないのは返す返すも残念.また分野ごとの検索もできないようです.
行 39: 行 41:
 左側のメニューから「용례검색기(用例検索器)」をクリックすると,検索画面が出てきます. 左側のメニューから「용례검색기(用例検索器)」をクリックすると,検索画面が出てきます.
  
-{{img/trend21_search_main.png| trend21_search_main}}+{{:jakle/img/trend21_search_main.png| trend21_search_main}}
  
 「형태소 검색(形態素検索)」と「어절 검색(文節検索)」が可能ですが,基本的に検索の単位は文節です. 「형태소 검색(形態素検索)」と「어절 검색(文節検索)」が可能ですが,基本的に検索の単位は文節です.
行 53: 行 55:
 インプットボックスに検索語を入力して検索を行いますが,検索語として単に単語や文字列を入力した場合,「완전 일치(完全一致)」検索となり,その検索語だけで**だけで**構成される文節がマッチします.例えば検索語として「''%%인지%%''」を検索した場合,文節に「인지」だけが含まれる文が検索されます. インプットボックスに検索語を入力して検索を行いますが,検索語として単に単語や文字列を入力した場合,「완전 일치(完全一致)」検索となり,その検索語だけで**だけで**構成される文節がマッチします.例えば検索語として「''%%인지%%''」を検索した場合,文節に「인지」だけが含まれる文が検索されます.
  
-{{img/trend21_eojeol_example1.png| trend21_search_eojeol_1}}+{{:jakle/img/trend21_eojeol_example1.png| trend21_search_eojeol_1}}
  
 左側には頻度情報が表示され,ここでは1503という結果になっています.右側には検索された用例が出てきますが,上段には「검색된 문장 1468 개(検索された文1468個)」となっていて,頻度情報と合致しません. これは以下のように,1文に検索語が複数含まれている場合があるためです. 左側には頻度情報が表示され,ここでは1503という結果になっています.右側には検索された用例が出てきますが,上段には「검색된 문장 1468 개(検索された文1468個)」となっていて,頻度情報と合致しません. これは以下のように,1文に検索語が複数含まれている場合があるためです.
行 87: 行 89:
 結果(一部): 結果(一部):
  
-  * %%**%%“그래서인지%%**%% 오히려 연기 반경이 더 넓을 수도 있겠다.(웃음)”+  * **“그래서인지** 오히려 연기 반경이 더 넓을 수도 있겠다.(웃음)”
   * 열기가 많은 **가스레인지** 주변에 놓고 쓰면 안된다.   * 열기가 많은 **가스레인지** 주변에 놓고 쓰면 안된다.
   * ■ 자신에게 해당되는 것이 **몇개인지** 세어 보세요.   * ■ 자신에게 해당되는 것이 **몇개인지** 세어 보세요.
行 112: 行 114:
 結果(一部): 結果(一部):
  
-  * %%**%%“인지도%%**%% 있는 방송인을 출마시켜라.”+  * **“인지도** 있는 방송인을 출마시켜라.”
   * 휴대용 **가스레인지에서** 부탄가스로 고기를 구워 먹은 후 불을 끄고 나면 가스통이 차가워진 것을 느낄 수 있다.   * 휴대용 **가스레인지에서** 부탄가스로 고기를 구워 먹은 후 불을 끄고 나면 가스통이 차가워진 것을 느낄 수 있다.
   * 어느 것이 **먼저인지는** 모르지만 하여간 그렇게 되었다.   * 어느 것이 **먼저인지는** 모르지만 하여간 그렇게 되었다.
行 159: 行 161:
 「일요일)에」の例などを見ると,「)」で''%%?%%''一つ分が使われ,後は''%%*%%''とまとめる形で処理されているようです.模式化してみると以下のような感じ? 「일요일)에」の例などを見ると,「)」で''%%?%%''一つ分が使われ,後は''%%*%%''とまとめる形で処理されているようです.模式化してみると以下のような感じ?
  
-^일^?^?^일^?^?^*^ + 일       일        
-|일|요| |일|)|에| |+ 일   요  ||  일     에  ||
  
 === 句の検索 === === 句の検索 ===
行 225: 行 227:
 形態素タグが分からない場合,基本形(用言の場合は語幹のみ)を入力して検索すると,複数候補があれば検索結果の左側に一覧表示されます.以下は,「먹」とだけ入力して検索した場合の結果です. 形態素タグが分からない場合,基本形(用言の場合は語幹のみ)を入力して検索すると,複数候補があれば検索結果の左側に一覧表示されます.以下は,「먹」とだけ入力して検索した場合の結果です.
  
-{{img/trend21_morph_example1.png| trend21_morph_example1}}+{{:jakle/img/trend21_morph_example1.png| trend21_morph_example1}}
  
 名詞(NNG)の「먹」,動詞(VV)の「먹(다)」,補助動詞(VX)の「먹(다)」がリストアップされています. 名詞(NNG)の「먹」,動詞(VV)の「먹(다)」,補助動詞(VX)の「먹(다)」がリストアップされています.
行 231: 行 233:
 タグが分かっている場合は,検索語に直接入力することで,検索が可能です. タグが分かっている場合は,検索語に直接入力することで,検索が可能です.
  
-{{img/trend21_morph_example2.png| trend21_morph_example2}}+{{:jakle/img/trend21_morph_example2.png| trend21_morph_example2}}
  
 === ワイルドカードを用いた検索(形態素) === === ワイルドカードを用いた検索(形態素) ===
行 299: 行 301:
 左側メニューから「연도별 공기어(Pie chart)」をクリックします.テキストボックスに検索語を入力します.試しに「''%%감염%%''」と入力して「검색(検索)」ボタンをクリックしてみましょう. 左側メニューから「연도별 공기어(Pie chart)」をクリックします.テキストボックスに検索語を入力します.試しに「''%%감염%%''」と入力して「검색(検索)」ボタンをクリックしてみましょう.
  
-{{img/trend21_pie_chart_1.png| pie_chart_example_1}}+{{:jakle/img/trend21_pie_chart_1.png| pie_chart_example_1}}
  
 図に見えるように,左側に項目とtスコアを含む一覧表,右側に円グラフが表示されました.円グラフでそれぞれの領域にカーソルを重ねると,tスコアとパーセンテージが表示されますが,この円グラフは提示された共起語のtスコア合計を100%として,それぞれの共起語が占める割合を示しています. 図に見えるように,左側に項目とtスコアを含む一覧表,右側に円グラフが表示されました.円グラフでそれぞれの領域にカーソルを重ねると,tスコアとパーセンテージが表示されますが,この円グラフは提示された共起語のtスコア合計を100%として,それぞれの共起語が占める割合を示しています.
行 325: 行 327:
 左側メニューの「연도별 공기어(Area chart)」をクリックして,「''%%감염%%''」を検索しましょう.結果はこちら: 左側メニューの「연도별 공기어(Area chart)」をクリックして,「''%%감염%%''」を検索しましょう.結果はこちら:
  
-{{img/trend21_bar_chart_1.png| bar_chart_example_1}}+{{:jakle/img/trend21_bar_chart_1.png| bar_chart_example_1}}
  
 X軸が「연도(年度)」,Y軸が「누적 t-score(累積tスコア)」となっています. 年度ごとに累積の値がだいぶ異なることがよく分かります.また,年度ごとにどんな共起語がより高い値となっているか,ひと目で分かるのもポイントです((ただし,tスコアはコーパスのサイズによっても影響されるため,「異なるサイズのコーパスから得られた//t//スコア同士を比較することは適切ではありません」(石川慎一郎 2012:130).김일환 외(2013:19)に,2000年から2011年までの年度別規模が示されていますが,どの年度もだいたい4000万文節程度(平均41,861,260文節,標準偏差 2911748)ではあります.比較の際にはご注意ください. X軸が「연도(年度)」,Y軸が「누적 t-score(累積tスコア)」となっています. 年度ごとに累積の値がだいぶ異なることがよく分かります.また,年度ごとにどんな共起語がより高い値となっているか,ひと目で分かるのもポイントです((ただし,tスコアはコーパスのサイズによっても影響されるため,「異なるサイズのコーパスから得られた//t//スコア同士を比較することは適切ではありません」(石川慎一郎 2012:130).김일환 외(2013:19)に,2000年から2011年までの年度別規模が示されていますが,どの年度もだいたい4000万文節程度(平均41,861,260文節,標準偏差 2911748)ではあります.比較の際にはご注意ください.
行 349: 行 351:
 左側のメニューから「공기어 비교」をクリックして,「''%%독감 인플루엔자%%''」と入力して検索ボタンを押してみましょう. 左側のメニューから「공기어 비교」をクリックして,「''%%독감 인플루엔자%%''」と入力して検索ボタンを押してみましょう.
  
-{{img/trend21_graph_1.png| trend21_graph_example_1}}+{{:jakle/img/trend21_graph_1.png| trend21_graph_example_1}}
  
 こちらの機能では,名詞以外の共起語も表示され,その品詞も色分けして示されます.「Zoom In」ボタンやマウスのスクロールホイールなどを使って拡大/縮小ができます.上に提示した図だと分かりにくいので,拡大してみました. こちらの機能では,名詞以外の共起語も表示され,その品詞も色分けして示されます.「Zoom In」ボタンやマウスのスクロールホイールなどを使って拡大/縮小ができます.上に提示した図だと分かりにくいので,拡大してみました.
  
-{{img/trend21_flu_zoom_in.png| trend21_graph_zoom_in}}+{{:jakle/img/trend21_flu_zoom_in.png| trend21_graph_zoom_in}}
  
 色々ありますね. 色々ありますね.
行 359: 行 361:
 ここでは全体図の右上にある「조류(鳥類)」に注目してみます.「鳥インフルエンザ」を「조류 독감」とか「조류 인플루엔자」と言うわけですが,全期間のtスコアを見ると,「독감」のtスコアが高くなっています. ここでは全体図の右上にある「조류(鳥類)」に注目してみます.「鳥インフルエンザ」を「조류 독감」とか「조류 인플루엔자」と言うわけですが,全期間のtスコアを見ると,「독감」のtスコアが高くなっています.
  
-{{img/trend21_flu_all.png| trend21_flu_all}}+{{:jakle/img/trend21_flu_all.png| trend21_flu_all}}
  
 図の上に,年度別に表示するためのボタンがあります.2000年のボタンをおすと「結果なし」とエラーが出ますが,2001年から順番に押していきましょう.アニメーションで表示されるので,「조류」がどこに行くか,目を凝らして見てください. 図の上に,年度別に表示するためのボタンがあります.2000年のボタンをおすと「結果なし」とエラーが出ますが,2001年から順番に押していきましょう.アニメーションで表示されるので,「조류」がどこに行くか,目を凝らして見てください.
行 365: 行 367:
 2003年,2004年は「독감」のtスコアが高い(図だと右下の方)のですが,2005年になると「인플루엔자」のtスコアがやや高くなり,位置も上がってきます.2006年になると図の左上に上がり,「독감」より「인플루엔자」のtスコアが高くなりました. 2003年,2004年は「독감」のtスコアが高い(図だと右下の方)のですが,2005年になると「인플루엔자」のtスコアがやや高くなり,位置も上がってきます.2006年になると図の左上に上がり,「독감」より「인플루엔자」のtスコアが高くなりました.
  
-{{img/trend21_flu_2006.png| trend21_flu_2006}}+{{:jakle/img/trend21_flu_2006.png| trend21_flu_2006}}
  
 2006年に逆転して以降,その後は「인플루엔자」のtスコアが「독감」より高い状態がずっと続きます.2005年までは「조류 독감」がより多く,2006年から後は「조류 인플루엔자」の方がより多く現れているようです. 2006年に逆転して以降,その後は「인플루엔자」のtスコアが「독감」より高い状態がずっと続きます.2005年までは「조류 독감」がより多く,2006年から後は「조류 인플루엔자」の方がより多く現れているようです.
jakle/korea/trend21.1649848392.txt.gz · 最終更新: 2022/04/13 20:13 by yoshi