差分

このページの2つのバージョン間の差分を表示します。

--- korean:lcorpus [2023/01/05 23:05] – yoshi
+++ korean:lcorpus [2023/01/06 22:11] (現在) – yoshi
@@ 行 2: / 行 2: @@
 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築，公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」（韓国語学習者コーパス）について，概要をまとめてみました．
-集計やグラフの描画，検定などについてはRを用いています．
+集計やグラフの描画，検定などについては[[https://www.r-project.org/|R]]（4.2.1）を用いています．
 ===== 前提 =====
@@ 行 26: / 行 26: @@
 === 基本統計量 ===
-<datatable>
+<datatables>
 ^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |구어     |1급      |   813   |  267,978  |   329.62   |   277.13   |  27   |  3,618  |
@@ 行 44: / 行 44: @@
 |문어     |6급 이상   |   108   |  133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  |
 |문어     |정보 없음   |   66    |  13,062   |   197.91   |   203.60   |  32   |  1,494  |
-</datatable>
+</datatables>
 === データの分布 ===
-いずれも分位数95%を上限として，外れ値を除いて可視化．「6級以上」「情報なし」も除外．
+いずれも分位数95%を上限として，外れ値を除いて((外れ値を除くにあたっては，以下のような関数を作成し，各項目ごとに分位数95%を上限として範囲を設定し，それ以上の項目を除外した．
-{{:sample_data_summary_files:figure-markdown:boxplot_by_type_level-1.png}}
+<code r>
+# x: データフレーム
+# for_axis_x: 項目を示す列名
+cut_with_no_facet = function(x, for_axis_x) {
+  list_quantile <- list()
+  list_quantile <- x %>%
+    group_by(.data[[for_axis_x]]) %>%
+    summarise('cutline' = quantile(어절, 0.95)) %>%
+    spread(.data[[for_axis_x]], cutline)
+  list_output <- list()
+  for (item in names(list_quantile)) {
+    temp_cutline <- list_quantile %>%
+    select(.data[[item]]) %>%
+    as.integer()
+  list_output[[item]] <- x %>%
+    filter(.data[[for_axis_x]] == item) %>%
+    filter(어절 <= temp_cutline)
+  }
+  df <- bind_rows(list_output)
+  return(df)
+}
+</code>))可視化．「6級以上」「情報なし」も除外．
+{{:korean:lcorpus:figures:boxplot_by_type_level-1.png}}
 === 平均文節数 ===
@@ 行 151: / 行 174: @@
 ==== 母語別の基本統計量 ====
-<datatable>
+<datatables>
 ^모국어            ^  サンプル数   ^     文節数     ^   平均文節数    ^   標準偏差   ^   最小値   ^   最大値   ^
 |간다어            |    9     |     764     |   84.89    |  37.22   |   46    |   141   |
@@ 行 248: / 行 271: @@
 |히브리어           |    7     |     658     |   94.00    |  23.68   |   59    |   122   |
 |힌디어            |    31    |    3,685    |   118.87   |  55.10   |   32    |   348   |
-</datatable>
+</datatables>
 データ類型を区別しない場合，サンプル数の上位5項目は中国語，日本語，ベトナム語，英語，広東語であった．文節数では中国語，日本語，ベトナム語，タイ語，英語となった．中でもタイ語の平均文節数（325.97文節）は，他の4言語（130.98～167.90文節）を大きく上回っており，1サンプル当たりの分量が多いことが分かる．なお，タイ語については標準偏差も他より大きく，サンプルごとに文節数のばらつきが大きいと言える．
@@ 行 256: / 行 279: @@
 === 基本統計量 ===
-<datatable>
+<datatables>
 ^모국어            ^자료 유형  ^  サンプル数   ^     文節数     ^   平均文節数    ^    標準偏差    ^   最小値   ^   最大値   ^
 |간다어            |문어     |    9     |     764     |   84.89    |   37.22    |   46    |   141   |
@@ 行 399: / 行 422: @@
 |히브리어           |문어     |    7     |     658     |   94.00    |   23.68    |   59    |   122   |
 |힌디어            |문어     |    31    |    3,685    |   118.87   |   55.10    |   32    |   348   |
-</datatable>
+</datatables>
 文語データを見ると，文節数上位の10言語（中国語，日本語，ベトナム語，英語，広東語，ロシア語，タイ語，モンゴル語，スペイン語，インドネシア語）の間で平均文節数に大きな差は見られない（ベトナム語105.05文節～タイ語128.21文節）．中国語の文節数が桁違いに多いが，サンプル数が多いためで，平均文節数もやや多い程度．ただし，標準偏差は他よりも大きく（159.16），最小5文節～最大5782文節と，文節数の幅がかなりある．
@@ 行 411: / 行 434: @@
 == 全体 ==
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_all-1.png}}
+{{:korean:lcorpus:figures:boxplot_by_lang_all-1.png}}
 == 文語データ ==
@@ 行 417: / 行 440: @@
 文語データ，口語データのそれぞれについて，各々文節数の上位10言語の文節数分布を箱ひげ図で表した．
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_written-1.png}}
+{{:korean:lcorpus:figures:boxplot_by_lang_written-1.png}}
 == 口語データ ==
@@ 行 423: / 行 446: @@
 分位数95%を上限として，外れ値を除いて可視化．
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_spoken-1.png}}
+{{:korean:lcorpus:figures:boxplot_by_lang_spoken-1.png}}
 ==== 母語✕学習レベル ====
@@ 行 431: / 行 454: @@
 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため，文節数上位5言語の各レベルに限って，基本統計量を算出した．データ類型は文語・口語いずれも含む．
-<datatable>
+<datatables>
 ^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |베트남어  |1급      |   743   |  90,265   |   121.49   |   215.10   |  10   |  3,618  |
@@ 行 473: / 行 496: @@
 |타이어   |6급 이상   |    1    |    212    |   212.00   |     NA     |  212  |   212   |
 |타이어   |정보 없음   |   34    |  19,294   |   567.47   |   315.05   |  109  |  1,126  |
-</datatable>
+</datatables>
 === 全言語の学習レベル別サンプル数 ===
@@ 行 479: / 行 502: @@
 デフォルトでは，合計数の降順に示した．
-<datatable>
+<datatables>
 ^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^
 |간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     |
@@ 行 576: / 行 599: @@
 |히브리어           |    1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     |
 |힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    |
-</datatable>
+</datatables>
 === 全言語の学習レベル別文節数 ===
@@ 行 582: / 行 605: @@
 合計数の降順に示した．
-<datatable>
+<datatables>
 ^모국어            ^    1급     ^    2급     ^    3급     ^    4급     ^    5급     ^    6급     ^   6급 이상   ^  정보 없음   ^     合計      ^
 |간다어            |    281    |    229    |    254    |     0     |     0     |     0     |     0     |    0     |     764     |
@@ 行 679: / 行 702: @@
 |히브리어           |    59     |    70     |    233    |    181    |    115    |     0     |     0     |    0     |     658     |
 |힌디어            |    145    |    228    |    718    |    600    |   1,145   |    849    |     0     |    0     |    3,685    |
-</datatable>
+</datatables>
 === データの分布 ===
@@ 行 687: / 行 710: @@
 文語データ・口語データを含めた文節数合計の上位5言語について，箱ひげ図で分布を確認する．ただし，いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため，図からは除外した．
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang-1.png}}
+{{:korean:lcorpus:figures:boxplot_by_lang-1.png}}
 == 学習レベル別 ==
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_level-1.png}}
+{{:korean:lcorpus:figures:boxplot_by_lang_level-1.png}}
 === 平均文節数 ===
-<datatable>
+<datatables>
 ^모국어            ^     1급     ^    2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^
 |간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA     |    NA    |
@@ 行 792: / 行 815: @@
 |히브리어           |   59.00    |  70.00   |  116.50  |  90.50   |  115.00  |    NA    |     NA     |    NA    |
 |힌디어            |   48.33    |  76.00   |  119.67  |  100.00  |  163.57  |  141.50  |     NA     |    NA    |
-</datatable>
+</datatables>