ユーザ用ツール

サイト用ツール


korean:lcorpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:lcorpus [2023/01/05 23:05] yoshikorean:lcorpus [2023/01/06 22:11] (現在) yoshi
行 2: 行 2:
  
 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました. 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました.
-集計やグラフの描画,検定などについてはRを用いています.+集計やグラフの描画,検定などについては[[https://www.r-project.org/|R]](4.2.1)を用いています.
  
 ===== 前提 ===== ===== 前提 =====
行 26: 行 26:
 === 基本統計量 === === 基本統計量 ===
  
-<datatable>+<datatables>
 ^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ ^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |구어     |1급      |   813    267,978  |   329.62     277.13    27    3,618  | |구어     |1급      |   813    267,978  |   329.62     277.13    27    3,618  |
行 44: 行 44:
 |문어     |6급 이상     108    133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  | |문어     |6급 이상     108    133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  |
 |문어     |정보 없음     66    |  13,062     197.91     203.60    32    1,494  | |문어     |정보 없음     66    |  13,062     197.91     203.60    32    1,494  |
-</datatable>+</datatables>
  
 === データの分布 === === データの分布 ===
  
-いずれも分位数95%を上限として,外れ値を除いて可視化.「6級上」「情報なし」も除外.+いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,下のよう関数を作成,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_type_level-1.png}}+<code r> 
 +# x: データフレーム 
 +# for_axis_x: 項目を示す列名 
 +cut_with_no_facet = function(x, for_axis_x) { 
 +  list_quantile <- list() 
 +  list_quantile <- x %>% 
 +    group_by(.data[[for_axis_x]]) %>% 
 +    summarise('cutline' = quantile(어절, 0.95)) %>% 
 +    spread(.data[[for_axis_x]], cutline) 
 +  list_output <- list() 
 +  for (item in names(list_quantile)) { 
 +    temp_cutline <- list_quantile %>% 
 +    select(.data[[item]]) %>% 
 +    as.integer() 
 +  list_output[[item]] <- x %>% 
 +    filter(.data[[for_axis_x]] == item) %>% 
 +    filter(어절 <= temp_cutline) 
 +  } 
 +  df <- bind_rows(list_output) 
 +  return(df) 
 +
 +</code>))可視化.「6級以上」「情報なし」も除外. 
 + 
 +{{:korean:lcorpus:figures:boxplot_by_type_level-1.png}}
  
 === 平均文節数 === === 平均文節数 ===
行 151: 行 174:
 ==== 母語別の基本統計量 ==== ==== 母語別の基本統計量 ====
  
-<datatable>+<datatables>
 ^모국어            ^  サンプル数       文節数       平均文節数    ^   標準偏差     最小値     最大値   ^ ^모국어            ^  サンプル数       文節数       平均文節数    ^   標準偏差     最小値     最大値   ^
 |간다어            |    9         764       84.89    |  37.22     46    |   141   | |간다어            |    9         764       84.89    |  37.22     46    |   141   |
行 248: 行 271:
 |히브리어              7         658       94.00    |  23.68     59    |   122   | |히브리어              7         658       94.00    |  23.68     59    |   122   |
 |힌디어            |    31    |    3,685    |   118.87    55.10     32    |   348   | |힌디어            |    31    |    3,685    |   118.87    55.10     32    |   348   |
-</datatable>+</datatables>
  
 データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える.
行 256: 行 279:
 === 基本統計量 === === 基本統計量 ===
  
-<datatable>+<datatables>
 ^모국어            ^자료 유형  ^  サンプル数       文節数       平均文節数    ^    標準偏差    ^   最小値     最大値   ^ ^모국어            ^자료 유형  ^  サンプル数       文節数       平均文節数    ^    標準偏差    ^   最小値     最大値   ^
 |간다어            |문어        9         764       84.89    |   37.22    |   46    |   141   | |간다어            |문어        9         764       84.89    |   37.22    |   46    |   141   |
行 399: 行 422:
 |히브리어           |문어        7         658       94.00    |   23.68    |   59    |   122   | |히브리어           |문어        7         658       94.00    |   23.68    |   59    |   122   |
 |힌디어            |문어        31    |    3,685    |   118.87     55.10    |   32    |   348   | |힌디어            |문어        31    |    3,685    |   118.87     55.10    |   32    |   348   |
-</datatable>+</datatables>
  
 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある.
行 411: 行 434:
 == 全体 == == 全体 ==
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_all-1.png}}+{{:korean:lcorpus:figures:boxplot_by_lang_all-1.png}}
  
 == 文語データ == == 文語データ ==
行 417: 行 440:
 文語データ,口語データのそれぞれについて,各々文節数の上位10言語の文節数分布を箱ひげ図で表した. 文語データ,口語データのそれぞれについて,各々文節数の上位10言語の文節数分布を箱ひげ図で表した.
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_written-1.png}}+{{:korean:lcorpus:figures:boxplot_by_lang_written-1.png}}
  
 == 口語データ == == 口語データ ==
行 423: 行 446:
 分位数95%を上限として,外れ値を除いて可視化. 分位数95%を上限として,外れ値を除いて可視化.
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_spoken-1.png}}+{{:korean:lcorpus:figures:boxplot_by_lang_spoken-1.png}}
  
 ==== 母語✕学習レベル ==== ==== 母語✕学習レベル ====
行 431: 行 454:
 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む.
  
-<datatable>+<datatables>
 ^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ ^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |베트남어  |1급      |   743    90,265     121.49     215.10    10    3,618  | |베트남어  |1급      |   743    90,265     121.49     215.10    10    3,618  |
行 473: 行 496:
 |타이어   |6급 이상      1    |    212    |   212.00       NA      212  |   212   | |타이어   |6급 이상      1    |    212    |   212.00       NA      212  |   212   |
 |타이어   |정보 없음     34    |  19,294     567.47     315.05    109  |  1,126  | |타이어   |정보 없음     34    |  19,294     567.47     315.05    109  |  1,126  |
-</datatable>+</datatables>
  
 === 全言語の学習レベル別サンプル数 === === 全言語の学習レベル別サンプル数 ===
行 479: 行 502:
 デフォルトでは,合計数の降順に示した. デフォルトでは,合計数の降順に示した.
  
-<datatable>+<datatables>
 ^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^ ^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^
 |간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     | |간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     |
行 576: 行 599:
 |히브리어              1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     | |히브리어              1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     |
 |힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    | |힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    |
-</datatable>+</datatables>
  
 === 全言語の学習レベル別文節数 === === 全言語の学習レベル別文節数 ===
行 582: 行 605:
 合計数の降順に示した. 合計数の降順に示した.
  
-<datatable>+<datatables>
 ^모국어            ^    1급        2급        3급        4급        5급        6급       6급 이상    정보 없음       合計      ^ ^모국어            ^    1급        2급        3급        4급        5급        6급       6급 이상    정보 없음       合計      ^
 |간다어            |    281    |    229    |    254    |                                    0         764     | |간다어            |    281    |    229    |    254    |                                    0         764     |
行 679: 行 702:
 |히브리어              59        70        233    |    181    |    115    |                    0         658     | |히브리어              59        70        233    |    181    |    115    |                    0         658     |
 |힌디어            |    145    |    228    |    718    |    600    |   1,145      849    |            0        3,685    | |힌디어            |    145    |    228    |    718    |    600    |   1,145      849    |            0        3,685    |
-</datatable>+</datatables>
  
 === データの分布 === === データの分布 ===
行 687: 行 710:
 文語データ・口語データを含めた文節数合計の上位5言語について,箱ひげ図で分布を確認する.ただし,いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため,図からは除外した. 文語データ・口語データを含めた文節数合計の上位5言語について,箱ひげ図で分布を確認する.ただし,いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため,図からは除外した.
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang-1.png}}+{{:korean:lcorpus:figures:boxplot_by_lang-1.png}}
  
 == 学習レベル別 == == 学習レベル別 ==
  
-{{:sample_data_summary_files:figure-markdown:boxplot_by_lang_level-1.png}}+{{:korean:lcorpus:figures:boxplot_by_lang_level-1.png}}
  
 === 平均文節数 === === 平均文節数 ===
  
-<datatable>+<datatables>
 ^모국어            ^     1급        2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^ ^모국어            ^     1급        2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^
 |간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA        NA    | |간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA        NA    |
行 792: 行 815:
 |히브리어             59.00    |  70.00    116.50  |  90.50    115.00  |    NA    |     NA        NA    | |히브리어             59.00    |  70.00    116.50  |  90.50    115.00  |    NA    |     NA        NA    |
 |힌디어            |   48.33    |  76.00    119.67  |  100.00  |  163.57  |  141.50  |     NA        NA    | |힌디어            |   48.33    |  76.00    119.67  |  100.00  |  163.57  |  141.50  |     NA        NA    |
-</datatable>+</datatables>
  
korean/lcorpus.1672927555.txt.gz · 最終更新: 2023/01/05 23:05 by yoshi