ユーザ用ツール

サイト用ツール


korean:lcorpus

韓国語学習者コーパスについて(概要)

韓国・国立国語院が構築,公開している「한국어 학습자 말뭉치」(韓国語学習者コーパス)について,概要をまとめてみました. 集計やグラフの描画,検定などについてはR(4.2.1)を用いています.

前提

2022年6月に한국어 학습자 말뭉치 나눔터から取得したデータについて,サンプル情報ファイル「2015~2021 학습자 말뭉치 표본 정보(공개 표본 파일명 부착)_20220420(최종공개용).xlsx」の内容を適宜まとめた.

以下では「원시 말뭉치」(原文コーパス)のデータについて扱う.サンプルの総数は34342項目である.

データ類型別の集計

「자료 유형」を基にした集計を行う.以下は全データの基本統計量.

データ類型別の基本統計量

자료 유형 サンプル数 文節数 平均文節数 標準偏差 最小値 最大値
구어 3,141 1,522,477 484.71 408.87 27 6,799
문어 31,201 3,697,952 118.52 126.58 5 5,782

データ類型✕学習レベル

データ類型ごとに,学習レベル別の集計を行う.

基本統計量

자료 유형 한국어 등급 サンプル数 文節数 平均文節数 標準偏差 最小値 最大値
구어 1급 813 267,978 329.62 277.13 27 3,618
구어 2급 635 296,527 466.97 360.85 36 4,924
구어 3급 665 394,699 593.53 534.73 40 4,318
구어 4급 509 241,248 473.96 324.51 74 3,383
구어 5급 237 134,329 566.79 293.57 86 1,714
구어 6급 160 103,742 648.39 342.55 125 1,835
구어 6급 이상 21 30,739 1,463.76 1,346.75 374 6,799
구어 정보 없음 101 53,215 526.88 274.08 77 1,250
문어 1급 6,682 438,974 65.70 28.97 5 297
문어 2급 6,135 596,187 97.18 39.85 12 479
문어 3급 5,793 688,995 118.94 52.66 15 1,407
문어 4급 4,969 648,682 130.55 81.47 20 1,798
문어 5급 4,659 722,128 155.00 102.89 30 2,857
문어 6급 2,789 456,313 163.61 123.75 36 2,329
문어 6급 이상 108 133,611 1,237.14 1,265.14 115 5,782
문어 정보 없음 66 13,062 197.91 203.60 32 1,494

データの分布

いずれも分位数95%を上限として,外れ値を除いて1)可視化.「6級以上」「情報なし」も除外.

平均文節数

자료 유형 1급 2급 3급 4급 5급 6급 6급 이상 정보 없음
구어 329.62 466.97 593.53 473.96 566.79 648.39 1,463.76 526.88
문어 65.70 97.18 118.94 130.55 155.00 163.61 1,237.14 197.91

データ類型ごとに,学習レベル別の平均文節数に有意な差があるか,確認してみる.

文語データ
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  aov_df$어절
## D = 0.23714, p-value < 2.2e-16

Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  aov_df$어절 and aov_df$`한국어 등급`
## Kruskal-Wallis chi-squared = 13966, df = 7, p-value < 2.2e-16

p<0.05であるので,各学習レベルごとに,平均文節数に有意な差が見られると言える.

次に,どのレベルとの間で有意な差が見られるのか,Bonferroniの方法によって多重比較を行った:

## 
##  Pairwise comparisons using t tests with pooled SD 
## 
## data:  aov_df$어절 and aov_df$`한국어 등급` 
## 
##           1급     2급     3급     4급     5급     6급     6급 이상
## 2급       < 2e-16 -       -       -       -       -       -       
## 3급       < 2e-16 < 2e-16 -       -       -       -       -       
## 4급       < 2e-16 < 2e-16 1.5e-07 -       -       -       -       
## 5급       < 2e-16 < 2e-16 < 2e-16 < 2e-16 -       -       -       
## 6급       < 2e-16 < 2e-16 < 2e-16 < 2e-16 0.013   -       -       
## 6급 이상  < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 -       
## 정보 없음 < 2e-16 7.5e-14 1.6e-08 3.6e-06 0.022   0.209   < 2e-16 
## 
## P value adjustment method: bonferroni

多重比較の結果,1級~6級以上までは,それぞれの級の間で平均文節数に有意な差が見られ,学習レベルが上がるに連れて,平均文節数が増えていることが分かる.ただし,6級と「情報なし」では有意な差が見られなかった.

口語データ
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  aov_df$어절
## D = 0.13851, p-value < 2.2e-16

Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  aov_df$어절 and aov_df$`한국어 등급`
## Kruskal-Wallis chi-squared = 381.94, df = 7, p-value < 2.2e-16

文語データの場合と同様,p<0.05であるので,各学習レベルごとに,平均文節数に有意な差が見られると言える.

次に,Bonferroniの方法によって多重比較を行った:

## 
##  Pairwise comparisons using t tests with pooled SD 
## 
## data:  aov_df$어절 and aov_df$`한국어 등급` 
## 
##           1급     2급     3급     4급     5급     6급     6급 이상
## 2급       7.4e-10 -       -       -       -       -       -       
## 3급       < 2e-16 1.3e-07 -       -       -       -       -       
## 4급       1.5e-09 1.000   4.9e-06 -       -       -       -       
## 5급       4.8e-15 0.020   1.000   0.066   -       -       -       
## 6급       < 2e-16 3.7e-06 1.000   2.0e-05 1.000   -       -       
## 6급 이상  < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 -       
## 정보 없음 4.2e-05 1.000   1.000   1.000   1.000   0.384   < 2e-16 
## 
## P value adjustment method: bonferroni

多重比較の結果,1級から3級まではレベルが上がるに連れて,平均文節数が有意に増えていると言える.しかし,3級と4級とでは有意な差が見られるものの,4級で平均文節数が減少しており,3級よりも4級のほうが有意に少ない平均文節数となっている.また,2級と4級とではその差が有意であるとは言えない.なお,3級の平均文節数がレベルの割に多いことは,3級―5級,3級―6級とでそれぞれ有意な差が見られない点からも分かる.

結論として,口語データの場合,1級から3級までは学習レベルが上がるに連れて平均文節数が増えると言えるが,4級以降,3級に比べると平均文節数が有意に増えるとは言えないことが分かった.

母語別の集計

「모국어」を基にした集計を行う.以下はデータ類型を区別しない,母語別の基本統計量.

母語別の基本統計量

모국어 サンプル数 文節数 平均文節数 標準偏差 最小値 最大値
간다어 9 764 84.89 37.22 46 141
광둥어 1,551 187,516 120.90 62.28 16 1,208
구자라트어 1 82 82.00 NA 82 82
그리스어 2 209 104.50 47.38 71 138
네덜란드어 52 6,352 122.15 127.74 34 810
네팔어 77 10,423 135.36 204.77 13 1,416
노르웨이어 56 5,812 103.79 47.32 36 223
노르웨이어 (뉘노르스크) 3 301 100.33 49.56 61 156
덴마크어 12 1,081 90.08 36.62 45 180
독일어 157 19,101 121.66 117.90 32 1,167
딩카어 2 133 66.50 12.02 58 75
라오어 19 4,096 215.58 308.75 35 1,093
라트비아어 1 58 58.00 NA 58 58
라틴어 1 85 85.00 NA 85 85
러시아어 1,415 208,292 147.20 159.88 6 1,771
루마니아어 15 2,196 146.40 159.66 46 700
룩셈부르크어 2 444 222.00 4.24 219 225
르완다어 16 1,547 96.69 48.21 57 215
리투아니아어 4 259 64.75 13.57 53 83
마다가스카르어 2 279 139.50 10.61 132 147
마라티어 2 187 93.50 13.44 84 103
마오리어 2 97 48.50 13.44 39 58
말라얄람어 2 178 89.00 12.73 80 98
말레이어 193 29,376 152.21 145.94 29 1,302
몽골어 741 88,507 119.44 93.89 13 1,054
버마어 104 31,023 298.30 364.80 34 1,452
베트남어 2,862 480,516 167.90 229.96 10 3,656
벨라루스어 1 135 135.00 NA 135 135
벵골어 78 6,838 87.67 62.60 15 521
불가리아어 11 1,816 165.09 120.35 43 452
세르비아어 6 1,180 196.67 277.87 69 763
세부아노어 7 3,701 528.71 269.59 58 898
스와힐리어 21 2,521 120.05 118.82 51 622
스웨덴어 292 26,861 91.99 42.91 29 283
스페인어 717 152,387 212.53 247.90 22 1,397
슬로바키아어 6 744 124.00 49.54 38 170
슬로베니아어 3 314 104.67 50.54 53 154
싱할라어 158 48,181 304.94 354.79 20 3,635
아랍어 235 30,284 128.87 127.22 15 1,018
아르메니아어 7 1,242 177.43 136.02 63 464
아이슬란드어 1 51 51.00 NA 51 51
아제르바이잔어 27 3,257 120.63 53.57 52 255
아프리칸스어 1 36 36.00 NA 36 36
알바니아어 1 84 84.00 NA 84 84
암하라어 21 2,729 129.95 135.06 6 626
에스토니아어 3 640 213.33 126.06 127 358
영어 2,271 297,447 130.98 139.80 12 2,329
우르두어 42 3,102 73.86 50.45 10 192
우즈베크어 186 31,094 167.17 174.57 25 1,011
우크라이나어 28 3,009 107.46 45.91 42 244
월로프어 1 72 72.00 NA 72 72
웨일스어 2 204 102.00 8.49 96 108
위구르어 6 725 120.83 47.73 88 212
이그보어 7 715 102.14 33.34 61 164
이탈리아어 161 23,003 142.88 389.43 12 4,741
인도네시아어 523 106,662 203.94 202.82 24 1,462
일본어 4,600 657,922 143.03 146.85 24 4,924
자바어 4 777 194.25 85.63 128 320
조지아어 2 202 101.00 74.95 48 154
중국어 14,714 2,066,373 140.44 185.10 5 5,782
중국어(만다린어) 6 499 83.17 53.23 31 185
체코어 7 628 89.71 33.30 49 154
츠와나어 1 43 43.00 NA 43 43
카자흐어 199 31,402 157.80 168.09 33 1,041
카탈루냐어 7 671 95.86 42.10 39 177
칸나다어 3 408 136.00 20.52 116 157
쿠르드어 3 1,168 389.33 514.81 36 980
크메르어 127 15,415 121.38 124.80 16 1,017
키르기스어 122 30,062 246.41 219.98 39 1,062
타갈로그어 260 58,366 224.48 325.92 20 3,775
타밀어 20 2,569 128.45 120.70 43 494
타이어 1,201 391,490 325.97 453.72 17 4,318
타지크어 11 1,977 179.73 240.65 54 898
타타르어 1 1,183 1,183.00 NA 1,183 1,183
터키어 101 13,258 131.27 104.59 29 814
테툼어 13 1,386 106.62 57.81 35 247
텔루구어 2 138 69.00 1.41 68 70
투르크멘어 22 3,778 171.73 85.25 35 347
트위어 1 117 117.00 NA 117 117
티그리냐어 2 123 61.50 19.09 48 75
티베트어 2 180 90.00 22.63 74 106
파슈토어 1 58 58.00 NA 58 58
판테어(Fanti) 1 43 43.00 NA 43 43
펀자브어 1 221 221.00 NA 221 221
페르시아어 74 8,114 109.65 45.55 30 307
포르투갈어 139 18,800 135.25 113.36 33 904
폴란드어 25 3,347 133.88 118.81 49 683
풀라어 1 245 245.00 NA 245 245
프랑스어 406 48,289 118.94 91.60 25 933
피지어 1 77 77.00 NA 77 77
핀란드어 15 1,571 104.73 48.11 37 177
한국어 66 23,678 358.76 886.57 35 6,799
헝가리어 17 3,560 209.41 123.27 93 570
히브리어 7 658 94.00 23.68 59 122
힌디어 31 3,685 118.87 55.10 32 348

データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える.

母語✕データ類型

基本統計量

모국어 자료 유형 サンプル数 文節数 平均文節数 標準偏差 最小値 最大値
간다어 문어 9 764 84.89 37.22 46 141
광둥어 구어 7 3,333 476.14 358.37 161 1,208
광둥어 문어 1,544 184,183 119.29 53.12 16 509
구자라트어 문어 1 82 82.00 NA 82 82
그리스어 문어 2 209 104.50 47.38 71 138
네덜란드어 구어 2 1,423 711.50 139.30 613 810
네덜란드어 문어 50 4,929 98.58 42.95 34 211
네팔어 구어 6 4,186 697.67 447.82 143 1,416
네팔어 문어 71 6,237 87.85 42.55 13 168
노르웨이어 문어 56 5,812 103.79 47.32 36 223
노르웨이어 (뉘노르스크) 문어 3 301 100.33 49.56 61 156
덴마크어 문어 12 1,081 90.08 36.62 45 180
독일어 구어 4 2,787 696.75 382.92 237 1,167
독일어 문어 153 16,314 106.63 49.40 32 402
딩카어 문어 2 133 66.50 12.02 58 75
라오어 문어 19 4,096 215.58 308.75 35 1,093
라트비아어 문어 1 58 58.00 NA 58 58
라틴어 구어 1 85 85.00 NA 85 85
러시아어 구어 214 79,079 369.53 263.32 38 1,211
러시아어 문어 1,201 129,213 107.59 86.17 6 1,771
루마니아어 구어 1 700 700.00 NA 700 700
루마니아어 문어 14 1,496 106.86 46.84 46 192
룩셈부르크어 문어 2 444 222.00 4.24 219 225
르완다어 구어 2 272 136.00 111.72 57 215
르완다어 문어 14 1,275 91.07 38.07 57 183
리투아니아어 문어 4 259 64.75 13.57 53 83
마다가스카르어 문어 2 279 139.50 10.61 132 147
마라티어 문어 2 187 93.50 13.44 84 103
마오리어 문어 2 97 48.50 13.44 39 58
말라얄람어 문어 2 178 89.00 12.73 80 98
말레이어 구어 2 862 431.00 441.23 119 743
말레이어 문어 191 28,514 149.29 140.26 29 1,302
몽골어 구어 46 15,339 333.46 256.29 56 1,054
몽골어 문어 695 73,168 105.28 43.63 13 318
버마어 구어 26 22,052 848.15 338.72 125 1,452
버마어 문어 78 8,971 115.01 68.12 34 458
베트남어 구어 456 227,761 499.48 371.08 59 3,618
베트남어 문어 2,406 252,755 105.05 109.82 10 3,656
벨라루스어 문어 1 135 135.00 NA 135 135
벵골어 구어 2 680 340.00 255.97 159 521
벵골어 문어 76 6,158 81.03 37.51 15 167
불가리아어 구어 1 452 452.00 NA 452 452
불가리아어 문어 10 1,364 136.40 77.67 43 296
세르비아어 구어 1 763 763.00 NA 763 763
세르비아어 문어 5 417 83.40 17.18 69 112
세부아노어 구어 6 3,643 607.17 188.45 384 898
세부아노어 문어 1 58 58.00 NA 58 58
스와힐리어 구어 2 779 389.50 328.80 157 622
스와힐리어 문어 19 1,742 91.68 27.66 51 147
스웨덴어 구어 3 831 277.00 8.72 267 283
스웨덴어 문어 289 26,030 90.07 38.73 29 240
스페인어 구어 181 95,371 526.91 321.18 63 1,397
스페인어 문어 536 57,016 106.37 53.01 22 496
슬로바키아어 문어 6 744 124.00 49.54 38 170
슬로베니아어 문어 3 314 104.67 50.54 53 154
싱할라어 구어 52 30,505 586.63 156.40 282 994
싱할라어 문어 106 17,676 166.75 343.16 20 3,635
아랍어 구어 20 9,636 481.80 182.53 189 1,018
아랍어 문어 215 20,648 96.04 44.89 15 339
아르메니아어 구어 1 464 464.00 NA 464 464
아르메니아어 문어 6 778 129.67 55.14 63 211
아이슬란드어 문어 1 51 51.00 NA 51 51
아제르바이잔어 구어 1 255 255.00 NA 255 255
아제르바이잔어 문어 26 3,002 115.46 47.27 52 215
아프리칸스어 문어 1 36 36.00 NA 36 36
알바니아어 문어 1 84 84.00 NA 84 84
암하라어 구어 3 1,224 408.00 189.01 290 626
암하라어 문어 18 1,505 83.61 36.61 6 153
에스토니아어 구어 1 358 358.00 NA 358 358
에스토니아어 문어 2 282 141.00 19.80 127 155
영어 구어 109 56,329 516.78 305.09 70 1,626
영어 문어 2,162 241,118 111.53 89.39 12 2,329
우르두어 구어 1 180 180.00 NA 180 180
우르두어 문어 41 2,922 71.27 48.17 10 192
우즈베크어 구어 28 14,430 515.36 189.72 100 1,011
우즈베크어 문어 158 16,664 105.47 65.32 25 555
우크라이나어 문어 28 3,009 107.46 45.91 42 244
월로프어 문어 1 72 72.00 NA 72 72
웨일스어 문어 2 204 102.00 8.49 96 108
위구르어 문어 6 725 120.83 47.73 88 212
이그보어 문어 7 715 102.14 33.34 61 164
이탈리아어 구어 18 3,164 175.78 223.96 69 1,000
이탈리아어 문어 143 19,839 138.73 405.86 12 4,741
인도네시아어 구어 138 60,164 435.97 237.61 32 1,462
인도네시아어 문어 385 46,498 120.77 97.43 24 1,097
일본어 구어 288 142,524 494.88 401.85 53 4,924
일본어 문어 4,312 515,398 119.53 58.59 24 1,246
자바어 구어 1 320 320.00 NA 320 320
자바어 문어 3 457 152.33 21.36 128 168
조지아어 문어 2 202 101.00 74.95 48 154
중국어 구어 870 345,031 396.59 326.64 29 2,452
중국어 문어 13,844 1,721,342 124.34 159.16 5 5,782
중국어(만다린어) 문어 6 499 83.17 53.23 31 185
체코어 문어 7 628 89.71 33.30 49 154
츠와나어 문어 1 43 43.00 NA 43 43
카자흐어 구어 13 8,524 655.69 311.69 244 1,041
카자흐어 문어 186 22,878 123.00 72.80 33 879
카탈루냐어 문어 7 671 95.86 42.10 39 177
칸나다어 문어 3 408 136.00 20.52 116 157
쿠르드어 문어 3 1,168 389.33 514.81 36 980
크메르어 구어 25 7,228 289.12 174.68 110 1,017
크메르어 문어 102 8,187 80.26 59.23 16 348
키르기스어 구어 38 19,478 512.58 216.20 107 1,062
키르기스어 문어 84 10,584 126.00 50.99 39 297
타갈로그어 구어 90 45,223 502.48 431.54 36 3,775
타갈로그어 문어 170 13,143 77.31 42.13 20 389
타밀어 문어 20 2,569 128.45 120.70 43 494
타이어 구어 443 294,309 664.35 606.30 27 4,318
타이어 문어 758 97,181 128.21 74.34 17 479
타지크어 구어 1 898 898.00 NA 898 898
타지크어 문어 10 1,079 107.90 35.92 54 149
타타르어 구어 1 1,183 1,183.00 NA 1,183 1,183
터키어 구어 4 1,729 432.25 326.64 104 814
터키어 문어 97 11,529 118.86 64.27 29 403
테툼어 구어 1 247 247.00 NA 247 247
테툼어 문어 12 1,139 94.92 41.28 35 174
텔루구어 문어 2 138 69.00 1.41 68 70
투르크멘어 문어 22 3,778 171.73 85.25 35 347
트위어 문어 1 117 117.00 NA 117 117
티그리냐어 문어 2 123 61.50 19.09 48 75
티베트어 문어 2 180 90.00 22.63 74 106
파슈토어 문어 1 58 58.00 NA 58 58
판테어(Fanti) 문어 1 43 43.00 NA 43 43
펀자브어 문어 1 221 221.00 NA 221 221
페르시아어 구어 1 307 307.00 NA 307 307
페르시아어 문어 73 7,807 106.95 39.44 30 255
포르투갈어 구어 13 4,875 375.00 212.07 185 904
포르투갈어 문어 126 13,925 110.52 57.22 33 405
폴란드어 구어 2 786 393.00 410.12 103 683
폴란드어 문어 23 2,561 111.35 33.46 49 186
풀라어 구어 1 245 245.00 NA 245 245
프랑스어 구어 11 4,896 445.09 229.91 147 811
프랑스어 문어 395 43,393 109.86 65.04 25 933
피지어 문어 1 77 77.00 NA 77 77
핀란드어 문어 15 1,571 104.73 48.11 37 177
한국어 구어 2 7,333 3,666.50 4,430.02 534 6,799
한국어 문어 64 16,345 255.39 375.84 35 2,008
헝가리어 구어 1 234 234.00 NA 234 234
헝가리어 문어 16 3,326 207.88 127.14 93 570
히브리어 문어 7 658 94.00 23.68 59 122
힌디어 문어 31 3,685 118.87 55.10 32 348

文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある.

反対に,文語データでばらつきが少ないのはモンゴル語(標準偏差43.63),スペイン語(53.01),広東語(53.12),日本語(58.59)などであった.

口語データについては,文節数上位の10言語(中国語,タイ語,ベトナム語,日本語,スペイン語,ロシア語,インドネシア語,英語,タガログ語,シンハラ語)の間で平均文節数に大きな開きがある(ロシア語369.53文節~タイ語664.35文節). タイ語について,文語データでは第7位だった文節数が,口語データでは2位となっており,口語データがかなり多い.

データの分布

全体

文語データ

文語データ,口語データのそれぞれについて,各々文節数の上位10言語の文節数分布を箱ひげ図で表した.

口語データ

分位数95%を上限として,外れ値を除いて可視化.

母語✕学習レベル

文節数上位5言語の基本統計量

全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む.

모국어 한국어 등급 サンプル数 文節数 平均文節数 標準偏差 最小値 最大値
베트남어 1급 743 90,265 121.49 215.10 10 3,618
베트남어 2급 668 96,898 145.06 175.30 12 1,127
베트남어 3급 575 99,923 173.78 204.96 15 2,762
베트남어 4급 444 95,169 214.34 279.34 24 3,383
베트남어 5급 300 62,608 208.69 212.91 41 2,548
베트남어 6급 120 26,084 217.37 179.55 57 1,216
베트남어 6급 이상 5 6,773 1,354.60 1,501.48 225 3,656
베트남어 정보 없음 7 2,796 399.43 202.64 147 785
영어 1급 511 40,886 80.01 83.78 12 756
영어 2급 521 65,291 125.32 151.77 30 1,626
영어 3급 454 61,269 134.95 111.36 49 822
영어 4급 354 48,536 137.11 90.88 29 822
영어 5급 242 42,274 174.69 150.00 30 1,342
영어 6급 178 34,679 194.83 232.63 57 2,329
영어 6급 이상 4 2,791 697.75 541.21 171 1,222
영어 정보 없음 7 1,721 245.86 277.95 67 864
일본어 1급 602 51,247 85.13 67.65 24 617
일본어 2급 949 113,600 119.70 190.93 40 4,924
일본어 3급 988 134,405 136.04 87.73 45 870
일본어 4급 896 135,091 150.77 114.54 49 1,641
일본어 5급 681 127,963 187.90 158.42 58 1,539
일본어 6급 470 89,522 190.47 191.49 54 1,587
일본어 6급 이상 4 1,291 322.75 341.74 134 835
일본어 정보 없음 10 4,803 480.30 420.05 77 1,250
중국어 1급 3,342 248,351 74.31 60.80 5 746
중국어 2급 2,499 293,340 117.38 94.67 23 1,347
중국어 3급 2,367 331,106 139.88 115.93 28 2,108
중국어 4급 2,290 338,506 147.82 134.97 20 1,798
중국어 5급 2,561 428,715 167.40 139.16 38 2,857
중국어 6급 1,503 283,303 188.49 185.02 36 2,014
중국어 6급 이상 90 123,647 1,373.86 1,215.38 115 5,782
중국어 정보 없음 62 19,405 312.98 229.72 35 973
타이어 1급 343 80,264 234.01 255.73 17 1,893
타이어 2급 276 66,776 241.94 325.44 27 2,902
타이어 3급 304 172,611 567.80 716.71 34 4,318
타이어 4급 114 25,843 226.69 220.28 25 1,167
타이어 5급 75 14,282 190.43 168.39 65 847
타이어 6급 54 12,208 226.07 160.92 59 693
타이어 6급 이상 1 212 212.00 NA 212 212
타이어 정보 없음 34 19,294 567.47 315.05 109 1,126

全言語の学習レベル別サンプル数

デフォルトでは,合計数の降順に示した.

모국어 1급 2급 3급 4급 5급 6급 6급 이상 정보 없음 合計
간다어 5 2 2 0 0 0 0 0 9
광둥어 210 284 312 295 229 220 0 1 1,551
구자라트어 0 1 0 0 0 0 0 0 1
그리스어 0 1 1 0 0 0 0 0 2
네덜란드어 22 7 6 4 7 5 0 1 52
네팔어 15 25 21 13 2 0 0 1 77
노르웨이어 17 17 10 3 6 2 0 1 56
노르웨이어 (뉘노르스크) 2 0 0 0 1 0 0 0 3
덴마크어 2 5 1 0 0 4 0 0 12
독일어 41 23 27 30 25 11 0 0 157
딩카어 2 0 0 0 0 0 0 0 2
라오어 3 4 2 1 5 2 2 0 19
라트비아어 0 1 0 0 0 0 0 0 1
라틴어 1 0 0 0 0 0 0 0 1
러시아어 252 312 312 254 189 77 5 14 1,415
루마니아어 1 10 1 2 0 1 0 0 15
룩셈부르크어 0 0 1 1 0 0 0 0 2
르완다어 4 5 5 2 0 0 0 0 16
리투아니아어 2 0 1 1 0 0 0 0 4
마다가스카르어 0 0 0 0 2 0 0 0 2
마라티어 1 0 1 0 0 0 0 0 2
마오리어 2 0 0 0 0 0 0 0 2
말라얄람어 1 0 0 1 0 0 0 0 2
말레이어 30 44 59 40 11 6 3 0 193
몽골어 171 163 149 113 96 43 0 6 741
버마어 22 23 16 16 18 9 0 0 104
베트남어 743 668 575 444 300 120 5 7 2,862
벨라루스어 0 0 1 0 0 0 0 0 1
벵골어 31 17 19 10 1 0 0 0 78
불가리아어 1 2 2 1 4 1 0 0 11
세르비아어 2 2 0 0 2 0 0 0 6
세부아노어 0 1 0 0 3 3 0 0 7
스와힐리어 8 4 5 2 1 0 1 0 21
스웨덴어 98 69 73 32 12 8 0 0 292
스페인어 188 192 162 107 50 15 1 2 717
슬로바키아어 1 0 0 3 2 0 0 0 6
슬로베니아어 1 0 0 1 0 1 0 0 3
싱할라어 30 37 34 26 20 10 1 0 158
아랍어 57 52 47 35 24 17 0 3 235
아르메니아어 2 2 0 0 1 2 0 0 7
아이슬란드어 1 0 0 0 0 0 0 0 1
아제르바이잔어 4 6 1 0 6 10 0 0 27
아프리칸스어 1 0 0 0 0 0 0 0 1
알바니아어 0 1 0 0 0 0 0 0 1
암하라어 7 4 6 4 0 0 0 0 21
에스토니아어 0 0 2 1 0 0 0 0 3
영어 511 521 454 354 242 178 4 7 2,271
우르두어 23 9 8 1 1 0 0 0 42
우즈베크어 57 39 37 27 18 6 0 2 186
우크라이나어 5 2 4 5 6 6 0 0 28
월로프어 0 0 0 0 1 0 0 0 1
웨일스어 0 0 2 0 0 0 0 0 2
위구르어 0 0 2 3 1 0 0 0 6
이그보어 1 4 2 0 0 0 0 0 7
이탈리아어 63 19 22 20 21 15 1 0 161
인도네시아어 141 106 82 78 70 44 1 1 523
일본어 602 949 988 896 681 470 4 10 4,600
자바어 0 0 1 3 0 0 0 0 4
조지아어 1 0 0 0 1 0 0 0 2
중국어 3,342 2,499 2,367 2,290 2,561 1,503 90 62 14,714
중국어(만다린어) 4 0 0 0 2 0 0 0 6
체코어 1 3 3 0 0 0 0 0 7
츠와나어 1 0 0 0 0 0 0 0 1
카자흐어 34 36 40 43 30 12 0 4 199
카탈루냐어 6 0 0 0 0 1 0 0 7
칸나다어 0 1 0 0 1 1 0 0 3
쿠르드어 1 0 0 2 0 0 0 0 3
크메르어 33 20 47 14 12 1 0 0 127
키르기스어 17 30 12 21 26 7 2 7 122
타갈로그어 74 88 47 40 6 4 0 1 260
타밀어 9 5 0 0 3 1 2 0 20
타이어 343 276 304 114 75 54 1 34 1,201
타지크어 3 1 1 1 4 1 0 0 11
타타르어 1 0 0 0 0 0 0 0 1
터키어 15 19 22 14 22 8 1 0 101
테툼어 5 2 5 1 0 0 0 0 13
텔루구어 0 1 1 0 0 0 0 0 2
투르크멘어 6 5 5 6 0 0 0 0 22
트위어 0 0 1 0 0 0 0 0 1
티그리냐어 2 0 0 0 0 0 0 0 2
티베트어 0 1 0 1 0 0 0 0 2
파슈토어 0 1 0 0 0 0 0 0 1
판테어(Fanti) 1 0 0 0 0 0 0 0 1
펀자브어 0 0 0 1 0 0 0 0 1
페르시아어 11 18 19 18 4 3 1 0 74
포르투갈어 33 36 19 21 20 10 0 0 139
폴란드어 8 6 5 3 2 1 0 0 25
풀라어 0 0 0 1 0 0 0 0 1
프랑스어 143 80 83 38 36 25 1 0 406
피지어 0 0 0 1 0 0 0 0 1
핀란드어 4 2 3 3 3 0 0 0 15
한국어 9 2 5 5 19 21 2 3 66
헝가리어 0 1 5 3 3 4 1 0 17
히브리어 1 1 2 2 1 0 0 0 7
힌디어 3 3 6 6 7 6 0 0 31

全言語の学習レベル別文節数

合計数の降順に示した.

모국어 1급 2급 3급 4급 5급 6급 6급 이상 정보 없음 合計
간다어 281 229 254 0 0 0 0 0 764
광둥어 13,409 28,780 37,024 37,748 35,293 34,814 0 448 187,516
구자라트어 0 82 0 0 0 0 0 0 82
그리스어 0 71 138 0 0 0 0 0 209
네덜란드어 2,085 594 786 1,170 930 626 0 161 6,352
네팔어 1,450 1,921 2,265 4,003 276 0 0 508 10,423
노르웨이어 1,182 1,654 1,256 297 977 267 0 179 5,812
노르웨이어 (뉘노르스크) 145 0 0 0 156 0 0 0 301
덴마크어 134 381 98 0 0 468 0 0 1,081
독일어 2,776 2,251 3,103 5,390 3,526 2,055 0 0 19,101
딩카어 133 0 0 0 0 0 0 0 133
라오어 117 525 196 66 686 348 2,158 0 4,096
라트비아어 0 58 0 0 0 0 0 0 58
라틴어 85 0 0 0 0 0 0 0 85
러시아어 24,517 38,768 49,296 41,590 30,588 14,415 4,305 4,813 208,292
루마니아어 46 1,610 156 225 0 159 0 0 2,196
룩셈부르크어 0 0 219 225 0 0 0 0 444
르완다어 231 536 429 351 0 0 0 0 1,547
리투아니아어 109 0 67 83 0 0 0 0 259
마다가스카르어 0 0 0 0 279 0 0 0 279
마라티어 84 0 103 0 0 0 0 0 187
마오리어 97 0 0 0 0 0 0 0 97
말라얄람어 80 0 0 98 0 0 0 0 178
말레이어 1,758 4,309 9,050 8,260 2,643 880 2,476 0 29,376
몽골어 12,932 15,363 20,061 16,552 15,072 6,050 0 2,477 88,507
버마어 3,703 7,978 7,533 6,998 2,779 2,032 0 0 31,023
베트남어 90,265 96,898 99,923 95,169 62,608 26,084 6,773 2,796 480,516
벨라루스어 0 0 135 0 0 0 0 0 135
벵골어 1,630 1,529 2,282 1,285 112 0 0 0 6,838
불가리아어 43 153 432 140 865 183 0 0 1,816
세르비아어 142 198 0 0 840 0 0 0 1,180
세부아노어 0 58 0 0 2,242 1,401 0 0 3,701
스와힐리어 545 352 588 267 147 0 622 0 2,521
스웨덴어 5,446 6,240 8,767 3,657 1,779 972 0 0 26,861
스페인어 35,332 37,623 37,295 27,871 10,341 2,663 594 668 152,387
슬로바키아어 38 0 0 388 318 0 0 0 744
슬로베니아어 53 0 0 107 0 154 0 0 314
싱할라어 7,914 8,860 9,746 8,081 6,103 3,842 3,635 0 48,181
아랍어 3,446 7,280 5,605 7,162 3,562 2,711 0 518 30,284
아르메니아어 145 267 0 0 155 675 0 0 1,242
아이슬란드어 51 0 0 0 0 0 0 0 51
아제르바이잔어 298 760 76 0 707 1,416 0 0 3,257
아프리칸스어 36 0 0 0 0 0 0 0 36
알바니아어 0 84 0 0 0 0 0 0 84
암하라어 384 889 699 757 0 0 0 0 2,729
에스토니아어 0 0 282 358 0 0 0 0 640
영어 40,886 65,291 61,269 48,536 42,274 34,679 2,791 1,721 297,447
우르두어 1,571 633 584 122 192 0 0 0 3,102
우즈베크어 5,160 9,412 5,367 5,807 3,687 1,328 0 333 31,094
우크라이나어 336 122 394 494 905 758 0 0 3,009
월로프어 0 0 0 0 72 0 0 0 72
웨일스어 0 0 204 0 0 0 0 0 204
위구르어 0 0 240 273 212 0 0 0 725
이그보어 61 439 215 0 0 0 0 0 715
이탈리아어 4,200 2,019 2,440 2,184 4,927 2,492 4,741 0 23,003
인도네시아어 18,314 21,050 22,257 17,817 16,315 8,961 1,097 851 106,662
일본어 51,247 113,600 134,405 135,091 127,963 89,522 1,291 4,803 657,922
자바어 0 0 161 616 0 0 0 0 777
조지아어 48 0 0 0 154 0 0 0 202
중국어 248,351 293,340 331,106 338,506 428,715 283,303 123,647 19,405 2,066,373
중국어(만다린어) 226 0 0 0 273 0 0 0 499
체코어 49 253 326 0 0 0 0 0 628
츠와나어 43 0 0 0 0 0 0 0 43
카자흐어 2,742 4,800 6,071 8,176 4,564 2,396 0 2,653 31,402
카탈루냐어 494 0 0 0 0 177 0 0 671
칸나다어 0 116 0 0 135 157 0 0 408
쿠르드어 36 0 0 1,132 0 0 0 0 1,168
크메르어 4,947 2,126 4,706 1,741 1,769 126 0 0 15,415
키르기스어 2,256 6,022 5,388 6,371 6,214 942 396 2,473 30,062
타갈로그어 14,764 15,600 14,246 9,363 2,229 2,100 0 64 58,366
타밀어 556 505 0 0 438 139 931 0 2,569
타이어 80,264 66,776 172,611 25,843 14,282 12,208 212 19,294 391,490
타지크어 187 898 112 149 527 104 0 0 1,977
타타르어 1,183 0 0 0 0 0 0 0 1,183
터키어 966 2,452 2,436 2,465 3,105 1,431 403 0 13,258
테툼어 313 229 597 247 0 0 0 0 1,386
텔루구어 0 68 70 0 0 0 0 0 138
투르크멘어 515 589 1,015 1,659 0 0 0 0 3,778
트위어 0 0 117 0 0 0 0 0 117
티그리냐어 123 0 0 0 0 0 0 0 123
티베트어 0 74 0 106 0 0 0 0 180
파슈토어 0 58 0 0 0 0 0 0 58
판테어(Fanti) 43 0 0 0 0 0 0 0 43
펀자브어 0 0 0 221 0 0 0 0 221
페르시아어 681 1,960 2,142 2,318 474 409 130 0 8,114
포르투갈어 2,211 6,296 2,424 3,505 2,863 1,501 0 0 18,800
폴란드어 1,266 736 580 403 251 111 0 0 3,347
풀라어 0 0 0 245 0 0 0 0 245
프랑스어 10,860 10,075 11,750 5,178 5,592 3,901 933 0 48,289
피지어 0 0 0 77 0 0 0 0 77
핀란드어 230 171 298 377 495 0 0 0 1,571
한국어 497 198 620 1,136 2,737 9,341 7,037 2,112 23,678
헝가리어 0 207 728 693 849 905 178 0 3,560
히브리어 59 70 233 181 115 0 0 0 658
힌디어 145 228 718 600 1,145 849 0 0 3,685

データの分布

全体

文語データ・口語データを含めた文節数合計の上位5言語について,箱ひげ図で分布を確認する.ただし,いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため,図からは除外した.

学習レベル別

平均文節数

모국어 1급 2급 3급 4급 5급 6급 6급 이상 정보 없음
간다어 56.20 114.50 127.00 NA NA NA NA NA
광둥어 63.85 101.34 118.67 127.96 154.12 158.25 NA 448.00
구자라트어 NA 82.00 NA NA NA NA NA NA
그리스어 NA 71.00 138.00 NA NA NA NA NA
네덜란드어 94.77 84.86 131.00 292.50 132.86 125.20 NA 161.00
네팔어 96.67 76.84 107.86 307.92 138.00 NA NA 508.00
노르웨이어 69.53 97.29 125.60 99.00 162.83 133.50 NA 179.00
노르웨이어 (뉘노르스크) 72.50 NA NA NA 156.00 NA NA NA
덴마크어 67.00 76.20 98.00 NA NA 117.00 NA NA
독일어 67.71 97.87 114.93 179.67 141.04 186.82 NA NA
딩카어 66.50 NA NA NA NA NA NA NA
라오어 39.00 131.25 98.00 66.00 137.20 174.00 1,079.00 NA
라트비아어 NA 58.00 NA NA NA NA NA NA
라틴어 85.00 NA NA NA NA NA NA NA
러시아어 97.29 124.26 158.00 163.74 161.84 187.21 861.00 343.79
루마니아어 46.00 161.00 156.00 112.50 NA 159.00 NA NA
룩셈부르크어 NA NA 219.00 225.00 NA NA NA NA
르완다어 57.75 107.20 85.80 175.50 NA NA NA NA
리투아니아어 54.50 NA 67.00 83.00 NA NA NA NA
마다가스카르어 NA NA NA NA 139.50 NA NA NA
마라티어 84.00 NA 103.00 NA NA NA NA NA
마오리어 48.50 NA NA NA NA NA NA NA
말라얄람어 80.00 NA NA 98.00 NA NA NA NA
말레이어 58.60 97.93 153.39 206.50 240.27 146.67 825.33 NA
몽골어 75.63 94.25 134.64 146.48 157.00 140.70 NA 412.83
버마어 168.32 346.87 470.81 437.38 154.39 225.78 NA NA
베트남어 121.49 145.06 173.78 214.34 208.69 217.37 1,354.60 399.43
벨라루스어 NA NA 135.00 NA NA NA NA NA
벵골어 52.58 89.94 120.11 128.50 112.00 NA NA NA
불가리아어 43.00 76.50 216.00 140.00 216.25 183.00 NA NA
세르비아어 71.00 99.00 NA NA 420.00 NA NA NA
세부아노어 NA 58.00 NA NA 747.33 467.00 NA NA
스와힐리어 68.12 88.00 117.60 133.50 147.00 NA 622.00 NA
스웨덴어 55.57 90.43 120.10 114.28 148.25 121.50 NA NA
스페인어 187.94 195.95 230.22 260.48 206.82 177.53 594.00 334.00
슬로바키아어 38.00 NA NA 129.33 159.00 NA NA NA
슬로베니아어 53.00 NA NA 107.00 NA 154.00 NA NA
싱할라어 263.80 239.46 286.65 310.81 305.15 384.20 3,635.00 NA
아랍어 60.46 140.00 119.26 204.63 148.42 159.47 NA 172.67
아르메니아어 72.50 133.50 NA NA 155.00 337.50 NA NA
아이슬란드어 51.00 NA NA NA NA NA NA NA
아제르바이잔어 74.50 126.67 76.00 NA 117.83 141.60 NA NA
아프리칸스어 36.00 NA NA NA NA NA NA NA
알바니아어 NA 84.00 NA NA NA NA NA NA
암하라어 54.86 222.25 116.50 189.25 NA NA NA NA
에스토니아어 NA NA 141.00 358.00 NA NA NA NA
영어 80.01 125.32 134.95 137.11 174.69 194.83 697.75 245.86
우르두어 68.30 70.33 73.00 122.00 192.00 NA NA NA
우즈베크어 90.53 241.33 145.05 215.07 204.83 221.33 NA 166.50
우크라이나어 67.20 61.00 98.50 98.80 150.83 126.33 NA NA
월로프어 NA NA NA NA 72.00 NA NA NA
웨일스어 NA NA 102.00 NA NA NA NA NA
위구르어 NA NA 120.00 91.00 212.00 NA NA NA
이그보어 61.00 109.75 107.50 NA NA NA NA NA
이탈리아어 66.67 106.26 110.91 109.20 234.62 166.13 4,741.00 NA
인도네시아어 129.89 198.58 271.43 228.42 233.07 203.66 1,097.00 851.00
일본어 85.13 119.70 136.04 150.77 187.90 190.47 322.75 480.30
자바어 NA NA 161.00 205.33 NA NA NA NA
조지아어 48.00 NA NA NA 154.00 NA NA NA
중국어 74.31 117.38 139.88 147.82 167.40 188.49 1,373.86 312.98
중국어(만다린어) 56.50 NA NA NA 136.50 NA NA NA
체코어 49.00 84.33 108.67 NA NA NA NA NA
츠와나어 43.00 NA NA NA NA NA NA NA
카자흐어 80.65 133.33 151.78 190.14 152.13 199.67 NA 663.25
카탈루냐어 82.33 NA NA NA NA 177.00 NA NA
칸나다어 NA 116.00 NA NA 135.00 157.00 NA NA
쿠르드어 36.00 NA NA 566.00 NA NA NA NA
크메르어 149.91 106.30 100.13 124.36 147.42 126.00 NA NA
키르기스어 132.71 200.73 449.00 303.38 239.00 134.57 198.00 353.29
타갈로그어 199.51 177.27 303.11 234.07 371.50 525.00 NA 64.00
타밀어 61.78 101.00 NA NA 146.00 139.00 465.50 NA
타이어 234.01 241.94 567.80 226.69 190.43 226.07 212.00 567.47
타지크어 62.33 898.00 112.00 149.00 131.75 104.00 NA NA
타타르어 1,183.00 NA NA NA NA NA NA NA
터키어 64.40 129.05 110.73 176.07 141.14 178.88 403.00 NA
테툼어 62.60 114.50 119.40 247.00 NA NA NA NA
텔루구어 NA 68.00 70.00 NA NA NA NA NA
투르크멘어 85.83 117.80 203.00 276.50 NA NA NA NA
트위어 NA NA 117.00 NA NA NA NA NA
티그리냐어 61.50 NA NA NA NA NA NA NA
티베트어 NA 74.00 NA 106.00 NA NA NA NA
파슈토어 NA 58.00 NA NA NA NA NA NA
판테어(Fanti) 43.00 NA NA NA NA NA NA NA
펀자브어 NA NA NA 221.00 NA NA NA NA
페르시아어 61.91 108.89 112.74 128.78 118.50 136.33 130.00 NA
포르투갈어 67.00 174.89 127.58 166.90 143.15 150.10 NA NA
폴란드어 158.25 122.67 116.00 134.33 125.50 111.00 NA NA
풀라어 NA NA NA 245.00 NA NA NA NA
프랑스어 75.94 125.94 141.57 136.26 155.33 156.04 933.00 NA
피지어 NA NA NA 77.00 NA NA NA NA
핀란드어 57.50 85.50 99.33 125.67 165.00 NA NA NA
한국어 55.22 99.00 124.00 227.20 144.05 444.81 3,518.50 704.00
헝가리어 NA 207.00 145.60 231.00 283.00 226.25 178.00 NA
히브리어 59.00 70.00 116.50 90.50 115.00 NA NA NA
힌디어 48.33 76.00 119.67 100.00 163.57 141.50 NA NA
1)
外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した.
# x: データフレーム
# for_axis_x: 項目を示す列名
cut_with_no_facet = function(x, for_axis_x) {
  list_quantile <- list()
  list_quantile <- x %>%
    group_by(.data[[for_axis_x]]) %>%
    summarise('cutline' = quantile(어절, 0.95)) %>%
    spread(.data[[for_axis_x]], cutline)
  list_output <- list()
  for (item in names(list_quantile)) {
    temp_cutline <- list_quantile %>%
    select(.data[[item]]) %>%
    as.integer()
  list_output[[item]] <- x %>%
    filter(.data[[for_axis_x]] == item) %>%
    filter(어절 <= temp_cutline)
  }
  df <- bind_rows(list_output)
  return(df)
}
korean/lcorpus.txt · 最終更新: 2023/01/06 22:11 by yoshi