ユーザ用ツール

サイト用ツール


korean:lcorpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:lcorpus [2023/01/05 23:21] – [母語✕データ類型] yoshikorean:lcorpus [2023/01/06 22:11] (現在) yoshi
行 2: 行 2:
  
 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました. 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました.
-集計やグラフの描画,検定などについてはRを用いています.+集計やグラフの描画,検定などについては[[https://www.r-project.org/|R]](4.2.1)を用いています.
  
 ===== 前提 ===== ===== 前提 =====
行 26: 行 26:
 === 基本統計量 === === 基本統計量 ===
  
-<datatable>+<datatables>
 ^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ ^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |구어     |1급      |   813    267,978  |   329.62     277.13    27    3,618  | |구어     |1급      |   813    267,978  |   329.62     277.13    27    3,618  |
行 44: 行 44:
 |문어     |6급 이상     108    133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  | |문어     |6급 이상     108    133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  |
 |문어     |정보 없음     66    |  13,062     197.91     203.60    32    1,494  | |문어     |정보 없음     66    |  13,062     197.91     203.60    32    1,494  |
-</datatable>+</datatables>
  
 === データの分布 === === データの分布 ===
  
-いずれも分位数95%を上限として,外れ値を除いて可視化.「6級上」「情報なし」も除外.+いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,下のよう関数を作成,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した
  
-{{:lcorpus:figures:boxplot_by_type_level-1.png}} +<code r> 
- +# x: データレー 
-=== 平均文節数 === +for_axis_x: 項目を示す列名 
- +cut_with_no_facet = function(x, for_axis_x{ 
-^자료 유형  ^    1급    ^    2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^ +  list_quantile <- list() 
-|구어      329.62  |  466.97  |  593.53  |  473.96  |  566.79  |  648.39  |  1,463.76  |  526.88 +  list_quantile <- x %>% 
-|문어      65.70    97.18    118.94  |  130.55  |  155.00  |  163.61  |  1,237.14  |  197.91 +    group_by(.data[[for_axis_x]]) %>% 
- +    summarise('cutline' quantile(어절0.95)) %>% 
-データ類型ごとに,学習ベル別の平均文節数に有意な差があるか,確認してみる. +    spread(.data[[for_axis_x]]cutline) 
- +  list_output <- list() 
-== 文語デタ == +  for (item in names(list_quantile)) { 
- +    temp_cutline <- list_quantile %>% 
-<code> +    select(.data[[item]]%>% 
-# +    as.integer() 
-##  Lilliefors (Kolmogorov-Smirnovnormality test +  list_output[[item]] <- x %>% 
-##  +    filter(.data[[for_axis_x]] == item) %>
-## data:  aov_df$어절 +    filter(어절 <temp_cutline) 
-## D = 0.23714, p-value 2.2e-16 +  } 
-</code> +  df <- bind_rows(list_output) 
-Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う. +  return(df) 
- +} 
-<code> +</code>))可視化.「6級以上」「情報なし」も除外.
-##  +
-##  Kruskal-Wallis rank sum test +
-##  +
-## data:  aov_df$어절 and aov_df$`한국어 등급` +
-## Kruskal-Wallis chi-squared = 13966, df = 7, p-value 2.2e-16 +
-</code+
-//p//<0.05であるので,各学習レベルごとに,平均文節数に有意な差が見られると言える. +
- +
-次に,どのレベルとの間で有意な差が見られるのか,Bonferroniの方法によって多重比較を行った: +
- +
-<code> +
-##  +
-##  Pairwise comparisons using t tests with pooled SD  +
-##  +
-## data:  aov_df$어절 and aov_df$`한국어 등급`  +
-##  +
-##           1급     2급     3급     4급     5급     6급     6급 이상 +
-## 2급       < 2e-16 -                                      +
-## 3급       < 2e-16 < 2e-16 -                                +
-## 4급       < 2e-16 < 2e-16 1.5e-07 -                          +
-## 5급       < 2e-16 < 2e-16 < 2e-16 < 2e-16 -                    +
-## 6급       < 2e-16 < 2e-16 < 2e-16 < 2e-16 0.013                +
-## 6급 이상  < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 -        +
-## 정보 없음 < 2e-16 7.5e-14 1.6e-08 3.6e-06 0.022   0.209   < 2e-16  +
-##  +
-## P value adjustment method: bonferroni +
-</code+
-多重比較の結果,1級~6級以上までは,それぞれの級の間で平均文節数に有意な差が見られ,学習レベルが上がるに連れて,平均文節数が増えていることが分かる.ただし,6級と「情報なし」では有意な差が見られなかった. +
- +
-== 口語データ == +
- +
-<code> +
-##  +
-##  Lilliefors (Kolmogorov-Smirnov) normality test +
-##  +
-## data:  aov_df$어절 +
-## D = 0.13851, p-value < 2.2e-16 +
-</code+
-Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う. +
- +
-<code> +
-##  +
-##  Kruskal-Wallis rank sum test +
-##  +
-## data:  aov_df$어절 and aov_df$`한국어 등급` +
-## Kruskal-Wallis chi-squared = 381.94df = 7, p-value < 2.2e-16 +
-</code> +
-文語データの場合と同様,//p//<0.05であるので,各学習レベルごとに,平均文節数に有意な差が見られると言える. +
- +
-次に,Bonferroniの方法によって多重比較を行った: +
- +
-<code> +
-##  +
-##  Pairwise comparisons using t tests with pooled SD  +
-##  +
-## data:  aov_df$어절 and aov_df$`한국어 등급`  +
-##  +
-##           1급     2급     3급     4급     5급     6급     6급 이상 +
-## 2급       7.4e-10 -                                      +
-## 3급       2e-16 1.3e-07 -                                +
-## 4급       1.5e-09 1.000   4.9e-06 -                          +
-## 5급       4.8e-15 0.020   1.000   0.066                      +
-## 6급       < 2e-16 3.7e-06 1.000   2.0e-05 1.000                +
-## 6급 이상  < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 -        +
-## 정보 없음 4.2e-05 1.000   1.000   1.000   1.000   0.384   2e-16  +
-##  +
-## P value adjustment method: bonferroni +
-</code+
- +
-多重比較の結果,1級から3級まではレベルが上がるに連れて,平均文節数が有意に増えていると言える.しかし,3級と4級とでは有意な差が見られるものの,4級で平均文節数が減少しており,3級よりも4級のほうが有意に少ない平均文節数となっている.また,2級と4級とではその差が有意であるとは言えない.なお,3級の平均文節数がレベルの割に多いことは,3級―5級,3級―6級とでそれぞれ有意な差が見られない点からも分かる. +
- +
-結論として,口語データの場合,1級から3級までは学習レベルが上がるに連れて平均文節数が増えると言えるが,4級以降,3級に比べると平均文節数が有意に増えるとは言えないことが分かった. +
- +
-===== 母語別の集計 ===== +
- +
-「모국어」を基にした集計を行う.以下はデータ類型を区別しない,母語別の基本統計量. +
- +
-==== 母語別の基本統計量 ==== +
- +
-<datatable> +
-^모국어            ^  サンプル数       文節数       平均文節数    ^   標準偏差     最小値     最大値   ^ +
-|간다어            |    9         764       84.89    |  37.22     46    |   141   | +
-|광둥어            |  1,551     187,516     120.90    62.28     16    |  1,208  | +
-|구자라트어          |    1         82      |   82.00    |    NA    |   82    |   82    | +
-|그리스어              2         209       104.50    47.38     71    |   138   | +
-|네덜란드어          |    52    |    6,352    |   122.15    127.74  |   34    |   810   | +
-|네팔어            |    77    |   10,423    |   135.36    204.77  |   13    |  1,416  | +
-|노르웨이어          |    56    |    5,812    |   103.79    47.32     36    |   223   | +
-|노르웨이어 (뉘노르스크)  |    3         301       100.33    49.56     61    |   156   | +
-|덴마크어              12    |    1,081    |   90.08    |  36.62     45    |   180   | +
-|독일어            |   157    |   19,101    |   121.66    117.90  |   32    |  1,167  | +
-|딩카어            |    2         133       66.50    |  12.02     58    |   75    | +
-|라오어            |    19    |    4,096    |   215.58    308.75  |   35    |  1,093  | +
-|라트비아어          |    1         58      |   58.00    |    NA    |   58    |   58    | +
-|라틴어            |    1         85      |   85.00    |    NA    |   85    |   85    | +
-|러시아어            1,415     208,292     147.20    159.88  |    6    |  1,771  | +
-|루마니아어          |    15    |    2,196    |   146.40    159.66  |   46    |   700   | +
-|룩셈부르크어            2         444       222.00     4.24     219     225   | +
-|르완다어              16    |    1,547    |   96.69    |  48.21     57    |   215   | +
-|리투아니아어            4         259       64.75    |  13.57     53    |   83    | +
-|마다가스카르어        |    2         279       139.50    10.61     132     147   | +
-|마라티어              2         187       93.50    |  13.44     84    |   103   | +
-|마오리어              2         97      |   48.50    |  13.44     39    |   58    | +
-|말라얄람어          |    2         178       89.00    |  12.73     80    |   98    | +
-|말레이어             193    |   29,376    |   152.21    145.94  |   29    |  1,302  | +
-|몽골어            |   741    |   88,507    |   119.44    93.89     13    |  1,054  | +
-|버마어            |   104    |   31,023    |   298.30    364.80  |   34    |  1,452  | +
-|베트남어            2,862     480,516     167.90    229.96  |   10    |  3,656  | +
-|벨라루스어          |    1         135       135.00      NA    |   135     135   | +
-|벵골어            |    78    |    6,838    |   87.67    |  62.60     15    |   521   | +
-|불가리아어          |    11    |    1,816    |   165.09    120.35  |   43    |   452   | +
-|세르비아어          |    6        1,180    |   196.67    277.87  |   69    |   763   | +
-|세부아노어          |    7        3,701    |   528.71    269.59  |   58    |   898   | +
-|스와힐리어          |    21    |    2,521    |   120.05    118.82  |   51    |   622   | +
-|스웨덴어             292    |   26,861    |   91.99    |  42.91     29    |   283   | +
-|스페인어             717    |   152,387     212.53    247.90  |   22    |  1,397  | +
-|슬로바키아어            6         744       124.00    49.54     38    |   170   | +
-|슬로베니아어            3         314       104.67    50.54     53    |   154   | +
-|싱할라어             158    |   48,181    |   304.94    354.79  |   20    |  3,635  | +
-|아랍어            |   235    |   30,284    |   128.87    127.22  |   15    |  1,018  | +
-|아르메니아어            7        1,242    |   177.43    136.02  |   63    |   464   | +
-|아이슬란드어            1         51      |   51.00    |    NA    |   51    |   51    | +
-|아제르바이잔어        |    27    |    3,257    |   120.63    53.57     52    |   255   | +
-|아프리칸스어            1         36      |   36.00    |    NA    |   36    |   36    | +
-|알바니아어          |    1         84      |   84.00    |    NA    |   84    |   84    | +
-|암하라어              21    |    2,729    |   129.95    135.06  |    6    |   626   | +
-|에스토니아어            3         640       213.33    126.06  |   127     358   | +
-|영어              2,271     297,447     130.98    139.80  |   12    |  2,329  | +
-|우르두어              42    |    3,102    |   73.86    |  50.45     10    |   192   | +
-|우즈베크어          |   186    |   31,094    |   167.17    174.57  |   25    |  1,011  | +
-|우크라이나어            28    |    3,009    |   107.46    45.91     42    |   244   | +
-|월로프어              1         72      |   72.00    |    NA    |   72    |   72    | +
-|웨일스어              2         204       102.00     8.49     96    |   108   | +
-|위구르어              6         725       120.83    47.73     88    |   212   | +
-|이그보어              7         715       102.14    33.34     61    |   164   | +
-|이탈리아어          |   161    |   23,003    |   142.88    389.43  |   12    |  4,741  | +
-|인도네시아어           523    |   106,662     203.94    202.82  |   24    |  1,462  | +
-|일본어            |  4,600     657,922     143.03    146.85  |   24    |  4,924  | +
-|자바어            |    4         777       194.25    85.63     128     320   | +
-|조지아어              2         202       101.00    74.95     48    |   154   | +
-|중국어            |  14,714  |  2,066,373  |   140.44    185.10  |    5    |  5,782  | +
-|중국어(만다린어        6         499       83.17    |  53.23     31    |   185   | +
-|체코어            |    7         628       89.71    |  33.30     49    |   154   | +
-|츠와나어              1         43      |   43.00    |    NA    |   43    |   43    | +
-|카자흐어             199    |   31,402    |   157.80    168.09  |   33    |  1,041  | +
-|카탈루냐어          |    7         671       95.86    |  42.10     39    |   177   | +
-|칸나다어              3         408       136.00    20.52     116     157   | +
-|쿠르드어              3        1,168    |   389.33    514.81  |   36    |   980   | +
-|크메르어             127    |   15,415    |   121.38    124.80  |   16    |  1,017  | +
-|키르기스어          |   122    |   30,062    |   246.41    219.98  |   39    |  1,062  | +
-|타갈로그어          |   260    |   58,366    |   224.48    325.92  |   20    |  3,775  | +
-|타밀어            |    20    |    2,569    |   128.45    120.70  |   43    |   494   | +
-|타이어            |  1,201     391,490     325.97    453.72  |   17    |  4,318  | +
-|타지크어              11    |    1,977    |   179.73    240.65  |   54    |   898   | +
-|타타르어              1        1,183    |  1,183.00  |    NA    |  1,183  |  1,183  | +
-|터키어            |   101    |   13,258    |   131.27    104.59  |   29    |   814   | +
-|테툼어            |    13    |    1,386    |   106.62    57.81     35    |   247   | +
-|텔루구어              2         138       69.00    |   1.41     68    |   70    | +
-|투르크멘어          |    22    |    3,778    |   171.73    85.25     35    |   347   | +
-|트위어            |    1         117       117.00      NA    |   117     117   | +
-|티그리냐어          |    2         123       61.50    |  19.09     48    |   75    | +
-|티베트어              2         180       90.00    |  22.63     74    |   106   | +
-|파슈토어              1         58      |   58.00    |    NA    |   58    |   58    | +
-|판테어(Fanti    |    1         43      |   43.00    |    NA    |   43    |   43    | +
-|펀자브어              1         221       221.00      NA    |   221     221   | +
-|페르시아어          |    74    |    8,114    |   109.65    45.55     30    |   307   | +
-|포르투갈어          |   139    |   18,800    |   135.25    113.36  |   33    |   904   | +
-|폴란드어              25    |    3,347    |   133.88    118.81  |   49    |   683   | +
-|풀라어            |    1         245       245.00      NA    |   245     245   | +
-|프랑스어             406    |   48,289    |   118.94    91.60     25    |   933   | +
-|피지어            |    1         77      |   77.00    |    NA    |   77    |   77    | +
-|핀란드어              15    |    1,571    |   104.73    48.11     37    |   177   | +
-|한국어            |    66    |   23,678    |   358.76    886.57  |   35    |  6,799  | +
-|헝가리어              17    |    3,560    |   209.41    123.27  |   93    |   570   | +
-|히브리어              7         658       94.00    |  23.68     59    |   122   | +
-|힌디어            |    31    |    3,685    |   118.87    55.10     32    |   348   | +
-</datatable+
- +
-データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. +
- +
-====== 韓国語学習者コーパスについて(概要) ====== +
- +
-韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました. +
-集計やグラフの描画,検定などについてはRを用いています. +
- +
-===== 前提 ===== +
- +
-2022年6月に[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치 나눔터]]から取得したデータについて,サンプル情報ファイル「''%%2015~2021 학습자 말뭉치 표본 정보(공개 표본 파일명 부착)_20220420(최종공개용).xlsx%%''」の内容を適宜まとめた. +
- +
-以下では**「원시 말뭉치」(原文コーパス)のデータについて**扱う.サンプルの総数は34342項目である. +
- +
-===== データ類型別の集計 ===== +
- +
-「자료 유형」を基にした集計を行う.以下は全データの基本統計量. +
- +
-==== データ類型別の基本統計量 ==== +
- +
-^자료 유형  ^  サンプル数       文節数      平均文節数     標準偏差    最小値  ^   最大値   ^ +
-|구어      3,141    1,522,477  |  484.71  |  408.87  |  27    6,799  | +
-|문어      31,201  |  3,697,952  |  118.52  |  126.58  |      5,782  | +
- +
-==== データ類型✕学習レベル ==== +
- +
-データ類型ごとに,学習レベル別の集計を行う. +
- +
-=== 基本統計量 === +
- +
-<datatable> +
-^자료 유형  ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ +
-|구어     |1급      |   813    267,978  |   329.62     277.13    27    3,618  | +
-|구어     |2급      |   635    296,527  |   466.97     360.85    36    4,924  | +
-|구어     |3급      |   665    394,699  |   593.53     534.73    40    4,318  | +
-|구어     |4급      |   509    241,248  |   473.96     324.51    74    3,383  | +
-|구어     |5급      |   237    134,329  |   566.79     293.57    86    1,714  | +
-|구어     |6급      |   160    103,742  |   648.39     342.55    125  |  1,835  | +
-|구어     |6급 이상     21    |  30,739    1,463.76  |  1,346.75  |  374  |  6,799  | +
-|구어     |정보 없음     101    53,215     526.88     274.08    77    1,250  | +
-|문어     |1급      |  6,682  |  438,974  |   65.70    |   28.97    |       297   | +
-|문어     |2급      |  6,135  |  596,187  |   97.18    |   39.85    |  12     479   | +
-|문어     |3급      |  5,793  |  688,995  |   118.94     52.66    |  15    1,407  | +
-|문어     |4급      |  4,969  |  648,682  |   130.55     81.47    |  20    1,798  | +
-|문어     |5급      |  4,659  |  722,128  |   155.00     102.89    30    2,857  | +
-|문어     |6급      |  2,789  |  456,313  |   163.61     123.75    36    2,329  | +
-|문어     |6급 이상     108    133,611  |  1,237.14  |  1,265.14  |  115  |  5,782  | +
-|문어     |정보 없음     66    |  13,062     197.91     203.60    32    1,494  | +
-</datatable> +
- +
-=== データの分布 === +
- +
-いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外.+
  
 {{:korean:lcorpus:figures:boxplot_by_type_level-1.png}} {{:korean:lcorpus:figures:boxplot_by_type_level-1.png}}
行 404: 行 174:
 ==== 母語別の基本統計量 ==== ==== 母語別の基本統計量 ====
  
-<datatable>+<datatables>
 ^모국어            ^  サンプル数       文節数       平均文節数    ^   標準偏差     最小値     最大値   ^ ^모국어            ^  サンプル数       文節数       平均文節数    ^   標準偏差     最小値     最大値   ^
 |간다어            |    9         764       84.89    |  37.22     46    |   141   | |간다어            |    9         764       84.89    |  37.22     46    |   141   |
行 501: 行 271:
 |히브리어              7         658       94.00    |  23.68     59    |   122   | |히브리어              7         658       94.00    |  23.68     59    |   122   |
 |힌디어            |    31    |    3,685    |   118.87    55.10     32    |   348   | |힌디어            |    31    |    3,685    |   118.87    55.10     32    |   348   |
-</datatable>+</datatables>
  
 データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える.
行 509: 行 279:
 === 基本統計量 === === 基本統計量 ===
  
-<datatable>+<datatables>
 ^모국어            ^자료 유형  ^  サンプル数       文節数       平均文節数    ^    標準偏差    ^   最小値     最大値   ^ ^모국어            ^자료 유형  ^  サンプル数       文節数       平均文節数    ^    標準偏差    ^   最小値     最大値   ^
 |간다어            |문어        9         764       84.89    |   37.22    |   46    |   141   | |간다어            |문어        9         764       84.89    |   37.22    |   46    |   141   |
行 652: 行 422:
 |히브리어           |문어        7         658       94.00    |   23.68    |   59    |   122   | |히브리어           |문어        7         658       94.00    |   23.68    |   59    |   122   |
 |힌디어            |문어        31    |    3,685    |   118.87     55.10    |   32    |   348   | |힌디어            |문어        31    |    3,685    |   118.87     55.10    |   32    |   348   |
-</datatable>+</datatables>
  
 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある.
行 684: 行 454:
 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む.
  
-<datatable>+<datatables>
 ^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ ^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^
 |베트남어  |1급      |   743    90,265     121.49     215.10    10    3,618  | |베트남어  |1급      |   743    90,265     121.49     215.10    10    3,618  |
行 726: 行 496:
 |타이어   |6급 이상      1    |    212    |   212.00       NA      212  |   212   | |타이어   |6급 이상      1    |    212    |   212.00       NA      212  |   212   |
 |타이어   |정보 없음     34    |  19,294     567.47     315.05    109  |  1,126  | |타이어   |정보 없음     34    |  19,294     567.47     315.05    109  |  1,126  |
-</datatable>+</datatables>
  
 === 全言語の学習レベル別サンプル数 === === 全言語の学習レベル別サンプル数 ===
行 732: 行 502:
 デフォルトでは,合計数の降順に示した. デフォルトでは,合計数の降順に示した.
  
-<datatable>+<datatables>
 ^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^ ^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^
 |간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     | |간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     |
行 829: 行 599:
 |히브리어              1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     | |히브리어              1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     |
 |힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    | |힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    |
-</datatable>+</datatables>
  
 === 全言語の学習レベル別文節数 === === 全言語の学習レベル別文節数 ===
行 835: 行 605:
 合計数の降順に示した. 合計数の降順に示した.
  
-<datatable>+<datatables>
 ^모국어            ^    1급        2급        3급        4급        5급        6급       6급 이상    정보 없음       合計      ^ ^모국어            ^    1급        2급        3급        4급        5급        6급       6급 이상    정보 없음       合計      ^
 |간다어            |    281    |    229    |    254    |                                    0         764     | |간다어            |    281    |    229    |    254    |                                    0         764     |
行 932: 行 702:
 |히브리어              59        70        233    |    181    |    115    |                    0         658     | |히브리어              59        70        233    |    181    |    115    |                    0         658     |
 |힌디어            |    145    |    228    |    718    |    600    |   1,145      849    |            0        3,685    | |힌디어            |    145    |    228    |    718    |    600    |   1,145      849    |            0        3,685    |
-</datatable>+</datatables>
  
 === データの分布 === === データの分布 ===
行 948: 行 718:
 === 平均文節数 === === 平均文節数 ===
  
-<datatable> +<datatables>
-^모국어            ^     1급        2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^ +
-|간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|광둥어            |   63.85    |  101.34  |  118.67  |  127.96  |  154.12  |  158.25  |     NA      448.00 +
-|구자라트어          |     NA      82.00      NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|그리스어               NA      71.00    138.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|네덜란드어          |   94.77    |  84.86    131.00  |  292.50  |  132.86  |  125.20  |     NA      161.00 +
-|네팔어            |   96.67    |  76.84    107.86  |  307.92  |  138.00  |    NA    |     NA      508.00 +
-|노르웨이어          |   69.53    |  97.29    125.60  |  99.00    162.83  |  133.50  |     NA      179.00 +
-|노르웨이어 (뉘노르스크)  |   72.50    |    NA    |    NA    |    NA    |  156.00  |    NA    |     NA        NA    | +
-|덴마크어             67.00    |  76.20    98.00      NA    |    NA    |  117.00  |     NA        NA    | +
-|독일어            |   67.71    |  97.87    114.93  |  179.67  |  141.04  |  186.82  |     NA        NA    | +
-|딩카어            |   66.50    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|라오어            |   39.00    |  131.25  |  98.00    66.00    137.20  |  174.00  |  1,079.00  |    NA    | +
-|라트비아어          |     NA      58.00      NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|라틴어            |   85.00    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|러시아어             97.29    |  124.26  |  158.00  |  163.74  |  161.84  |  187.21  |   861.00    343.79 +
-|루마니아어          |   46.00    |  161.00  |  156.00  |  112.50  |    NA    |  159.00  |     NA        NA    | +
-|룩셈부르크어             NA        NA    |  219.00  |  225.00  |    NA    |    NA    |     NA        NA    | +
-|르완다어             57.75    |  107.20  |  85.80    175.50  |    NA    |    NA    |     NA        NA    | +
-|리투아니아어           54.50    |    NA    |  67.00    83.00      NA    |    NA    |     NA        NA    | +
-|마다가스카르어        |     NA        NA    |    NA    |    NA    |  139.50  |    NA    |     NA        NA    | +
-|마라티어             84.00    |    NA    |  103.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|마오리어             48.50    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|말라얄람어          |   80.00    |    NA    |    NA    |  98.00      NA    |    NA    |     NA        NA    | +
-|말레이어             58.60    |  97.93    153.39  |  206.50  |  240.27  |  146.67  |   825.33      NA    | +
-|몽골어            |   75.63    |  94.25    134.64  |  146.48  |  157.00  |  140.70  |     NA      412.83 +
-|버마어            |   168.32    346.87  |  470.81  |  437.38  |  154.39  |  225.78  |     NA        NA    | +
-|베트남어             121.49    145.06  |  173.78  |  214.34  |  208.69  |  217.37  |  1,354.60  |  399.43 +
-|벨라루스어          |     NA        NA    |  135.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|벵골어            |   52.58    |  89.94    120.11  |  128.50  |  112.00  |    NA    |     NA        NA    | +
-|불가리아어          |   43.00    |  76.50    216.00  |  140.00  |  216.25  |  183.00  |     NA        NA    | +
-|세르비아어          |   71.00    |  99.00      NA    |    NA    |  420.00  |    NA    |     NA        NA    | +
-|세부아노어          |     NA      58.00      NA    |    NA    |  747.33  |  467.00  |     NA        NA    | +
-|스와힐리어          |   68.12    |  88.00    117.60  |  133.50  |  147.00  |    NA    |   622.00      NA    | +
-|스웨덴어             55.57    |  90.43    120.10  |  114.28  |  148.25  |  121.50  |     NA        NA    | +
-|스페인어             187.94    195.95  |  230.22  |  260.48  |  206.82  |  177.53  |   594.00    334.00 +
-|슬로바키아어           38.00    |    NA    |    NA    |  129.33  |  159.00  |    NA    |     NA        NA    | +
-|슬로베니아어           53.00    |    NA    |    NA    |  107.00  |    NA    |  154.00  |     NA        NA    | +
-|싱할라어             263.80    239.46  |  286.65  |  310.81  |  305.15  |  384.20  |  3,635.00  |    NA    | +
-|아랍어            |   60.46    |  140.00  |  119.26  |  204.63  |  148.42  |  159.47  |     NA      172.67 +
-|아르메니아어           72.50    |  133.50  |    NA    |    NA    |  155.00  |  337.50  |     NA        NA    | +
-|아이슬란드어           51.00    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|아제르바이잔어        |   74.50    |  126.67  |  76.00      NA    |  117.83  |  141.60  |     NA        NA    | +
-|아프리칸스어           36.00    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|알바니아어          |     NA      84.00      NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|암하라어             54.86    |  222.25  |  116.50  |  189.25  |    NA    |    NA    |     NA        NA    | +
-|에스토니아어             NA        NA    |  141.00  |  358.00  |    NA    |    NA    |     NA        NA    | +
-|영어               80.01    |  125.32  |  134.95  |  137.11  |  174.69  |  194.83  |   697.75    245.86 +
-|우르두어             68.30    |  70.33    73.00    122.00  |  192.00  |    NA    |     NA        NA    | +
-|우즈베크어          |   90.53    |  241.33  |  145.05  |  215.07  |  204.83  |  221.33  |     NA      166.50 +
-|우크라이나어           67.20    |  61.00    98.50    98.80    150.83  |  126.33  |     NA        NA    | +
-|월로프어               NA        NA    |    NA    |    NA    |  72.00      NA    |     NA        NA    | +
-|웨일스어               NA        NA    |  102.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|위구르어               NA        NA    |  120.00  |  91.00    212.00  |    NA    |     NA        NA    | +
-|이그보어             61.00    |  109.75  |  107.50  |    NA    |    NA    |    NA    |     NA        NA    | +
-|이탈리아어          |   66.67    |  106.26  |  110.91  |  109.20  |  234.62  |  166.13  |  4,741.00  |    NA    | +
-|인도네시아어           129.89    198.58  |  271.43  |  228.42  |  233.07  |  203.66  |  1,097.00  |  851.00 +
-|일본어            |   85.13    |  119.70  |  136.04  |  150.77  |  187.90  |  190.47  |   322.75    480.30 +
-|자바어            |     NA        NA    |  161.00  |  205.33  |    NA    |    NA    |     NA        NA    | +
-|조지아어             48.00    |    NA    |    NA    |    NA    |  154.00  |    NA    |     NA        NA    | +
-|중국어            |   74.31    |  117.38  |  139.88  |  147.82  |  167.40  |  188.49  |  1,373.86  |  312.98 +
-|중국어(만다린어)      |   56.50    |    NA    |    NA    |    NA    |  136.50  |    NA    |     NA        NA    | +
-|체코어            |   49.00    |  84.33    108.67  |    NA    |    NA    |    NA    |     NA        NA    | +
-|츠와나어             43.00    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|카자흐어             80.65    |  133.33  |  151.78  |  190.14  |  152.13  |  199.67  |     NA      663.25 +
-|카탈루냐어          |   82.33    |    NA    |    NA    |    NA    |    NA    |  177.00  |     NA        NA    | +
-|칸나다어               NA      116.00  |    NA    |    NA    |  135.00  |  157.00  |     NA        NA    | +
-|쿠르드어             36.00    |    NA    |    NA    |  566.00  |    NA    |    NA    |     NA        NA    | +
-|크메르어             149.91    106.30  |  100.13  |  124.36  |  147.42  |  126.00  |     NA        NA    | +
-|키르기스어          |   132.71    200.73  |  449.00  |  303.38  |  239.00  |  134.57  |   198.00    353.29 +
-|타갈로그어          |   199.51    177.27  |  303.11  |  234.07  |  371.50  |  525.00  |     NA      64.00   | +
-|타밀어            |   61.78    |  101.00  |    NA    |    NA    |  146.00  |  139.00  |   465.50      NA    | +
-|타이어            |   234.01    241.94  |  567.80  |  226.69  |  190.43  |  226.07  |   212.00    567.47 +
-|타지크어             62.33    |  898.00  |  112.00  |  149.00  |  131.75  |  104.00  |     NA        NA    | +
-|타타르어            1,183.00  |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|터키어            |   64.40    |  129.05  |  110.73  |  176.07  |  141.14  |  178.88  |   403.00      NA    | +
-|테툼어            |   62.60    |  114.50  |  119.40  |  247.00  |    NA    |    NA    |     NA        NA    | +
-|텔루구어               NA      68.00    70.00      NA    |    NA    |    NA    |     NA        NA    | +
-|투르크멘어          |   85.83    |  117.80  |  203.00  |  276.50  |    NA    |    NA    |     NA        NA    | +
-|트위어            |     NA        NA    |  117.00  |    NA    |    NA    |    NA    |     NA        NA    | +
-|티그리냐어          |   61.50    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|티베트어               NA      74.00      NA    |  106.00  |    NA    |    NA    |     NA        NA    | +
-|파슈토어               NA      58.00      NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|판테어(Fanti)       43.00    |    NA    |    NA    |    NA    |    NA    |    NA    |     NA        NA    | +
-|펀자브어               NA        NA    |    NA    |  221.00  |    NA    |    NA    |     NA        NA    | +
-|페르시아어          |   61.91    |  108.89  |  112.74  |  128.78  |  118.50  |  136.33  |   130.00      NA    | +
-|포르투갈어          |   67.00    |  174.89  |  127.58  |  166.90  |  143.15  |  150.10  |     NA        NA    | +
-|폴란드어             158.25    122.67  |  116.00  |  134.33  |  125.50  |  111.00  |     NA        NA    | +
-|풀라어            |     NA        NA    |    NA    |  245.00  |    NA    |    NA    |     NA        NA    | +
-|프랑스어             75.94    |  125.94  |  141.57  |  136.26  |  155.33  |  156.04  |   933.00      NA    | +
-|피지어            |     NA        NA    |    NA    |  77.00      NA    |    NA    |     NA        NA    | +
-|핀란드어             57.50    |  85.50    99.33    125.67  |  165.00  |    NA    |     NA        NA    | +
-|한국어            |   55.22    |  99.00    124.00  |  227.20  |  144.05  |  444.81  |  3,518.50  |  704.00 +
-|헝가리어               NA      207.00  |  145.60  |  231.00  |  283.00  |  226.25  |   178.00      NA    | +
-|히브리어             59.00    |  70.00    116.50  |  90.50    115.00  |    NA    |     NA        NA    | +
-|힌디어            |   48.33    |  76.00    119.67  |  100.00  |  163.57  |  141.50  |     NA        NA    | +
-</datatable> +
- +
-==== 母語✕学習レベル ==== +
- +
-=== 文節数上位5言語の基本統計量 === +
- +
-全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. +
- +
-<datatable> +
-^모국어   ^한국어 등급  ^  サンプル数  ^    文節数    ^   平均文節数    ^    標準偏差    ^  最小値  ^   最大値   ^ +
-|베트남어  |1급      |   743    90,265     121.49     215.10    10    3,618  | +
-|베트남어  |2급      |   668    96,898     145.06     175.30    12    1,127  | +
-|베트남어  |3급      |   575    99,923     173.78     204.96    15    2,762  | +
-|베트남어  |4급      |   444    95,169     214.34     279.34    24    3,383  | +
-|베트남어  |5급      |   300    62,608     208.69     212.91    41    2,548  | +
-|베트남어  |6급      |   120    26,084     217.37     179.55    57    1,216  | +
-|베트남어  |6급 이상      5    |   6,773    1,354.60  |  1,501.48  |  225  |  3,656  | +
-|베트남어  |정보 없음      7    |   2,796     399.43     202.64    147  |   785   | +
-|영어    |1급      |   511    40,886     80.01    |   83.78    |  12     756   | +
-|영어    |2급      |   521    65,291     125.32     151.77    30    1,626  | +
-|영어    |3급      |   454    61,269     134.95     111.36    49     822   | +
-|영어    |4급      |   354    48,536     137.11     90.88    |  29     822   | +
-|영어    |5급      |   242    42,274     174.69     150.00    30    1,342  | +
-|영어    |6급      |   178    34,679     194.83     232.63    57    2,329  | +
-|영어    |6급 이상      4    |   2,791     697.75     541.21    171  |  1,222  | +
-|영어    |정보 없음      7    |   1,721     245.86     277.95    67     864   | +
-|일본어   |1급      |   602    51,247     85.13    |   67.65    |  24     617   | +
-|일본어   |2급      |   949    113,600  |   119.70     190.93    40    4,924  | +
-|일본어   |3급      |   988    134,405  |   136.04     87.73    |  45     870   | +
-|일본어   |4급      |   896    135,091  |   150.77     114.54    49    1,641  | +
-|일본어   |5급      |   681    127,963  |   187.90     158.42    58    1,539  | +
-|일본어   |6급      |   470    89,522     190.47     191.49    54    1,587  | +
-|일본어   |6급 이상      4    |   1,291     322.75     341.74    134  |   835   | +
-|일본어   |정보 없음     10    |   4,803     480.30     420.05    77    1,250  | +
-|중국어   |1급      |  3,342  |  248,351  |   74.31    |   60.80    |       746   | +
-|중국어   |2급      |  2,499  |  293,340  |   117.38     94.67    |  23    1,347  | +
-|중국어   |3급      |  2,367  |  331,106  |   139.88     115.93    28    2,108  | +
-|중국어   |4급      |  2,290  |  338,506  |   147.82     134.97    20    1,798  | +
-|중국어   |5급      |  2,561  |  428,715  |   167.40     139.16    38    2,857  | +
-|중국어   |6급      |  1,503  |  283,303  |   188.49     185.02    36    2,014  | +
-|중국어   |6급 이상     90    |  123,647  |  1,373.86  |  1,215.38  |  115  |  5,782  | +
-|중국어   |정보 없음     62    |  19,405     312.98     229.72    35     973   | +
-|타이어   |1급      |   343    80,264     234.01     255.73    17    1,893  | +
-|타이어   |2급      |   276    66,776     241.94     325.44    27    2,902  | +
-|타이어   |3급      |   304    172,611  |   567.80     716.71    34    4,318  | +
-|타이어   |4급      |   114    25,843     226.69     220.28    25    1,167  | +
-|타이어   |5급      |   75    |  14,282     190.43     168.39    65     847   | +
-|타이어   |6급      |   54    |  12,208     226.07     160.92    59     693   | +
-|타이어   |6급 이상      1    |    212    |   212.00       NA      212  |   212   | +
-|타이어   |정보 없음     34    |  19,294     567.47     315.05    109  |  1,126  | +
-</datatable> +
- +
-=== 全言語の学習レベル別サンプル数 === +
- +
-デフォルトでは,合計数の降順に示した. +
- +
-<datatable> +
-^모국어            ^   1급    ^   2급    ^   3급    ^   4급    ^   5급    ^   6급    ^  6급 이상  ^  정보 없음  ^    合計    ^ +
-|간다어            |    5    |    2    |    2    |    0    |    0    |    0    |    0    |    0    |    9     | +
-|광둥어            |   210     284     312     295     229     220      0    |    1    |  1,551   | +
-|구자라트어          |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|그리스어              0    |    1    |    1    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|네덜란드어          |   22    |    7    |    6    |    4    |    7    |    5    |    0    |    1    |    52    | +
-|네팔어            |   15    |   25    |   21    |   13    |    2    |    0    |    0    |    1    |    77    | +
-|노르웨이어          |   17    |   17    |   10    |    3    |    6    |    2    |    0    |    1    |    56    | +
-|노르웨이어 (뉘노르스크)  |    2    |    0    |    0    |    0    |    1    |    0    |    0    |    0    |    3     | +
-|덴마크어              2    |    5    |    1    |    0    |    0    |    4    |    0    |    0    |    12    | +
-|독일어            |   41    |   23    |   27    |   30    |   25    |   11    |    0    |    0    |   157    | +
-|딩카어            |    2    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|라오어            |    3    |    4    |    2    |    1    |    5    |    2    |    2    |    0    |    19    | +
-|라트비아어          |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|라틴어            |    1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|러시아어             252     312     312     254     189     77    |    5    |   14    |  1,415   | +
-|루마니아어          |    1    |   10    |    1    |    2    |    0    |    1    |    0    |    0    |    15    | +
-|룩셈부르크어            0    |    0    |    1    |    1    |    0    |    0    |    0    |    0    |    2     | +
-|르완다어              4    |    5    |    5    |    2    |    0    |    0    |    0    |    0    |    16    | +
-|리투아니아어            2    |    0    |    1    |    1    |    0    |    0    |    0    |    0    |    4     | +
-|마다가스카르어        |    0    |    0    |    0    |    0    |    2    |    0    |    0    |    0    |    2     | +
-|마라티어              1    |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|마오리어              2    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|말라얄람어          |    1    |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    2     | +
-|말레이어             30    |   44    |   59    |   40    |   11    |    6    |    3    |    0    |   193    | +
-|몽골어            |   171     163     149     113     96    |   43    |    0    |    6    |   741    | +
-|버마어            |   22    |   23    |   16    |   16    |   18    |    9    |    0    |    0    |   104    | +
-|베트남어             743     668     575     444     300     120      5    |    7    |  2,862   | +
-|벨라루스어          |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|벵골어            |   31    |   17    |   19    |   10    |    1    |    0    |    0    |    0    |    78    | +
-|불가리아어          |    1    |    2    |    2    |    1    |    4    |    1    |    0    |    0    |    11    | +
-|세르비아어          |    2    |    2    |    0    |    0    |    2    |    0    |    0    |    0    |    6     | +
-|세부아노어          |    0    |    1    |    0    |    0    |    3    |    3    |    0    |    0    |    7     | +
-|스와힐리어          |    8    |    4    |    5    |    2    |    1    |    0    |    1    |    0    |    21    | +
-|스웨덴어             98    |   69    |   73    |   32    |   12    |    8    |    0    |    0    |   292    | +
-|스페인어             188     192     162     107     50    |   15    |    1    |    2    |   717    | +
-|슬로바키아어            1    |    0    |    0    |    3    |    2    |    0    |    0    |    0    |    6     | +
-|슬로베니아어            1    |    0    |    0    |    1    |    0    |    1    |    0    |    0    |    3     | +
-|싱할라어             30    |   37    |   34    |   26    |   20    |   10    |    1    |    0    |   158    | +
-|아랍어            |   57    |   52    |   47    |   35    |   24    |   17    |    0    |    3    |   235    | +
-|아르메니아어            2    |    2    |    0    |    0    |    1    |    2    |    0    |    0    |    7     | +
-|아이슬란드어            1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|아제르바이잔어        |    4    |    6    |    1    |    0    |    6    |   10    |    0    |    0    |    27    | +
-|아프리칸스어            1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|알바니아어          |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|암하라어              7    |    4    |    6    |    4    |    0    |    0    |    0    |    0    |    21    | +
-|에스토니아어            0    |    0    |    2    |    1    |    0    |    0    |    0    |    0    |    3     | +
-|영어               511     521     454     354     242     178      4    |    7    |  2,271   | +
-|우르두어             23    |    9    |    8    |    1    |    1    |    0    |    0    |    0    |    42    | +
-|우즈베크어          |   57    |   39    |   37    |   27    |   18    |    6    |    0    |    2    |   186    | +
-|우크라이나어            5    |    2    |    4    |    5    |    6    |    6    |    0    |    0    |    28    | +
-|월로프어              0    |    0    |    0    |    0    |    1    |    0    |    0    |    0    |    1     | +
-|웨일스어              0    |    0    |    2    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|위구르어              0    |    0    |    2    |    3    |    1    |    0    |    0    |    0    |    6     | +
-|이그보어              1    |    4    |    2    |    0    |    0    |    0    |    0    |    0    |    7     | +
-|이탈리아어          |   63    |   19    |   22    |   20    |   21    |   15    |    1    |    0    |   161    | +
-|인도네시아어           141     106     82    |   78    |   70    |   44    |    1    |    1    |   523    | +
-|일본어            |   602     949     988     896     681     470      4    |   10    |  4,600   | +
-|자바어            |    0    |    0    |    1    |    3    |    0    |    0    |    0    |    0    |    4     | +
-|조지아어              1    |    0    |    0    |    0    |    1    |    0    |    0    |    0    |    2     | +
-|중국어            |  3,342  |  2,499  |  2,367  |  2,290  |  2,561  |  1,503  |   90    |   62    |  14,714 +
-|중국어(만다린어)      |    4    |    0    |    0    |    0    |    2    |    0    |    0    |    0    |    6     | +
-|체코어            |    1    |    3    |    3    |    0    |    0    |    0    |    0    |    0    |    7     | +
-|츠와나어              1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|카자흐어             34    |   36    |   40    |   43    |   30    |   12    |    0    |    4    |   199    | +
-|카탈루냐어          |    6    |    0    |    0    |    0    |    0    |    1    |    0    |    0    |    7     | +
-|칸나다어              0    |    1    |    0    |    0    |    1    |    1    |    0    |    0    |    3     | +
-|쿠르드어              1    |    0    |    0    |    2    |    0    |    0    |    0    |    0    |    3     | +
-|크메르어             33    |   20    |   47    |   14    |   12    |    1    |    0    |    0    |   127    | +
-|키르기스어          |   17    |   30    |   12    |   21    |   26    |    7    |    2    |    7    |   122    | +
-|타갈로그어          |   74    |   88    |   47    |   40    |    6    |    4    |    0    |    1    |   260    | +
-|타밀어            |    9    |    5    |    0    |    0    |    3    |    1    |    2    |    0    |    20    | +
-|타이어            |   343     276     304     114     75    |   54    |    1    |   34    |  1,201   | +
-|타지크어              3    |    1    |    1    |    1    |    4    |    1    |    0    |    0    |    11    | +
-|타타르어              1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|터키어            |   15    |   19    |   22    |   14    |   22    |    8    |    1    |    0    |   101    | +
-|테툼어            |    5    |    2    |    5    |    1    |    0    |    0    |    0    |    0    |    13    | +
-|텔루구어              0    |    1    |    1    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|투르크멘어          |    6    |    5    |    5    |    6    |    0    |    0    |    0    |    0    |    22    | +
-|트위어            |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|티그리냐어          |    2    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    2     | +
-|티베트어              0    |    1    |    0    |    1    |    0    |    0    |    0    |    0    |    2     | +
-|파슈토어              0    |    1    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|판테어(Fanti)        1    |    0    |    0    |    0    |    0    |    0    |    0    |    0    |    1     | +
-|펀자브어              0    |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    1     | +
-|페르시아어          |   11    |   18    |   19    |   18    |    4    |    3    |    1    |    0    |    74    | +
-|포르투갈어          |   33    |   36    |   19    |   21    |   20    |   10    |    0    |    0    |   139    | +
-|폴란드어              8    |    6    |    5    |    3    |    2    |    1    |    0    |    0    |    25    | +
-|풀라어            |    0    |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    1     | +
-|프랑스어             143     80    |   83    |   38    |   36    |   25    |    1    |    0    |   406    | +
-|피지어            |    0    |    0    |    0    |    1    |    0    |    0    |    0    |    0    |    1     | +
-|핀란드어              4    |    2    |    3    |    3    |    3    |    0    |    0    |    0    |    15    | +
-|한국어            |    9    |    2    |    5    |    5    |   19    |   21    |    2    |    3    |    66    | +
-|헝가리어              0    |    1    |    5    |    3    |    3    |    4    |    1    |    0    |    17    | +
-|히브리어              1    |    1    |    2    |    2    |    1    |    0    |    0    |    0    |    7     | +
-|힌디어            |    3    |    3    |    6    |    6    |    7    |    6    |    0    |    0    |    31    | +
-</datatable> +
- +
-=== 全言語の学習レベル別文節数 === +
- +
-合計数の降順に示した. +
- +
-<datatable> +
-^모국어            ^    1급        2급        3급        4급        5급        6급       6급 이상    정보 없음       合計      ^ +
-|간다어            |    281    |    229    |    254    |                                    0         764     | +
-|광둥어            |  13,409    28,780    37,024    37,748    35,293    34,814             448    |   187,516   | +
-|구자라트어          |            82                                                0         82      | +
-|그리스어                      71        138    |                                    0         209     | +
-|네덜란드어          |   2,085      594    |    786    |   1,170      930    |    626    |           161    |    6,352    | +
-|네팔어            |   1,450     1,921     2,265     4,003      276    |                   508    |   10,423    | +
-|노르웨이어          |   1,182     1,654     1,256      297    |    977    |    267    |           179    |    5,812    | +
-|노르웨이어 (뉘노르스크)  |    145    |                            156    |                    0         301     | +
-|덴마크어              134    |    381    |    98                        468    |            0        1,081    | +
-|독일어            |   2,776     2,251     3,103     5,390     3,526     2,055              0       19,101    | +
-|딩카어            |    133    |                                                    0         133     | +
-|라오어            |    117    |    525    |    196    |    66        686    |    348    |   2,158      0        4,096    | +
-|라트비아어          |            58                                                0         58      | +
-|라틴어            |    85                                                        0         85      | +
-|러시아어            24,517    38,768    49,296    41,590    30,588    14,415     4,305    4,813     208,292   | +
-|루마니아어          |    46       1,610      156    |    225    |            159    |            0        2,196    | +
-|룩셈부르크어                            219    |    225    |                            0         444     | +
-|르완다어              231    |    536    |    429    |    351    |                            0        1,547    | +
-|리투아니아어            109    |            67        83                                0         259     | +
-|마다가스카르어        |                                    279    |                    0         279     | +
-|마라티어              84                103    |                                    0         187     | +
-|마오리어              97                                                        0         97      | +
-|말라얄람어          |    80                        98                                0         178     | +
-|말레이어             1,758     4,309     9,050     8,260     2,643      880    |   2,476      0       29,376    | +
-|몽골어            |  12,932    15,363    20,061    16,552    15,072     6,050            2,477     88,507    | +
-|버마어            |   3,703     7,978     7,533     6,998     2,779     2,032              0       31,023    | +
-|베트남어            90,265    96,898    99,923    95,169    62,608    26,084     6,773    2,796     480,516   | +
-|벨라루스어          |                    135    |                                    0         135     | +
-|벵골어            |   1,630     1,529     2,282     1,285      112    |                    0        6,838    | +
-|불가리아어          |    43        153    |    432    |    140    |    865    |    183    |            0        1,816    | +
-|세르비아어          |    142    |    198    |                    840    |                    0        1,180    | +
-|세부아노어          |            58                       2,242     1,401              0        3,701    | +
-|스와힐리어          |    545    |    352    |    588    |    267    |    147    |            622    |    0        2,521    | +
-|스웨덴어             5,446     6,240     8,767     3,657     1,779      972    |            0       26,861    | +
-|스페인어            35,332    37,623    37,295    27,871    10,341     2,663      594    |   668    |   152,387   | +
-|슬로바키아어            38                        388    |    318    |                    0         744     | +
-|슬로베니아어            53                        107    |            154    |            0         314     | +
-|싱할라어             7,914     8,860     9,746     8,081     6,103     3,842     3,635      0       48,181    | +
-|아랍어            |   3,446     7,280     5,605     7,162     3,562     2,711             518    |   30,284    | +
-|아르메니아어            145    |    267    |                    155    |    675    |            0        1,242    | +
-|아이슬란드어            51                                                        0         51      | +
-|아제르바이잔어        |    298    |    760    |    76                707    |   1,416              0        3,257    | +
-|아프리칸스어            36                                                        0         36      | +
-|알바니아어          |            84                                                0         84      | +
-|암하라어              384    |    889    |    699    |    757    |                            0        2,729    | +
-|에스토니아어                            282    |    358    |                            0         640     | +
-|영어              40,886    65,291    61,269    48,536    42,274    34,679     2,791    1,721     297,447   | +
-|우르두어             1,571      633    |    584    |    122    |    192    |                    0        3,102    | +
-|우즈베크어          |   5,160     9,412     5,367     5,807     3,687     1,328             333    |   31,094    | +
-|우크라이나어            336    |    122    |    394    |    494    |    905    |    758    |            0        3,009    | +
-|월로프어                                              72                        0         72      | +
-|웨일스어                              204    |                                    0         204     | +
-|위구르어                              240    |    273    |    212    |                    0         725     | +
-|이그보어              61        439    |    215    |                                    0         715     | +
-|이탈리아어          |   4,200     2,019     2,440     2,184     4,927     2,492     4,741      0       23,003    | +
-|인도네시아어          18,314    21,050    22,257    17,817    16,315     8,961     1,097     851    |   106,662   | +
-|일본어            |  51,247    113,600  |  134,405  |  135,091  |  127,963  |  89,522     1,291    4,803     657,922   | +
-|자바어            |                    161    |    616    |                            0         777     | +
-|조지아어              48                                154    |                    0         202     | +
-|중국어            |  248,351  |  293,340  |  331,106  |  338,506  |  428,715  |  283,303  |  123,647  |  19,405  |  2,066,373 +
-|중국어(만다린어)      |    226    |                            273    |                    0         499     | +
-|체코어            |    49        253    |    326    |                                    0         628     | +
-|츠와나어              43                                                        0         43      | +
-|카자흐어             2,742     4,800     6,071     8,176     4,564     2,396            2,653     31,402    | +
-|카탈루냐어          |    494    |                                    177    |            0         671     | +
-|칸나다어                      116    |                    135    |    157    |            0         408     | +
-|쿠르드어              36                       1,132                              0        1,168    | +
-|크메르어             4,947     2,126     4,706     1,741     1,769      126    |            0       15,415    | +
-|키르기스어          |   2,256     6,022     5,388     6,371     6,214      942    |    396    |  2,473     30,062    | +
-|타갈로그어          |  14,764    15,600    14,246     9,363     2,229     2,100              64    |   58,366    | +
-|타밀어            |    556    |    505    |                    438    |    139    |    931    |    0        2,569    | +
-|타이어            |  80,264    66,776    172,611  |  25,843    14,282    12,208      212    |  19,294  |   391,490   | +
-|타지크어              187    |    898    |    112    |    149    |    527    |    104    |            0        1,977    | +
-|타타르어             1,183                                                      0        1,183    | +
-|터키어            |    966    |   2,452     2,436     2,465     3,105     1,431      403    |    0       13,258    | +
-|테툼어            |    313    |    229    |    597    |    247    |                            0        1,386    | +
-|텔루구어                      68        70                                        0         138     | +
-|투르크멘어          |    515    |    589    |   1,015     1,659                              0        3,778    | +
-|트위어            |                    117    |                                    0         117     | +
-|티그리냐어          |    123    |                                                    0         123     | +
-|티베트어                      74                106    |                            0         180     | +
-|파슈토어                      58                                                0         58      | +
-|판테어(Fanti)        43                                                        0         43      | +
-|펀자브어                                      221    |                            0         221     | +
-|페르시아어          |    681    |   1,960     2,142     2,318      474    |    409    |    130    |    0        8,114    | +
-|포르투갈어          |   2,211     6,296     2,424     3,505     2,863     1,501              0       18,800    | +
-|폴란드어             1,266      736    |    580    |    403    |    251    |    111    |            0        3,347    | +
-|풀라어            |                            245    |                            0         245     | +
-|프랑스어            10,860    10,075    11,750     5,178     5,592     3,901      933    |    0       48,289    | +
-|피지어            |                            77                                0         77      | +
-|핀란드어              230    |    171    |    298    |    377    |    495    |                    0        1,571    | +
-|한국어            |    497    |    198    |    620    |   1,136     2,737     9,341     7,037    2,112     23,678    | +
-|헝가리어                      207    |    728    |    693    |    849    |    905    |    178    |    0        3,560    | +
-|히브리어              59        70        233    |    181    |    115    |                    0         658     | +
-|힌디어            |    145    |    228    |    718    |    600    |   1,145      849    |            0        3,685    | +
-</datatable> +
- +
-=== データの分布 === +
- +
-== 全体 == +
- +
-文語データ・口語データを含めた文節数合計の上位5言語について,箱ひげ図で分布を確認する.ただし,いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため,図からは除外した. +
- +
-{{:lcorpus:figures:boxplot_by_lang-1.png}} +
- +
-== 学習レベル別 == +
- +
-{{:lcorpus:figures:boxplot_by_lang_level-1.png}} +
- +
-=== 平均文節数 === +
- +
-<datatable>+
 ^모국어            ^     1급        2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^ ^모국어            ^     1급        2급    ^    3급    ^    4급    ^    5급    ^    6급    ^   6급 이상    ^  정보 없음   ^
 |간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA        NA    | |간다어            |   56.20    |  114.50  |  127.00  |    NA    |    NA    |    NA    |     NA        NA    |
行 1414: 行 815:
 |히브리어             59.00    |  70.00    116.50  |  90.50    115.00  |    NA    |     NA        NA    | |히브리어             59.00    |  70.00    116.50  |  90.50    115.00  |    NA    |     NA        NA    |
 |힌디어            |   48.33    |  76.00    119.67  |  100.00  |  163.57  |  141.50  |     NA        NA    | |힌디어            |   48.33    |  76.00    119.67  |  100.00  |  163.57  |  141.50  |     NA        NA    |
-</datatable>+</datatables>
  
korean/lcorpus.1672928488.txt.gz · 最終更新: 2023/01/05 23:21 by yoshi