korean:lcorpus
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
korean:lcorpus [2023/01/05 23:22] – yoshi | korean:lcorpus [2023/01/06 22:11] (現在) – yoshi | ||
---|---|---|---|
行 2: | 行 2: | ||
韓国・[[https:// | 韓国・[[https:// | ||
- | 集計やグラフの描画,検定などについてはRを用いています. | + | 集計やグラフの描画,検定などについては[[https:// |
===== 前提 ===== | ===== 前提 ===== | ||
行 26: | 行 26: | ||
=== 基本統計量 === | === 基本統計量 === | ||
- | <datatable> | + | <datatables> |
^자료 유형 | ^자료 유형 | ||
|구어 | |구어 | ||
行 44: | 行 44: | ||
|문어 | |문어 | ||
|문어 | |문어 | ||
- | </datatable> | + | </datatables> |
=== データの分布 === | === データの分布 === | ||
- | いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外. | + | いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した. |
+ | |||
+ | <code r> | ||
+ | # x: データフレーム | ||
+ | # for_axis_x: 項目を示す列名 | ||
+ | cut_with_no_facet = function(x, for_axis_x) { | ||
+ | list_quantile <- list() | ||
+ | list_quantile <- x %>% | ||
+ | group_by(.data[[for_axis_x]]) %>% | ||
+ | summarise(' | ||
+ | spread(.data[[for_axis_x]], | ||
+ | list_output <- list() | ||
+ | for (item in names(list_quantile)) { | ||
+ | temp_cutline <- list_quantile %>% | ||
+ | select(.data[[item]]) %>% | ||
+ | as.integer() | ||
+ | list_output[[item]] <- x %>% | ||
+ | filter(.data[[for_axis_x]] == item) %>% | ||
+ | filter(어절 <= temp_cutline) | ||
+ | } | ||
+ | df <- bind_rows(list_output) | ||
+ | return(df) | ||
+ | } | ||
+ | </ | ||
{{: | {{: | ||
行 151: | 行 174: | ||
==== 母語別の基本統計量 ==== | ==== 母語別の基本統計量 ==== | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 248: | 行 271: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. | データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. | ||
行 256: | 行 279: | ||
=== 基本統計量 === | === 基本統計量 === | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 399: | 行 422: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. | 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. | ||
行 431: | 行 454: | ||
全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. | 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|베트남어 | |베트남어 | ||
行 473: | 行 496: | ||
|타이어 | |타이어 | ||
|타이어 | |타이어 | ||
- | </datatable> | + | </datatables> |
=== 全言語の学習レベル別サンプル数 === | === 全言語の学習レベル別サンプル数 === | ||
行 479: | 行 502: | ||
デフォルトでは,合計数の降順に示した. | デフォルトでは,合計数の降順に示した. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 576: | 行 599: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
=== 全言語の学習レベル別文節数 === | === 全言語の学習レベル別文節数 === | ||
行 582: | 行 605: | ||
合計数の降順に示した. | 合計数の降順に示した. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 679: | 行 702: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
=== データの分布 === | === データの分布 === | ||
行 695: | 行 718: | ||
=== 平均文節数 === | === 平均文節数 === | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 792: | 行 815: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
korean/lcorpus.1672928537.txt.gz · 最終更新: 2023/01/05 23:22 by yoshi