ユーザ用ツール

サイト用ツール


korean:lcorpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
korean:lcorpus [2023/01/05 23:28] yoshikorean:lcorpus [2023/01/06 22:11] (現在) yoshi
行 2: 行 2:
  
 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました. 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築,公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」(韓国語学習者コーパス)について,概要をまとめてみました.
-集計やグラフの描画,検定などについてはRを用いています.+集計やグラフの描画,検定などについては[[https://www.r-project.org/|R]](4.2.1)を用いています.
  
 ===== 前提 ===== ===== 前提 =====
行 48: 行 48:
 === データの分布 === === データの分布 ===
  
-いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外.+いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した. 
 + 
 +<code r> 
 +# x: データフレーム 
 +# for_axis_x: 項目を示す列名 
 +cut_with_no_facet = function(x, for_axis_x) { 
 +  list_quantile <- list() 
 +  list_quantile <- x %>% 
 +    group_by(.data[[for_axis_x]]) %>% 
 +    summarise('cutline' = quantile(어절, 0.95)) %>% 
 +    spread(.data[[for_axis_x]], cutline) 
 +  list_output <- list() 
 +  for (item in names(list_quantile)) { 
 +    temp_cutline <- list_quantile %>% 
 +    select(.data[[item]]) %>% 
 +    as.integer() 
 +  list_output[[item]] <- x %>% 
 +    filter(.data[[for_axis_x]] == item) %>% 
 +    filter(어절 <= temp_cutline) 
 +  } 
 +  df <- bind_rows(list_output) 
 +  return(df) 
 +
 +</code>))可視化.「6級以上」「情報なし」も除外.
  
 {{:korean:lcorpus:figures:boxplot_by_type_level-1.png}} {{:korean:lcorpus:figures:boxplot_by_type_level-1.png}}
korean/lcorpus.1672928906.txt.gz · 最終更新: 2023/01/05 23:28 by yoshi