korean:lcorpus

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- korean:lcorpus [2023/01/05 23:28] – yoshi
+++ korean:lcorpus [2023/01/06 22:11] (現在) – yoshi
@@ 行 2: / 行 2: @@
 韓国・[[https://www.korean.go.kr/|国立国語院]]が構築，公開している「[[https://kcorpus.korean.go.kr/|한국어 학습자 말뭉치]]」（韓国語学習者コーパス）について，概要をまとめてみました．
-集計やグラフの描画，検定などについてはRを用いています．
+集計やグラフの描画，検定などについては[[https://www.r-project.org/|R]]（4.2.1）を用いています．
 ===== 前提 =====
@@ 行 48: / 行 48: @@
 === データの分布 ===
-いずれも分位数95%を上限として，外れ値を除いて可視化．「6級以上」「情報なし」も除外．
+いずれも分位数95%を上限として，外れ値を除いて((外れ値を除くにあたっては，以下のような関数を作成し，各項目ごとに分位数95%を上限として範囲を設定し，それ以上の項目を除外した．
+<code r>
+# x: データフレーム
+# for_axis_x: 項目を示す列名
+cut_with_no_facet = function(x, for_axis_x) {
+  list_quantile <- list()
+  list_quantile <- x %>%
+    group_by(.data[[for_axis_x]]) %>%
+    summarise('cutline' = quantile(어절, 0.95)) %>%
+    spread(.data[[for_axis_x]], cutline)
+  list_output <- list()
+  for (item in names(list_quantile)) {
+    temp_cutline <- list_quantile %>%
+    select(.data[[item]]) %>%
+    as.integer()
+  list_output[[item]] <- x %>%
+    filter(.data[[for_axis_x]] == item) %>%
+    filter(어절 <= temp_cutline)
+  }
+  df <- bind_rows(list_output)
+  return(df)
+}
+</code>))可視化．「6級以上」「情報なし」も除外．
 {{:korean:lcorpus:figures:boxplot_by_type_level-1.png}}

korean/lcorpus.1672928906.txt.gz · 最終更新: 2023/01/05 23:28 by yoshi