korean:lcorpus
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン | |||
korean:lcorpus [2023/01/05 23:28] – yoshi | korean:lcorpus [2023/01/06 22:11] (現在) – yoshi | ||
---|---|---|---|
行 2: | 行 2: | ||
韓国・[[https:// | 韓国・[[https:// | ||
- | 集計やグラフの描画,検定などについてはRを用いています. | + | 集計やグラフの描画,検定などについては[[https:// |
===== 前提 ===== | ===== 前提 ===== | ||
行 48: | 行 48: | ||
=== データの分布 === | === データの分布 === | ||
- | いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外. | + | いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した. |
+ | |||
+ | <code r> | ||
+ | # x: データフレーム | ||
+ | # for_axis_x: 項目を示す列名 | ||
+ | cut_with_no_facet = function(x, for_axis_x) { | ||
+ | list_quantile <- list() | ||
+ | list_quantile <- x %>% | ||
+ | group_by(.data[[for_axis_x]]) %>% | ||
+ | summarise(' | ||
+ | spread(.data[[for_axis_x]], | ||
+ | list_output <- list() | ||
+ | for (item in names(list_quantile)) { | ||
+ | temp_cutline <- list_quantile %>% | ||
+ | select(.data[[item]]) %>% | ||
+ | as.integer() | ||
+ | list_output[[item]] <- x %>% | ||
+ | filter(.data[[for_axis_x]] == item) %>% | ||
+ | filter(어절 <= temp_cutline) | ||
+ | } | ||
+ | df <- bind_rows(list_output) | ||
+ | return(df) | ||
+ | } | ||
+ | </ | ||
{{: | {{: |
korean/lcorpus.1672928906.txt.gz · 最終更新: 2023/01/05 23:28 by yoshi