korean:lcorpus
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン | |||
| korean:lcorpus [2023/01/05 23:28] – yoshi | korean:lcorpus [2023/01/06 22:11] (現在) – yoshi | ||
|---|---|---|---|
| 行 2: | 行 2: | ||
| 韓国・[[https:// | 韓国・[[https:// | ||
| - | 集計やグラフの描画,検定などについてはRを用いています. | + | 集計やグラフの描画,検定などについては[[https:// |
| ===== 前提 ===== | ===== 前提 ===== | ||
| 行 48: | 行 48: | ||
| === データの分布 === | === データの分布 === | ||
| - | いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外. | + | いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した. |
| + | |||
| + | <code r> | ||
| + | # x: データフレーム | ||
| + | # for_axis_x: 項目を示す列名 | ||
| + | cut_with_no_facet = function(x, for_axis_x) { | ||
| + | list_quantile <- list() | ||
| + | list_quantile <- x %>% | ||
| + | group_by(.data[[for_axis_x]]) %>% | ||
| + | summarise(' | ||
| + | spread(.data[[for_axis_x]], | ||
| + | list_output <- list() | ||
| + | for (item in names(list_quantile)) { | ||
| + | temp_cutline <- list_quantile %>% | ||
| + | select(.data[[item]]) %>% | ||
| + | as.integer() | ||
| + | list_output[[item]] <- x %>% | ||
| + | filter(.data[[for_axis_x]] == item) %>% | ||
| + | filter(어절 <= temp_cutline) | ||
| + | } | ||
| + | df <- bind_rows(list_output) | ||
| + | return(df) | ||
| + | } | ||
| + | </ | ||
| {{: | {{: | ||
korean/lcorpus.1672928906.txt.gz · 最終更新: 2023/01/05 23:28 by yoshi