korean:lcorpus
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
korean:lcorpus [2023/01/05 23:21] – [母語✕データ類型] yoshi | korean:lcorpus [2023/01/06 22:11] (現在) – yoshi | ||
---|---|---|---|
行 2: | 行 2: | ||
韓国・[[https:// | 韓国・[[https:// | ||
- | 集計やグラフの描画,検定などについてはRを用いています. | + | 集計やグラフの描画,検定などについては[[https:// |
===== 前提 ===== | ===== 前提 ===== | ||
行 26: | 行 26: | ||
=== 基本統計量 === | === 基本統計量 === | ||
- | <datatable> | + | <datatables> |
^자료 유형 | ^자료 유형 | ||
|구어 | |구어 | ||
行 44: | 行 44: | ||
|문어 | |문어 | ||
|문어 | |문어 | ||
- | </datatable> | + | </datatables> |
=== データの分布 === | === データの分布 === | ||
- | いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外. | + | いずれも分位数95%を上限として,外れ値を除いて((外れ値を除くにあたっては,以下のような関数を作成し,各項目ごとに分位数95%を上限として範囲を設定し,それ以上の項目を除外した. |
- | {{:lcorpus: | + | <code r> |
- | + | # x: データフレーム | |
- | === 平均文節数 === | + | # for_axis_x: 項目を示す列名 |
- | + | cut_with_no_facet = function(x, for_axis_x) { | |
- | ^자료 유형 | + | |
- | |구어 | + | |
- | |문어 | + | |
- | + | | |
- | データ類型ごとに,学習レベル別の平均文節数に有意な差があるか,確認してみる. | + | |
- | + | | |
- | == 文語データ == | + | |
- | + | | |
- | < | + | |
- | ## | + | |
- | ## Lilliefors | + | |
- | ## | + | |
- | ## data: aov_df$어절 | + | |
- | ## D = 0.23714, p-value | + | |
- | </ | + | |
- | Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う. | + | |
- | + | } | |
- | < | + | </code>))可視化.「6級以上」「情報なし」も除外. |
- | ## | + | |
- | ## Kruskal-Wallis rank sum test | + | |
- | ## | + | |
- | ## data: aov_df$어절 and aov_df$`한국어 등급` | + | |
- | ## Kruskal-Wallis chi-squared = 13966, df = 7, p-value | + | |
- | </code> | + | |
- | //p//<0.05であるので,各学習レベルごとに,平均文節数に有意な差が見られると言える. | + | |
- | + | ||
- | 次に,どのレベルとの間で有意な差が見られるのか,Bonferroniの方法によって多重比較を行った: | + | |
- | + | ||
- | < | + | |
- | ## | + | |
- | ## Pairwise comparisons using t tests with pooled SD | + | |
- | ## | + | |
- | ## data: aov_df$어절 and aov_df$`한국어 등급` | + | |
- | ## | + | |
- | ## | + | |
- | ## 2급 < 2e-16 - | + | |
- | ## 3급 < 2e-16 < 2e-16 - | + | |
- | ## 4급 < 2e-16 < 2e-16 1.5e-07 - | + | |
- | ## 5급 < 2e-16 < 2e-16 < 2e-16 < 2e-16 - | + | |
- | ## 6급 < 2e-16 < 2e-16 < 2e-16 < 2e-16 0.013 | + | |
- | ## 6급 이상 | + | |
- | ## 정보 없음 < 2e-16 7.5e-14 1.6e-08 3.6e-06 0.022 | + | |
- | ## | + | |
- | ## P value adjustment method: bonferroni | + | |
- | </code> | + | |
- | 多重比較の結果,1級~6級以上までは,それぞれの級の間で平均文節数に有意な差が見られ,学習レベルが上がるに連れて,平均文節数が増えていることが分かる.ただし,6級と「情報なし」では有意な差が見られなかった. | + | |
- | + | ||
- | == 口語データ == | + | |
- | + | ||
- | < | + | |
- | ## | + | |
- | ## Lilliefors | + | |
- | ## | + | |
- | ## data: aov_df$어절 | + | |
- | ## D = 0.13851, p-value < 2.2e-16 | + | |
- | </code> | + | |
- | Lilliefors検定の結果,文節数は正規性を持たないため,クラスカル・ウォリスの検定を行う. | + | |
- | + | ||
- | < | + | |
- | ## | + | |
- | ## Kruskal-Wallis rank sum test | + | |
- | ## | + | |
- | ## data: aov_df$어절 and aov_df$`한국어 등급` | + | |
- | ## Kruskal-Wallis chi-squared = 381.94, df = 7, p-value < 2.2e-16 | + | |
- | </ | + | |
- | 文語データの場合と同様,// | + | |
- | + | ||
- | 次に,Bonferroniの方法によって多重比較を行った: | + | |
- | + | ||
- | < | + | |
- | ## | + | |
- | ## Pairwise comparisons using t tests with pooled SD | + | |
- | ## | + | |
- | ## data: aov_df$어절 and aov_df$`한국어 등급` | + | |
- | ## | + | |
- | ## | + | |
- | ## 2급 | + | |
- | ## 3급 < 2e-16 1.3e-07 - | + | |
- | ## 4급 | + | |
- | ## 5급 | + | |
- | ## 6급 < 2e-16 3.7e-06 1.000 | + | |
- | ## 6급 이상 | + | |
- | ## 정보 없음 4.2e-05 1.000 | + | |
- | ## | + | |
- | ## P value adjustment method: bonferroni | + | |
- | </code> | + | |
- | + | ||
- | 多重比較の結果,1級から3級まではレベルが上がるに連れて,平均文節数が有意に増えていると言える.しかし,3級と4級とでは有意な差が見られるものの,4級で平均文節数が減少しており,3級よりも4級のほうが有意に少ない平均文節数となっている.また,2級と4級とではその差が有意であるとは言えない.なお,3級の平均文節数がレベルの割に多いことは,3級―5級,3級―6級とでそれぞれ有意な差が見られない点からも分かる. | + | |
- | + | ||
- | 結論として,口語データの場合,1級から3級までは学習レベルが上がるに連れて平均文節数が増えると言えるが,4級以降,3級に比べると平均文節数が有意に増えるとは言えないことが分かった. | + | |
- | + | ||
- | ===== 母語別の集計 ===== | + | |
- | + | ||
- | 「모국어」を基にした集計を行う.以下はデータ類型を区別しない,母語別の基本統計量. | + | |
- | + | ||
- | ==== 母語別の基本統計量 ==== | + | |
- | + | ||
- | < | + | |
- | ^모국어 | + | |
- | |간다어 | + | |
- | |광둥어 | + | |
- | |구자라트어 | + | |
- | |그리스어 | + | |
- | |네덜란드어 | + | |
- | |네팔어 | + | |
- | |노르웨이어 | + | |
- | |노르웨이어 | + | |
- | |덴마크어 | + | |
- | |독일어 | + | |
- | |딩카어 | + | |
- | |라오어 | + | |
- | |라트비아어 | + | |
- | |라틴어 | + | |
- | |러시아어 | + | |
- | |루마니아어 | + | |
- | |룩셈부르크어 | + | |
- | |르완다어 | + | |
- | |리투아니아어 | + | |
- | |마다가스카르어 | + | |
- | |마라티어 | + | |
- | |마오리어 | + | |
- | |말라얄람어 | + | |
- | |말레이어 | + | |
- | |몽골어 | + | |
- | |버마어 | + | |
- | |베트남어 | + | |
- | |벨라루스어 | + | |
- | |벵골어 | + | |
- | |불가리아어 | + | |
- | |세르비아어 | + | |
- | |세부아노어 | + | |
- | |스와힐리어 | + | |
- | |스웨덴어 | + | |
- | |스페인어 | + | |
- | |슬로바키아어 | + | |
- | |슬로베니아어 | + | |
- | |싱할라어 | + | |
- | |아랍어 | + | |
- | |아르메니아어 | + | |
- | |아이슬란드어 | + | |
- | |아제르바이잔어 | + | |
- | |아프리칸스어 | + | |
- | |알바니아어 | + | |
- | |암하라어 | + | |
- | |에스토니아어 | + | |
- | |영어 | + | |
- | |우르두어 | + | |
- | |우즈베크어 | + | |
- | |우크라이나어 | + | |
- | |월로프어 | + | |
- | |웨일스어 | + | |
- | |위구르어 | + | |
- | |이그보어 | + | |
- | |이탈리아어 | + | |
- | |인도네시아어 | + | |
- | |일본어 | + | |
- | |자바어 | + | |
- | |조지아어 | + | |
- | |중국어 | + | |
- | |중국어(만다린어) | + | |
- | |체코어 | + | |
- | |츠와나어 | + | |
- | |카자흐어 | + | |
- | |카탈루냐어 | + | |
- | |칸나다어 | + | |
- | |쿠르드어 | + | |
- | |크메르어 | + | |
- | |키르기스어 | + | |
- | |타갈로그어 | + | |
- | |타밀어 | + | |
- | |타이어 | + | |
- | |타지크어 | + | |
- | |타타르어 | + | |
- | |터키어 | + | |
- | |테툼어 | + | |
- | |텔루구어 | + | |
- | |투르크멘어 | + | |
- | |트위어 | + | |
- | |티그리냐어 | + | |
- | |티베트어 | + | |
- | |파슈토어 | + | |
- | |판테어(Fanti) | 1 | + | |
- | |펀자브어 | + | |
- | |페르시아어 | + | |
- | |포르투갈어 | + | |
- | |폴란드어 | + | |
- | |풀라어 | + | |
- | |프랑스어 | + | |
- | |피지어 | + | |
- | |핀란드어 | + | |
- | |한국어 | + | |
- | |헝가리어 | + | |
- | |히브리어 | + | |
- | |힌디어 | + | |
- | </datatable> | + | |
- | + | ||
- | データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. | + | |
- | + | ||
- | ====== 韓国語学習者コーパスについて(概要) ====== | + | |
- | + | ||
- | 韓国・[[https:// | + | |
- | 集計やグラフの描画,検定などについてはRを用いています. | + | |
- | + | ||
- | ===== 前提 ===== | + | |
- | + | ||
- | 2022年6月に[[https:// | + | |
- | + | ||
- | 以下では**「원시 말뭉치」(原文コーパス)のデータについて**扱う.サンプルの総数は34342項目である. | + | |
- | + | ||
- | ===== データ類型別の集計 ===== | + | |
- | + | ||
- | 「자료 유형」を基にした集計を行う.以下は全データの基本統計量. | + | |
- | + | ||
- | ==== データ類型別の基本統計量 ==== | + | |
- | + | ||
- | ^자료 유형 | + | |
- | |구어 | + | |
- | |문어 | + | |
- | + | ||
- | ==== データ類型✕学習レベル ==== | + | |
- | + | ||
- | データ類型ごとに,学習レベル別の集計を行う. | + | |
- | + | ||
- | === 基本統計量 === | + | |
- | + | ||
- | <datatable> | + | |
- | ^자료 유형 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |구어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | |문어 | + | |
- | </datatable> | + | |
- | + | ||
- | === データの分布 === | + | |
- | + | ||
- | いずれも分位数95%を上限として,外れ値を除いて可視化.「6級以上」「情報なし」も除外. | + | |
{{: | {{: | ||
行 404: | 行 174: | ||
==== 母語別の基本統計量 ==== | ==== 母語別の基本統計量 ==== | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 501: | 行 271: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. | データ類型を区別しない場合,サンプル数の上位5項目は中国語,日本語,ベトナム語,英語,広東語であった.文節数では中国語,日本語,ベトナム語,タイ語,英語となった.中でもタイ語の平均文節数(325.97文節)は,他の4言語(130.98~167.90文節)を大きく上回っており,1サンプル当たりの分量が多いことが分かる.なお,タイ語については標準偏差も他より大きく,サンプルごとに文節数のばらつきが大きいと言える. | ||
行 509: | 行 279: | ||
=== 基本統計量 === | === 基本統計量 === | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 652: | 行 422: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. | 文語データを見ると,文節数上位の10言語(中国語,日本語,ベトナム語,英語,広東語,ロシア語,タイ語,モンゴル語,スペイン語,インドネシア語)の間で平均文節数に大きな差は見られない(ベトナム語105.05文節~タイ語128.21文節).中国語の文節数が桁違いに多いが,サンプル数が多いためで,平均文節数もやや多い程度.ただし,標準偏差は他よりも大きく(159.16),最小5文節~最大5782文節と,文節数の幅がかなりある. | ||
行 684: | 行 454: | ||
全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. | 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|베트남어 | |베트남어 | ||
行 726: | 行 496: | ||
|타이어 | |타이어 | ||
|타이어 | |타이어 | ||
- | </datatable> | + | </datatables> |
=== 全言語の学習レベル別サンプル数 === | === 全言語の学習レベル別サンプル数 === | ||
行 732: | 行 502: | ||
デフォルトでは,合計数の降順に示した. | デフォルトでは,合計数の降順に示した. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 829: | 行 599: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
=== 全言語の学習レベル別文節数 === | === 全言語の学習レベル別文節数 === | ||
行 835: | 行 605: | ||
合計数の降順に示した. | 合計数の降順に示した. | ||
- | <datatable> | + | <datatables> |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 932: | 行 702: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
=== データの分布 === | === データの分布 === | ||
行 948: | 行 718: | ||
=== 平均文節数 === | === 平均文節数 === | ||
- | <datatable> | + | <datatables> |
- | ^모국어 | + | |
- | |간다어 | + | |
- | |광둥어 | + | |
- | |구자라트어 | + | |
- | |그리스어 | + | |
- | |네덜란드어 | + | |
- | |네팔어 | + | |
- | |노르웨이어 | + | |
- | |노르웨이어 (뉘노르스크) | + | |
- | |덴마크어 | + | |
- | |독일어 | + | |
- | |딩카어 | + | |
- | |라오어 | + | |
- | |라트비아어 | + | |
- | |라틴어 | + | |
- | |러시아어 | + | |
- | |루마니아어 | + | |
- | |룩셈부르크어 | + | |
- | |르완다어 | + | |
- | |리투아니아어 | + | |
- | |마다가스카르어 | + | |
- | |마라티어 | + | |
- | |마오리어 | + | |
- | |말라얄람어 | + | |
- | |말레이어 | + | |
- | |몽골어 | + | |
- | |버마어 | + | |
- | |베트남어 | + | |
- | |벨라루스어 | + | |
- | |벵골어 | + | |
- | |불가리아어 | + | |
- | |세르비아어 | + | |
- | |세부아노어 | + | |
- | |스와힐리어 | + | |
- | |스웨덴어 | + | |
- | |스페인어 | + | |
- | |슬로바키아어 | + | |
- | |슬로베니아어 | + | |
- | |싱할라어 | + | |
- | |아랍어 | + | |
- | |아르메니아어 | + | |
- | |아이슬란드어 | + | |
- | |아제르바이잔어 | + | |
- | |아프리칸스어 | + | |
- | |알바니아어 | + | |
- | |암하라어 | + | |
- | |에스토니아어 | + | |
- | |영어 | + | |
- | |우르두어 | + | |
- | |우즈베크어 | + | |
- | |우크라이나어 | + | |
- | |월로프어 | + | |
- | |웨일스어 | + | |
- | |위구르어 | + | |
- | |이그보어 | + | |
- | |이탈리아어 | + | |
- | |인도네시아어 | + | |
- | |일본어 | + | |
- | |자바어 | + | |
- | |조지아어 | + | |
- | |중국어 | + | |
- | |중국어(만다린어) | + | |
- | |체코어 | + | |
- | |츠와나어 | + | |
- | |카자흐어 | + | |
- | |카탈루냐어 | + | |
- | |칸나다어 | + | |
- | |쿠르드어 | + | |
- | |크메르어 | + | |
- | |키르기스어 | + | |
- | |타갈로그어 | + | |
- | |타밀어 | + | |
- | |타이어 | + | |
- | |타지크어 | + | |
- | |타타르어 | + | |
- | |터키어 | + | |
- | |테툼어 | + | |
- | |텔루구어 | + | |
- | |투르크멘어 | + | |
- | |트위어 | + | |
- | |티그리냐어 | + | |
- | |티베트어 | + | |
- | |파슈토어 | + | |
- | |판테어(Fanti) | + | |
- | |펀자브어 | + | |
- | |페르시아어 | + | |
- | |포르투갈어 | + | |
- | |폴란드어 | + | |
- | |풀라어 | + | |
- | |프랑스어 | + | |
- | |피지어 | + | |
- | |핀란드어 | + | |
- | |한국어 | + | |
- | |헝가리어 | + | |
- | |히브리어 | + | |
- | |힌디어 | + | |
- | </ | + | |
- | + | ||
- | ==== 母語✕学習レベル ==== | + | |
- | + | ||
- | === 文節数上位5言語の基本統計量 === | + | |
- | + | ||
- | 全ての言語についてレベルごとの基本統計量を算出するのは冗長であるため,文節数上位5言語の各レベルに限って,基本統計量を算出した.データ類型は文語・口語いずれも含む. | + | |
- | + | ||
- | < | + | |
- | ^모국어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |베트남어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |영어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |일본어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |중국어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | |타이어 | + | |
- | </ | + | |
- | + | ||
- | === 全言語の学習レベル別サンプル数 === | + | |
- | + | ||
- | デフォルトでは,合計数の降順に示した. | + | |
- | + | ||
- | < | + | |
- | ^모국어 | + | |
- | |간다어 | + | |
- | |광둥어 | + | |
- | |구자라트어 | + | |
- | |그리스어 | + | |
- | |네덜란드어 | + | |
- | |네팔어 | + | |
- | |노르웨이어 | + | |
- | |노르웨이어 (뉘노르스크) | + | |
- | |덴마크어 | + | |
- | |독일어 | + | |
- | |딩카어 | + | |
- | |라오어 | + | |
- | |라트비아어 | + | |
- | |라틴어 | + | |
- | |러시아어 | + | |
- | |루마니아어 | + | |
- | |룩셈부르크어 | + | |
- | |르완다어 | + | |
- | |리투아니아어 | + | |
- | |마다가스카르어 | + | |
- | |마라티어 | + | |
- | |마오리어 | + | |
- | |말라얄람어 | + | |
- | |말레이어 | + | |
- | |몽골어 | + | |
- | |버마어 | + | |
- | |베트남어 | + | |
- | |벨라루스어 | + | |
- | |벵골어 | + | |
- | |불가리아어 | + | |
- | |세르비아어 | + | |
- | |세부아노어 | + | |
- | |스와힐리어 | + | |
- | |스웨덴어 | + | |
- | |스페인어 | + | |
- | |슬로바키아어 | + | |
- | |슬로베니아어 | + | |
- | |싱할라어 | + | |
- | |아랍어 | + | |
- | |아르메니아어 | + | |
- | |아이슬란드어 | + | |
- | |아제르바이잔어 | + | |
- | |아프리칸스어 | + | |
- | |알바니아어 | + | |
- | |암하라어 | + | |
- | |에스토니아어 | + | |
- | |영어 | + | |
- | |우르두어 | + | |
- | |우즈베크어 | + | |
- | |우크라이나어 | + | |
- | |월로프어 | + | |
- | |웨일스어 | + | |
- | |위구르어 | + | |
- | |이그보어 | + | |
- | |이탈리아어 | + | |
- | |인도네시아어 | + | |
- | |일본어 | + | |
- | |자바어 | + | |
- | |조지아어 | + | |
- | |중국어 | + | |
- | |중국어(만다린어) | + | |
- | |체코어 | + | |
- | |츠와나어 | + | |
- | |카자흐어 | + | |
- | |카탈루냐어 | + | |
- | |칸나다어 | + | |
- | |쿠르드어 | + | |
- | |크메르어 | + | |
- | |키르기스어 | + | |
- | |타갈로그어 | + | |
- | |타밀어 | + | |
- | |타이어 | + | |
- | |타지크어 | + | |
- | |타타르어 | + | |
- | |터키어 | + | |
- | |테툼어 | + | |
- | |텔루구어 | + | |
- | |투르크멘어 | + | |
- | |트위어 | + | |
- | |티그리냐어 | + | |
- | |티베트어 | + | |
- | |파슈토어 | + | |
- | |판테어(Fanti) | + | |
- | |펀자브어 | + | |
- | |페르시아어 | + | |
- | |포르투갈어 | + | |
- | |폴란드어 | + | |
- | |풀라어 | + | |
- | |프랑스어 | + | |
- | |피지어 | + | |
- | |핀란드어 | + | |
- | |한국어 | + | |
- | |헝가리어 | + | |
- | |히브리어 | + | |
- | |힌디어 | + | |
- | </ | + | |
- | + | ||
- | === 全言語の学習レベル別文節数 === | + | |
- | + | ||
- | 合計数の降順に示した. | + | |
- | + | ||
- | < | + | |
- | ^모국어 | + | |
- | |간다어 | + | |
- | |광둥어 | + | |
- | |구자라트어 | + | |
- | |그리스어 | + | |
- | |네덜란드어 | + | |
- | |네팔어 | + | |
- | |노르웨이어 | + | |
- | |노르웨이어 (뉘노르스크) | + | |
- | |덴마크어 | + | |
- | |독일어 | + | |
- | |딩카어 | + | |
- | |라오어 | + | |
- | |라트비아어 | + | |
- | |라틴어 | + | |
- | |러시아어 | + | |
- | |루마니아어 | + | |
- | |룩셈부르크어 | + | |
- | |르완다어 | + | |
- | |리투아니아어 | + | |
- | |마다가스카르어 | + | |
- | |마라티어 | + | |
- | |마오리어 | + | |
- | |말라얄람어 | + | |
- | |말레이어 | + | |
- | |몽골어 | + | |
- | |버마어 | + | |
- | |베트남어 | + | |
- | |벨라루스어 | + | |
- | |벵골어 | + | |
- | |불가리아어 | + | |
- | |세르비아어 | + | |
- | |세부아노어 | + | |
- | |스와힐리어 | + | |
- | |스웨덴어 | + | |
- | |스페인어 | + | |
- | |슬로바키아어 | + | |
- | |슬로베니아어 | + | |
- | |싱할라어 | + | |
- | |아랍어 | + | |
- | |아르메니아어 | + | |
- | |아이슬란드어 | + | |
- | |아제르바이잔어 | + | |
- | |아프리칸스어 | + | |
- | |알바니아어 | + | |
- | |암하라어 | + | |
- | |에스토니아어 | + | |
- | |영어 | + | |
- | |우르두어 | + | |
- | |우즈베크어 | + | |
- | |우크라이나어 | + | |
- | |월로프어 | + | |
- | |웨일스어 | + | |
- | |위구르어 | + | |
- | |이그보어 | + | |
- | |이탈리아어 | + | |
- | |인도네시아어 | + | |
- | |일본어 | + | |
- | |자바어 | + | |
- | |조지아어 | + | |
- | |중국어 | + | |
- | |중국어(만다린어) | + | |
- | |체코어 | + | |
- | |츠와나어 | + | |
- | |카자흐어 | + | |
- | |카탈루냐어 | + | |
- | |칸나다어 | + | |
- | |쿠르드어 | + | |
- | |크메르어 | + | |
- | |키르기스어 | + | |
- | |타갈로그어 | + | |
- | |타밀어 | + | |
- | |타이어 | + | |
- | |타지크어 | + | |
- | |타타르어 | + | |
- | |터키어 | + | |
- | |테툼어 | + | |
- | |텔루구어 | + | |
- | |투르크멘어 | + | |
- | |트위어 | + | |
- | |티그리냐어 | + | |
- | |티베트어 | + | |
- | |파슈토어 | + | |
- | |판테어(Fanti) | + | |
- | |펀자브어 | + | |
- | |페르시아어 | + | |
- | |포르투갈어 | + | |
- | |폴란드어 | + | |
- | |풀라어 | + | |
- | |프랑스어 | + | |
- | |피지어 | + | |
- | |핀란드어 | + | |
- | |한국어 | + | |
- | |헝가리어 | + | |
- | |히브리어 | + | |
- | |힌디어 | + | |
- | </ | + | |
- | + | ||
- | === データの分布 === | + | |
- | + | ||
- | == 全体 == | + | |
- | + | ||
- | 文語データ・口語データを含めた文節数合計の上位5言語について,箱ひげ図で分布を確認する.ただし,いずれも「6급 이상」および「정보 없음」はサンプル数が他のレベルに比べ少ないため,図からは除外した. | + | |
- | + | ||
- | {{: | + | |
- | + | ||
- | == 学習レベル別 == | + | |
- | + | ||
- | {{: | + | |
- | + | ||
- | === 平均文節数 === | + | |
- | + | ||
- | < | + | |
^모국어 | ^모국어 | ||
|간다어 | |간다어 | ||
行 1414: | 行 815: | ||
|히브리어 | |히브리어 | ||
|힌디어 | |힌디어 | ||
- | </datatable> | + | </datatables> |
korean/lcorpus.1672928488.txt.gz · 最終更新: 2023/01/05 23:21 by yoshi