ユーザ用ツール

サイト用ツール


korean:modu

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
korean:modu [2023/10/23 21:44] – [はじめに] yoshikorean:modu [2023/12/14 21:46] (現在) – [ノートブック] yoshi
行 7: 行 7:
 このコーパスは,従来「21世紀世宗計画」(以下「世宗計画」)で構築されてきた資料よりも分量がかなり多く,その種類も多様です.ただ,「世宗計画」コーパスとは異なり,JSONという形式で記述されているため,一般の研究者や利用者がちょっと検索してみる,といった使い方に不向きと思われます.「[[https://corpus.korean.go.kr/resultRequest/supportDataList.do|活用サポート資料]]」などからも分かるように,Pythonなどのプログラミング言語を通して利用する方法が主流となりそうです. このコーパスは,従来「21世紀世宗計画」(以下「世宗計画」)で構築されてきた資料よりも分量がかなり多く,その種類も多様です.ただ,「世宗計画」コーパスとは異なり,JSONという形式で記述されているため,一般の研究者や利用者がちょっと検索してみる,といった使い方に不向きと思われます.「[[https://corpus.korean.go.kr/resultRequest/supportDataList.do|活用サポート資料]]」などからも分かるように,Pythonなどのプログラミング言語を通して利用する方法が主流となりそうです.
  
-また,データの分量が多いため,機械学習などの用途に向いているようで,「[https://corpus.korean.go.kr/resultRequest/useList.do|活用事例]]」にもそういった成果物が見受けられます.+また,データの分量が多いため,機械学習などの用途に向いているようで,「[[https://corpus.korean.go.kr/resultRequest/useList.do|活用事例]]」にもそういった成果物が見受けられます.
  
-とはいえ,言語研究の立場からは,やはり用例の収集などで利用したいものです.そこで,上記「[[https://corpus.korean.go.kr/resultRequest/supportDataList.do|活用サポート資料]]」の動画やスクリプトなどを参考にして,活用の方法を試してみることにしました.[[https://colab.research.google.com/?hl=ja|Google Colaboratory]](Colab)を使用して,コーパスの用例を検索するプグラム(「ノートブック」)を作成し,共有したいと思います.+とはいえ,言語研究の立場からは,やはり用例の収集などで利用したいものです.そこで,上記「[[https://corpus.korean.go.kr/resultRequest/supportDataList.do|活用サポート資料]]」の動画やスクリプトなどを参考にして,活用の方法を試してみることにしました.[[https://colab.research.google.com/?hl=ja|Google Colaboratory]](Colab)を使用して,コーパスの用例を検索するプグラム(「ノートブック」)を作成し,共有したいと思います.
  
-<WRAP important>+<WRAP center round important>
 以下の点にご注意ください: 以下の点にご注意ください:
  
行 19: 行 19:
   * コーパスデータ本体は,[[https://corpus.korean.go.kr/request/corpusRegist.do|ご自身で申請]]の上,ご準備ください   * コーパスデータ本体は,[[https://corpus.korean.go.kr/request/corpusRegist.do|ご自身で申請]]の上,ご準備ください
 </WRAP> </WRAP>
 +
 +なお,あくまで「やってみた」という程度なので,コーパスの選択や機能などは,須賀井が思いついた(あるいは必要とする)ものを,できたときにシェアする予定です.
 +
 +===== ノートブック =====
 +
 +以下,コーパス別にシェアしておきます.順不同.錯誤があれば,ご指摘ください.
 +
 +  * [[https://colab.research.google.com/drive/1k-GA7C0-hMUtN0xvUV8gSbWmCUWqG6dR?usp=sharing|「형태 분석 말뭉치」の検索]]:書きことば200万文節,話しことば100万文節に形態素解析を施したコーパス.このノートブックは書きことばを形態素単位,文節単位,文単位で検索することを目的としています.[2023/11/26]
 +  * [[https://colab.research.google.com/drive/1W-2krUtKbf8nDjC5l6WzNFdjp74I9hwb?usp=sharing|「온라인 대화 말뭉치 2021」の検索]]:メッセージングアプリなどのオンライン対話を収録したコーパス.対話メッセージ300万件以上を収録,ファイル数約4万7千.[2023/10/23]
  
  
  
korean/modu.1698065092.txt.gz · 最終更新: 2023/10/23 21:44 by yoshi