ユーザ用ツール

サイト用ツール


korean:modu

国立国語院「모두의 말뭉치」の活用方法

はじめに

韓国・国立国語院が構築,公開している「모두의 말뭉치」(ここでの仮称「みんなのコーパス」)について,検索等の活用方法を考えてみました.

このコーパスは,従来「21世紀世宗計画」(以下「世宗計画」)で構築されてきた資料よりも分量がかなり多く,その種類も多様です.ただ,「世宗計画」コーパスとは異なり,JSONという形式で記述されているため,一般の研究者や利用者がちょっと検索してみる,といった使い方に不向きと思われます.「活用サポート資料」などからも分かるように,Pythonなどのプログラミング言語を通して利用する方法が主流となりそうです.

また,データの分量が多いため,機械学習などの用途に向いているようで,「活用事例」にもそういった成果物が見受けられます.

とはいえ,言語研究の立場からは,やはり用例の収集などで利用したいものです.そこで,上記「活用サポート資料」の動画やスクリプトなどを参考にして,活用の方法を試してみることにしました.Google Colaboratory(Colab)を使用して,コーパスの用例を検索するプログラム(「ノートブック」)を作成し,共有したいと思います.

以下の点にご注意ください:

  • 各ノートブックの実行により,何らかの損害,被害が生じた場合,須賀井は一切責任を負いません
  • このページで共有しているノートブックは,ご自身のGoogle Driveに保存していただき,それを改変していただいて構いません
  • ノートブックの実行にはGoogleアカウントが必要です
  • コーパスデータ本体は,ご自身で申請の上,ご準備ください

なお,あくまで「やってみた」という程度なので,コーパスの選択や機能などは,須賀井が思いついた(あるいは必要とする)ものを,できたときにシェアする予定です.

ノートブック

以下,コーパス別にシェアしておきます.順不同.錯誤があれば,ご指摘ください.

  • 「형태 분석 말뭉치」の検索:書きことば200万文節,話しことば100万文節に形態素解析を施したコーパス.このノートブックは書きことばを形態素単位,文節単位,文単位で検索することを目的としています.[2023/11/26]
  • 「온라인 대화 말뭉치 2021」の検索:メッセージングアプリなどのオンライン対話を収録したコーパス.対話メッセージ300万件以上を収録,ファイル数約4万7千.[2023/10/23]
korean/modu.txt · 最終更新: 2023/12/14 21:46 by yoshi