korean:modu
文書の過去の版を表示しています。
国立国語院「모두의 말뭉치」の活用方法
はじめに
韓国・国立国語院が構築,公開している「모두의 말뭉치」(ここでの仮称「みんなのコーパス」)について,検索等の活用方法を考えてみました.
このコーパスは,従来「21世紀世宗計画」(以下「世宗計画」)で構築されてきた資料よりも分量がかなり多く,その種類も多様です.ただ,「世宗計画」コーパスとは異なり,JSONという形式で記述されているため,一般の研究者や利用者がちょっと検索してみる,といった使い方に不向きと思われます.「活用サポート資料」などからも分かるように,Pythonなどのプログラミング言語を通して利用する方法が主流となりそうです.
また,データの分量が多いため,機械学習などの用途に向いているようで,「活用事例」にもそういった成果物が見受けられます.
とはいえ,言語研究の立場からは,やはり用例の収集などで利用したいものです.そこで,上記「活用サポート資料」の動画やスクリプトなどを参考にして,活用の方法を試してみることにしました.Google Colaboratory(Colab)を使用して,コーパスの用例を検索するプラグラム(「ノートブック」)を作成し,共有したいと思います.
以下の点にご注意ください:
- 各ノートブックの実行により,何らかの損害,被害が生じた場合,須賀井は一切責任を負いません
- このページで共有しているノートブックは,ご自身のGoogle Driveに保存していただき,それを改変していただいて構いません
- ノートブックの実行にはGoogleアカウントが必要です
- コーパスデータ本体は,ご自身で申請の上,ご準備ください</WRAP>
korean/modu.1698065179.txt.gz · 最終更新: 2023/10/23 21:46 by yoshi