韓国・国立国語院が構築,公開している「모두의 말뭉치」(ここでの仮称「みんなのコーパス」)について,検索等の活用方法を考えてみました.
このコーパスは,従来「21世紀世宗計画」(以下「世宗計画」)で構築されてきた資料よりも分量がかなり多く,その種類も多様です.ただ,「世宗計画」コーパスとは異なり,JSONという形式で記述されているため,一般の研究者や利用者がちょっと検索してみる,といった使い方に不向きと思われます.「活用サポート資料」などからも分かるように,Pythonなどのプログラミング言語を通して利用する方法が主流となりそうです.
また,データの分量が多いため,機械学習などの用途に向いているようで,「活用事例」にもそういった成果物が見受けられます.
とはいえ,言語研究の立場からは,やはり用例の収集などで利用したいものです.そこで,上記「活用サポート資料」の動画やスクリプトなどを参考にして,活用の方法を試してみることにしました.Google Colaboratory(Colab)を使用して,コーパスの用例を検索するプログラム(「ノートブック」)を作成し,共有したいと思います.
以下の点にご注意ください:
なお,あくまで「やってみた」という程度なので,コーパスの選択や機能などは,須賀井が思いついた(あるいは必要とする)ものを,できたときにシェアする予定です.
以下,コーパス別にシェアしておきます.順不同.錯誤があれば,ご指摘ください.