====== MeCab를 이용한 한국어 형태소 분석 ====== 이 페이지에서는 오픈소스 형태소 분석 엔진 MeCab(메카브)를 이용한 현대한국어의 형태소 분석에 대해 소개합니다.([[mecab|日本語ページ]]) 아래의 내용은 지금 갱신 작업 중입니다. 최신 버전은 [[mecab|일본어판]]을 참조하여 주시기 바랍니다. MeCab는 보통 일본어 형태소 분석에 사용되지만, 학습용 데이터와 분석 사전을 준비하면 다른 언어를 분석하는 데 이용할 수 있습니다. 여기서는 현대한국어를 분석하기 위해 작성한 사전에 대해 소개하고, 기타 MeCab를 이용하는 방법에 대해 설명합니다. [2014/11/29] 분석 사전을 업데이트하였습니다! 이 페이지와 관련되는 성과물은 2010-2012년도 科学研究費補助金(基盤研究(B))「[[http://kaken.nii.ac.jp/d/p/22320115.ja.html|朝鮮語CALL教材作成技法の開発と普及]]」(研究代表者:須賀井義教.研究分担者:油谷幸利,大名力,中西恭子,中村麻結), 2013―2014년도 科学研究費補助金(若手研究(B))「[[http://kaken.nii.ac.jp/d/p/25770164.ja.html|現代韓国語自動形態素解析のための辞書構築とその応用]](研究代表者:須賀井義教)에 의한 연구 성과의 일분입니다. 분석 사전을 공개하였습니다. [[http://ko.osdn.jp/projects/handic/|HanDic 프로젝트]]에서 분석 사전과 관련 스크립트를 다운 받을 수 있습니다. [2015/07/03] 이 페이지 및 여기에서 공개하는 성과물은 시험 운용 중입니다. 착오나 오류가 있을 때에는 연락 주시기 바랍니다. ===== MeCab를 이용한 도구 ===== 현재 공개하고 있는 MeCab 관련 한국어 학습 / 교육 콘텐츠입니다. * [[https://porocise.sakura.ne.jp/korean/mecab/main.html|MeCab를 이용한 한국어 학습 보조 도구]]: 입력된 현대한국어 문장을 분석하여 단어의 학습 수준을 표시하거나 한자 표기로 변환하는 등 한국어 학습에 도움이 되는 정보를 제공합니다. 단어마다 웹 사전으로의 링크를 생성할 수도 있습니다. 사용 설명서는 [[korean:mecab.ko:tagger_manual_ko|여기]]를 참조. * [[https://porocise.sakura.ne.jp/korean/mecab/analyzer.html|형태소 분석 / 한자 표기 변환]]: 현대한국어 문장을 분석하여 품사를 표시하거나 문장 중의 한자어를 한자 표기로 바꿔 줍니다.([2013/03/13] 앞으로 이 페이지는 갱신하지 않습니다. 위의 "한국어 읽기 보조 도구"를 이용하여 주시기 바랍니다.) * [[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCab를 이용한 히라가나의 한글 전사]]: 입력된 히라가나 표기를 한글로 전사합니다. 또한 한자가 섞인 일본어 문장도 MeCab로 분석한 다음에 한글로 전사할 수 있습니다. ===== 분석용 사전에 대하여 ===== 여기서 작성, 이용하고 있는 분석용 사전은 다음과 같습니다. * 버전: 개정판 0.25(20141128) * 101,155개 항목 포함 * 학습 데이터: 1,500개 문장 ==== 원 자료 ==== 주로 다음과 같은 데이터를 이용하여 사전을 구축하였습니다. * [[http://www.korean.go.kr/|국립국어원]] 「한국어 학습용 어휘 목록」(5,965개 단어 수록): 「어째서(=어찌하여서)」「얘(=이 아이)」 등 분류 불명 어휘, 「듯하다」 등 일부 보조 용언, 「수십」 등 일부 수사를 제외했음 * 국립국어원「현대 국어 사용 빈도 조사」: 일부 수록하였음 * 아래의 사이트를 참조하여 고유명사를 추가 * 한국인의 성씨: Wikipedia [[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EC%84%B1%EC%94%A8_%EB%AA%A9%EB%A1%9D|대한민국의 인구순 성씨 목록]] (한자 표기 있음) * 서울 지하철 역 이름: [[http://www.seoulmetro.co.kr/station/stationinfo.action|서울메트로 교통센터]] (한자 표기 없음) * 철도역 이름:Wikipedia [[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84%EA%B6%8C_%EC%A0%84%EC%B2%A0%EC%97%AD_%EB%AA%A9%EB%A1%9D|대한민국의 철도역 목록]] (한자 표기 있음) * 행정 구역 이름: [[http://www.mopas.go.kr/|행정안전부]]가 작성한 「지방자치단체 행정구역 및 인구 현황(2012.1. 현재)」 [[http://www.mopas.go.kr/gpms/ns/mogaha/user/userlayout/bulletin/userBtView.action?userBtBean.bbsSeq=1021917&userBtBean.ctxCd=1059&userBtBean.ctxType=21010002¤tPage=11|공개 데이터]](한자 표기 있음) * 나라, 수도 이름: Wikipedia [[http://ko.wikipedia.org/wiki/%EC%88%98%EB%8F%84_%EB%AA%A9%EB%A1%9D_(%EB%82%98%EB%9D%BC_%EC%9D%B4%EB%A6%84_%EC%88%9C)|나라 이름순 수도 목록]] (한자 표기 있음) * 외래어 표기 용례 자료:국립국어원「외래어 표기 용례 자료」 중 「중국 인명과 지명」에서 인명 및 도시(일부: 도시, 성, 성도, 현, 자치구/자치주, 주도, 직할시)(한자 표기 있음) * 산, 하천: Wikipedia [[http://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%82%B0|대한민국의 산]],[[http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B5%AD%EA%B0%80%ED%95%98%EC%B2%9C_%EB%AA%A9%EB%A1%9D|대한민국의 국가하천]](한자 표기 있음) * 기타 인터넷에서 퍼 온 데이터에 대해서는 착오가 발견되는 대로 즉시 수정합니다. ==== 품사 체계와 소성 기술 ==== 품사 체계는 대체로 국립국어원의 성과물을 따랐지만 일부 바꾼 것도 있습니다. ==== 용언 활용의 기술 방식 ==== 용언 활용을 기술하는 데에 "어기" 개념을 이용하였습니다. ==== 학습용 데이터 ==== [[http://www.sejong.or.kr/|21세기 세종계획]]에서 공개하고 있는 원시 말뭉치(제목 등을 제회한 앞부분 100개 문장) 중 다음 파일을 이용하여 학습용 말뭉치를 구축하였습니다. 품사 판정에서 같은 글의 형태분석 말뭉치를 참고로 하였습니다. - 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt) - 「알기 쉬운 인권 지침」(BRHO0112.txt) - 「인간을 위하여 미래를 위하여」(BRHO0116.txt) - 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt) - 「컴퓨터 이야기」(BRHO0118.txt) - 「현대 문학을 보는 시각」(BRHO0120.txt) - 「우리 학문의 길」(BRHO0124.txt) - 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt) - 「화술과 인간관계」(BRHO0376.txt) - 「고객과 경쟁하라」(BRHO0390.txt) - 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt) - 「한국 식품학 입문」(BRHO0396.txt) - 「세상에서 가장 아름다운 집」(BRHO0398.txt) - 「소설 창작 강의」(BRHO0402.txt) - 「논술의 정석」(BRHO0414.txt) 위의 데이터를 가지고 학습용 말뭉치를 작성하여 parameter를 학습에 이용하였습니다. 사전 구축 후에 용언과 접미사 / 어미와의 연접 cost를 수정하였습니다. 구체적으로 사전 구축 후에 matrix.def에서 불가능한 연접의 cost를 "0"으로 설정하고 다시 mecab-dict-index를 실행하여 사전을 구축하였습니다. 학습용 데이터는 앞으로 분량을 늘릴 예정입니다. [2014/11/01] 개정판 분석 사전에서는 "학습용 어휘"에 있는 모든 '하다'용언에 관해 '하다'를 따로 분리하여 등록하였습니다. 다만 '위하다', '정하다' 등 앞 부분이 1음절로 구성된 용언은 그대로 등록하였습니다. ===== 분석 사전 구축에 대하여 ===== 구체적인 방법에 대해서는 [[https://porocise.sakura.ne.jp/korean/hira2han/index.html|MeCab를 이용한 히라가나의 한글 전사]]에 정리했습니다. ===== 발표한 관련 업적 ===== [[..:author|관리자에 대하여]]를 참조하시기 바랍니다. ===== 참조한 웹 사이트 ===== MeCab 홈페이지 외에 사전 구축, 서버에 모듈 설치하기, 등에서 참조한 웹 사이트입니다. * [[http://d.hatena.ne.jp/bellbind/20090529/1243615666|cygwin上にmecab&mecab-rubyをインストール]] * [[http://kubotahi.blogspot.com/2010/12/mecab-on-perl.html|MeCab on Perl]] * [[http://perl-users.jp/articles/advent-calendar/2010/acme/21|Text::MeCab(日本語変換系Acmeモジュールを支える偉大なモジュール)]] * [[http://pawa.dojikko.com/pg/perl/2009.html|さくら鯖でText::MeCabをインストールする方法(UTF-8対応)]] * [[http://www.mwsoft.jp/programming/munou/mecab_command.html|MeCabのコマンドライン引数一覧とその実行例]] {{indexmenu_n>30}}