目次
MeCab를 이용한 한국어 형태소 분석
이 페이지에서는 오픈소스 형태소 분석 엔진 MeCab(메카브)를 이용한 현대한국어의 형태소 분석에 대해 소개합니다.(日本語ページ)
아래의 내용은 지금 갱신 작업 중입니다. 최신 버전은 일본어판을 참조하여 주시기 바랍니다.
MeCab는 보통 일본어 형태소 분석에 사용되지만, 학습용 데이터와 분석 사전을 준비하면 다른 언어를 분석하는 데 이용할 수 있습니다. 여기서는 현대한국어를 분석하기 위해 작성한 사전에 대해 소개하고, 기타 MeCab를 이용하는 방법에 대해 설명합니다.
[2014/11/29] 분석 사전을 업데이트하였습니다!
이 페이지와 관련되는 성과물은 2010-2012년도 科学研究費補助金(基盤研究(B))「朝鮮語CALL教材作成技法の開発と普及」(研究代表者:須賀井義教.研究分担者:油谷幸利,大名力,中西恭子,中村麻結), 2013―2014년도 科学研究費補助金(若手研究(B))「現代韓国語自動形態素解析のための辞書構築とその応用(研究代表者:須賀井義教)에 의한 연구 성과의 일분입니다.
분석 사전을 공개하였습니다. HanDic 프로젝트에서 분석 사전과 관련 스크립트를 다운 받을 수 있습니다. [2015/07/03]
이 페이지 및 여기에서 공개하는 성과물은 시험 운용 중입니다. 착오나 오류가 있을 때에는 연락 주시기 바랍니다.
MeCab를 이용한 도구
현재 공개하고 있는 MeCab 관련 한국어 학습 / 교육 콘텐츠입니다.
- MeCab를 이용한 한국어 학습 보조 도구: 입력된 현대한국어 문장을 분석하여 단어의 학습 수준을 표시하거나 한자 표기로 변환하는 등 한국어 학습에 도움이 되는 정보를 제공합니다. 단어마다 웹 사전으로의 링크를 생성할 수도 있습니다. 사용 설명서는 여기를 참조.
- 형태소 분석 / 한자 표기 변환: 현대한국어 문장을 분석하여 품사를 표시하거나 문장 중의 한자어를 한자 표기로 바꿔 줍니다.([2013/03/13] 앞으로 이 페이지는 갱신하지 않습니다. 위의 “한국어 읽기 보조 도구”를 이용하여 주시기 바랍니다.)
- MeCab를 이용한 히라가나의 한글 전사: 입력된 히라가나 표기를 한글로 전사합니다. 또한 한자가 섞인 일본어 문장도 MeCab로 분석한 다음에 한글로 전사할 수 있습니다.
분석용 사전에 대하여
여기서 작성, 이용하고 있는 분석용 사전은 다음과 같습니다.
- 버전: 개정판 0.25(20141128)
- 101,155개 항목 포함
- 학습 데이터: 1,500개 문장
원 자료
주로 다음과 같은 데이터를 이용하여 사전을 구축하였습니다.
- 국립국어원 「한국어 학습용 어휘 목록」(5,965개 단어 수록): 「어째서(=어찌하여서)」「얘(=이 아이)」 등 분류 불명 어휘, 「듯하다」 등 일부 보조 용언, 「수십」 등 일부 수사를 제외했음
- 국립국어원「현대 국어 사용 빈도 조사」: 일부 수록하였음
- 아래의 사이트를 참조하여 고유명사를 추가
- 한국인의 성씨: Wikipedia 대한민국의 인구순 성씨 목록 (한자 표기 있음)
서울 지하철 역 이름: 서울메트로 교통센터 (한자 표기 없음)- 철도역 이름:Wikipedia 대한민국의 철도역 목록 (한자 표기 있음)
- 나라, 수도 이름: Wikipedia 나라 이름순 수도 목록 (한자 표기 있음)
- 외래어 표기 용례 자료:국립국어원「외래어 표기 용례 자료」 중 「중국 인명과 지명」에서 인명 및 도시(일부: 도시, 성, 성도, 현, 자치구/자치주, 주도, 직할시)(한자 표기 있음)
- 산, 하천: Wikipedia 대한민국의 산,대한민국의 국가하천(한자 표기 있음)
- 기타
인터넷에서 퍼 온 데이터에 대해서는 착오가 발견되는 대로 즉시 수정합니다.
품사 체계와 소성 기술
품사 체계는 대체로 국립국어원의 성과물을 따랐지만 일부 바꾼 것도 있습니다.
용언 활용의 기술 방식
용언 활용을 기술하는 데에 “어기” 개념을 이용하였습니다.
학습용 데이터
21세기 세종계획에서 공개하고 있는 원시 말뭉치(제목 등을 제회한 앞부분 100개 문장) 중 다음 파일을 이용하여 학습용 말뭉치를 구축하였습니다. 품사 판정에서 같은 글의 형태분석 말뭉치를 참고로 하였습니다.
- 「함께 걷는 이 길은: 한샘 미네르바문고3」(BRHO0111.txt)
- 「알기 쉬운 인권 지침」(BRHO0112.txt)
- 「인간을 위하여 미래를 위하여」(BRHO0116.txt)
- 「이 하늘 이 바람 이 땅: 한샘 미네르바문고5」(BRHO0117.txt)
- 「컴퓨터 이야기」(BRHO0118.txt)
- 「현대 문학을 보는 시각」(BRHO0120.txt)
- 「우리 학문의 길」(BRHO0124.txt)
- 「인간과 사회-전통윤리와 현대풍조의 갈림길에서」(BRHO0131.txt)
- 「화술과 인간관계」(BRHO0376.txt)
- 「고객과 경쟁하라」(BRHO0390.txt)
- 「여성시대에는 남자도 화장을 한다」(BRHO0395.txt)
- 「한국 식품학 입문」(BRHO0396.txt)
- 「세상에서 가장 아름다운 집」(BRHO0398.txt)
- 「소설 창작 강의」(BRHO0402.txt)
- 「논술의 정석」(BRHO0414.txt)
위의 데이터를 가지고 학습용 말뭉치를 작성하여 parameter를 학습에 이용하였습니다. 사전 구축 후에 용언과 접미사 / 어미와의 연접 cost를 수정하였습니다. 구체적으로 사전 구축 후에 matrix.def에서 불가능한 연접의 cost를 “0”으로 설정하고 다시 mecab-dict-index를 실행하여 사전을 구축하였습니다.
학습용 데이터는 앞으로 분량을 늘릴 예정입니다.
[2014/11/01] 개정판 분석 사전에서는 “학습용 어휘”에 있는 모든 '하다'용언에 관해 '하다'를 따로 분리하여 등록하였습니다. 다만 '위하다', '정하다' 등 앞 부분이 1음절로 구성된 용언은 그대로 등록하였습니다.
분석 사전 구축에 대하여
구체적인 방법에 대해서는 MeCab를 이용한 히라가나의 한글 전사에 정리했습니다.
발표한 관련 업적
관리자에 대하여를 참조하시기 바랍니다.
참조한 웹 사이트
MeCab 홈페이지 외에 사전 구축, 서버에 모듈 설치하기, 등에서 참조한 웹 사이트입니다.