기본 제공 모델

이 문서에서는 PyKOMORAN에서 사용 가능한 2가지의 기본 모델에 대해서 설명합니다. 아직 PyKOMORAN을 설치하지 않으셨다면, 먼저 설치하기 문서를 참고해주세요.

Note

문서의 내용 중 지원되지 않거나 잘못된 내용을 발견하실 경우, PyKOMORAN 프로젝트에 이슈 를 남겨주세요.


개요

KOMORAN 은 형태소 분석과 관련한 규칙을 (데이터로부터) 스스로 학습하고 이를 이용하여 형태소 분석을 합니다. 물론 매번 규칙을 학습할 수 없기에 미리 학습한 규칙을 저장해두는데, 이것을 모델(MODEL) 이라고 부릅니다.

KOMORAN에서는 사용자가 바로 사용할 수 있도록 STABLEEXP 의 2가지 모델을 제공하고 있으며, 사용자가 갖고 있는 데이터로부터 직접 모델을 생성할 수 있는 방법 또한 제공하고 있습니다.

Note

KOMORAN 3.4.0 이후부터 DEFAULT_MODEL 로 제공되던 LIGHT, FULL 모델의 이름이 각각 STABLEEXP 로 변경되었습니다.

Todo

모델 생성 방법을 문서로 정리하고 링크합니다.

STABLE 모델

  • STABLE 모델은 세종 말뭉치의 일부에 SHINEWARE에서 추가한 데이터를 이용하여 학습한 모델입니다.
  • 일상적으로 사용하는 문장들을 학습한 모델로 다양한 분야에서 사용할 수 있습니다.
  • 형태소 분석의 결과가 직접적으로 노출되는 경우가 아니라면 STABLE 모델의 사용을 권합니다.

Note

STABLE 모델은 SHINEWARE에서 지속적으로 관리하고 있습니다

EXP 모델

  • EXP 모델은 STABLE 모델 학습에 사용한 데이터에 추가로 Wikipedia 의 문서 제목들을 학습한 모델입니다.
  • 뉴스 분류, SNS 데이터 분석 등과 같이 신조어 및 고유명사 등이 중요한 자질로 사용되는 필요한 분야에서 사용할 수 있습니다.

Note

Wikipedia 문서 제목에서 추출된 명사들은 검증되지 않았으므로, 이 모델을 바로 사용하기보다는 성능 검증 등의 절차를 거치는 것을 권합니다.