NIA, 빅데이터 분석 위한 형태소 사전 공개


신조어, 전문용어 포함 93만 단어 수록

[아이뉴스24 김국배기자] 한국정보화진흥원(NIA)은 빅데이터 관련 서비스 개발을 지원하기 위해 형태소 사전을 제작해 공개한다고 21일 발표했다.

형태소는 일정한 뜻(의미)을 지닌 가장 작은 말의 단위로 한글 텍스트 분석을 통해 다양한 의미를 추출하기 위해선 형태소별 품사를 구분해 작성한 형태소 사전이 필수다.

93만 단어가 수록된 NIA의 형태소 사전 'NIADic'은 국립국어원의 우리말 샘 사전을 바탕으로 제작됐으며 기존에 써온 '세종Dic(9만 단어)'에 신조어와 법률, 의료 등 6대 분야별 전문 단어를 추가해 빈도수, 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.

NIA 측은 "향후 NIADic은 공개 소프트웨어 커뮤니티에 오픈소스로 개방돼 통계분석 도구와 분석기 사용자들이 자율적으로 업데이트해 활용할 수 있다"며 "저작자와 출처 등을 표시하면 영리 목적의 이용이나 변경, 2차 저작물 작성을 포함해 상업적 활용이 가능하기 때문에 한글 빅데이터 분석 분야 연구가 보다 활발해질 것"이라고 기대했다.

김국배기자 vermeer@inews24.com







포토뉴스