실시간 뉴스



다음, 음성 합성 엔진 '뉴톤 톡' API 공개


자체 개발 한국어 운율 모델 적용

[정은미기자] 다음커뮤니케이션이 자체 개발한 음성 합성 엔진 '뉴톤 톡(Newtone Talk)'의 API(애플리케이션 프로그래밍 인터페이스)를 공개한다고 26일 발표했다.

뉴톤 톡(Newtone Talk)의 API를 이용하면 텍스트로 입력된 글자를 사람처럼 읽어 주는 기능을 애플리케이션에 넣을 수 있다. 뉴톤 톡은 지난 2012년 말, 다음이 인수한 음성 인식 전문기업 '다이알로이드'의 기술을 바탕으로 제작됐다.

음성 합성이란 글자를 입력했을 때 이를 음성으로 변환해 들려주는 것으로 운율, 높낮이 등 사람의 발성을 그대로 재현해내는 것이 이 기술의 완성도를 가름한다.

이를 위해 다음은 한국어 운율 모델을 자체 개발했으며 대용량·자동화 처리 기술에 의해 빠르게 모델을 학습할 수 있도록 했다.

기존 음성 합성 기술은 대부분 사람이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는, 수작업에 의존하는 형태였다면 다음의 운율 모델은 이 모든 과정을 자동으로 처리한다. 이를 통해 다양한 운율을 예측할 수 있어 효율적이라고 회사측은 설명한다.

예를 들어 가수 '2NE1', 'B1A4'의 이름과 같이 사전에 등록되지 않은 신조어도 '투애니원', '비원에이포'로 정확히 읽고, 'ㅋㅋㅋ'은 '크크크'로, 'You&I'와 같이 특수문자가 포함된 경우에는 '유앤아이'로 읽는다.

뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있다. 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다.

뉴톤 톡은 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있고, 시각 장애인을 위한 생활형 앱 등을 개발할 때도 유용할 것으로 보인다.

뉴톤과 뉴톤 톡은 안드로이드와 iOS 버전 모두를 지원한다. 다음 개발자 네트워크(http://dna.daum.net)에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다.

다음 검색부문 이상호 부사장은 "음성 합성 기능의 추가로 입출력이 모두 가능한 음성 엔진이 완성됐다"며 "개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고, 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것으로 기대한다"고 말했다.

/정은미기자 indiun@inews24.com




주요뉴스



alert

댓글 쓰기 제목 다음, 음성 합성 엔진 '뉴톤 톡' API 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스