[정구민의 톺아보기] 다양하게 진화하는 AI 음성인식 기술


CES 2019에서 구글과 아마존은 치열한 인공지능 음성인식 경쟁을 펼쳤다. CES 2019에서는 음성인식 엔진 확산 경쟁 이외에도 인공지능 음성인식 관련 기술의 다양한 진화를 만나 볼 수 있었다.

실시간 통역 기반 대화 기능, 키워드 없이 음성인식이 가능한 엔진, 시선인식과 음성인식을 융합한 사용 사례, 음성인식을 이용한 GUI 제어 기능, 운전자와 탑승자의 음성 명령을 구분하는 기능 등이 여러 업체에서 발표되었다. 다양하게 진화하는 관련 기술을 정리해 본다.

◆ 구글 어시스턴트 인터프리터 모드

LG의 키노트에서는 다른 나라 사람들이 실시간 통역 기능을 이용해서 대화하는 장면이 나온다. 바로 구글 어시스턴트의 인터프리터 모드를 이용한 실시간 통역 대화 장면이다.

구글 어시스턴트의 인터프리터 모드는 CES 2019에서 중요한 이슈가 되고 있다. 지난 CES 2018에서도 네이버는 실시간 통역 대화가 가능한 기기를 선보이기도 했었다. 이처럼 언어의 한계를 넘기 위한 인공지능 기술의 진화가 진행되고 있다. 물론 아직 기술의 완성도가 높지는 않겠지만, 서로 다른 언어로 실시간 대화가 이루어지는 상황이 펼쳐질 것으로 기대된다.

LG 키노트에서 선보인 구글 어시스턴트 인터프리터 모드. [출처=LG]
◆ 뉘앙스의 키워드 없는 음성인식 명령과 시선인식의 융합

현재 인공지능 스피커는 헤이 구글, 알렉사 등 대화의 시작을 위한 키워드를 말해 줄 필요가 있다. 뉘앙스는 자동차 환경에서 키워드 없이 음성인식 명령을 줄 수 있는 기능을 개발했다. 자동차 환경이라는 제한된 가정에서 미리 등록된 등록자의 음성을 키워드 없이 문맥상 명령만을 인식하여 동작할 수 있도록 구현했다.

또한 시선인식과 음성인식을 융합한 사례도 선보였다. 시선이 향하는 방향을 인식하여 관련된 명령을 수행한다. 예를 들어 차량에서 밖에 건물을 보며 “저 건물은 뭐야?” 라고 하면 해당건물의 이름과 관련정보를 말해준다.

뉘앙스는 애플 시리의 음성인식 엔진을 개발한 회사로도 유명하다. 뉘앙스는 현재 인공지능 음성인식엔진을 자동차회사들과도 협력하면서 다양한 기술을 개발 중에 있다.

뉘앙스의 시선인식을 사용한 음성인식으로 장소정보를 얻는 장면. [출처=뉘앙스]
◆ 알티캐스트의 음성인식 GUI 제어

현재 사용하는 인공지능 음성인식에서는 사용자가 말한 문장이 끝난 것을 확인하기 위해서 1-2초 정도의 지연시간이 필요하다. 인공지능 스피커와의 대화에서는 음성 명령이 끝나고, 스피커가 대답할 때까지의 지연 시간이 크게 느껴지지 않을 수 있다.

하지만, 원격 제어 로봇의 경우에는 사정이 다르다. 지연 시간에 따른 추가 동작은 안전성에 큰 영향을 미칠 수 있다. 또한, 음성 인식으로 TV를 제어하는 경우에도 사용자가 불편함을 느낄 수 있다.

우리나라의 알티캐스트는 제어 명령을 줄 경우에 이러한 문장 끝을 검출하기 위한 지연시간을 줄이는 기술을 개발하여 TV 메뉴 제어에 적용했다.

제어 명령은 일반적인 대화와는 다르기 때문에, 문장의 끝을 빠르게 검출하여, TV 메뉴를 이동시켜 주는 것이 핵심 기술이다. 알티캐스트의 관련 기술은 기존 음성인식 엔진을 이용하여 개발한 기술이다.

이 회사를 방문한 해외 음성인식 엔진 개발자들도 알티캐스트의 아이디어와 기술 개발 수준을 높이 평가했다고 한다. 알티캐스트는 현재 관련 기술을 특허 출원하여 국내외 시장에서 상용화를 진행해 나갈 계획이다.

알티캐스트의 음성인식을 적용한 TV. [사진=정구민]
◆ 벤츠의 운전자와 탑승자의 음성 명령을 구분하는 기능

CES 2019에서 벤츠의 전시는 실망스럽다는 평가가 많았다. 차량 1대를 새롭게 선보였을 뿐 기존 전시의 전시물을 그대로 들고 나온 수준이다. 하지만, 벤츠 관계자는 벤츠의 인공지능 음성인식 엔진이 큰 진화를 이루었다고 설명했다. 기존의 벤츠 음성인식 엔진이 사용자 구분 없이 명령어를 인식했다면, 이번에 전시된 음성인식 엔진은 운전자와 탑승자의 음성 명령을 구분한다.

운전에 집중하고 있는 운전자와는 달리, 탑승자는 전화 등 다른 행동이 가능하고, 이에 따라서 음성인식 엔진이 사용자가 의도하지 않은 음성 명령을 오인식하는 부작용이 있을 수 있다. 벤츠는 이에 따라서, 화자를 구분하여 운전자와 탑승자의 명령을 구분할 수 있도록 했다고 한다.

벤츠 음성인식 인터페이스 MBUX. [사진=정구민]
◆ 진화하는 음성인식 응용

알티캐스트, 뉘앙스, 벤츠의 공통점은 인공지능 스피커와 같은 일반적인 대화가 아니라 특정 상황을 가정한 음성인식 기술이 필요하다는 점이다. 세 회사 모두 음성 명령이라는 특정 상황을 가정하고 있다. 알티캐스트는 TV 메뉴 제어를 위한 명령에 응용하고 있으며, 뉘앙스와 벤츠는 자동차에서의 음성 명령에 응용하고 있다.

CES 2019에서는 실시간 통역 및 대화, 음성 명령을 통한 제어, 시선 인식 융합, 원격 제어, 차량 응용 등 다양하게 진화해 나가는 인공지능 음성인식 응용을 만나 볼 수 있었다. 앞으로 인공지능 음성인식 관련 기술의 발전은 사용자의 생활을 더욱 편리하게 해 주는 기반 기술이 될 것으로 예상된다.

/정구민 국민대 교수

◇ 정구민 교수는?
정구민 국민대 전자공학부 교수는 솔루션 전문기업 ㈜네오엠텔의 창업멤버였고, 이후 SK텔레콤에서도 근무하는 등 업계와 학계를 두루 거친 전문가다. 현재 국가기술표준원 자동차전기전자및통신전문위원회 위원장, 한국자동차산업협회 IT와 자동차융합연구회 위원장, ㈜유비벨록스 사외이사, 한국멀티미디어학회 부회장, 대한전기학회 정보 및 제어부문회 이사, 한국정보전자통신기술학회 이사를 맡고있다.

관련기사


포토뉴스









아이뉴스24 TV