[디지털라이프 혁명 AI] ②언어장벽 사라진 인터넷 세상


국경 허문 인터넷 번역 서비스, AI 기술 통해 진화

[성상훈기자] '나는 밤마다 밤을 먹는다(我每夜都吃栗子)'

네이버 모바일 통역앱 파파고에서 한국어를 중국어로 번역한 결과다. 얼마전까지만 해도 '밤' 이라는 단어를 어두워진 상황을 의미하는 '夜(밤 야)'로 번역할 것인지 밤나무의 나무 열매를 뜻하는 '栗子(율자)'로 번역할지 구분이 쉽지 않았다.

최근에는 눈에 띄게 번역 정확도가 상승했다. 중국어에서 한국어로 번역할때도 마찬가지다. 예를 들어 '他不相信我们告诉他的事是真的' 라는 문장을 한국어로 번역하면 '그는 우리가 그에게 말한 것이 사실이라고 믿지 않는다'가 된다.

지난달까지만 해도 '그는 믿지 않는 일은 우리는 그에게 진짜다' 등의 정확하지 않은 문장으로 번역되곤 했다. 하지만 파파고에 네이버랩스의 '인공신경망 번역(NMT : Neural Machine Translation)'이 적용되면서부터 달라졌다.

파파고는 인공신경망 번역 기술을 통해 한국어에서 중국어로 번역할때는 통계적기계번역(SMT, Statistical Machine Translation)을 사용하던 이전대비 160%, 중국어에서 한국어로 번역할때는 233% 더 정확해졌다.

뉴럴 네트워크 기술이 급속도로 발전하면서 문서 번역부터 통역에 이르기까지 인터넷 번역 서비스도 눈부신 속도로 진화를 거듭하고 있다. 언어의 장벽을 빠르게 허물면서 국경없는 인터넷 세상을 만들어 가고 있는 것.

지난 8월 출시된 파파고는 10월부터 영어에 먼저 NMT 번역 기술이 적용되기 시작했다. SMT는 몇개의 단어가 모인 '구(Phrase)'단위의 학습 번역 방식이었다면 NMT는 문장 전체의 맥락에서 그 안의 구성 요소를 변환해 번역한다.

이를 통해 문장 전체를 보고 단어의 순서, 의미, 문맥 차이를 구별할 수 있게 됐다. 십여년간 번역 서비스의 고질적인 문제였던 '동음이의어' 오류에서도 탈출할 수 있게 됐다.

가령 '나는 아침 일찍 아침 준비를 했다'는 문장을 영어로 번역할때 SMT 기반 번역에서는 '아침'이라는 단어를 'in the morning'으로 번역할지, 'breakfast'로 번역해야 할 지 구분이 쉽지 않았다.

문장 전체를 살펴보고 문맥상의 의미를 해석할 수 있게 되면서 'in the morning'과 'breakfast'를 구분할 수 있게 됐다.

결국 SMT 번역에서는 'I prepared early in the morning the morning.'이라고 번역됐던 것이 이제는 'I prepared breakfast early in the morning.'으로 제대로 번역할 수 있게 된 것.

이는 아직 베타테스트 단계다. 파파고의 NMT 번역 서비스는 아직까지 '200자'가 한계지만 내년부터는 점진적으로 한계에서 벗어날 전망이다. 네이버는 현재 한영번역 페이지를 통해 NMT 번역 테스트 버전을 제공하고 있기도 하다.

네이버 관계자는 "중국인 관광객은 우리나라를 방문하는 전체 관광객 중 약 45%를 차지하고 있다"며 "파파고가 중국 관광객들에게 한국에서의 쇼핑, 외식, 교통 등에서 도움이 되기를 기대하고 있다"고 말했다.

'번역 서비스'의 정점은 구글이 차지하고 있지만 네이버랩스는 NMT 번역 서비스를 구글보다 한달 먼저 시작했다.

기술연구조직답게 물밑에서 다양한 인공지능 기술 적용 연구에도 박차를 가하고 있다. 이미지와 관련된 질문으로부터 중요한 영역 및 단어를 자동으로 추출하고 여러 과정을 거쳐 정답을 추론하는 알고리즘인 'DAN(Dual Attention Network)'을 자체 개발했다.

네이버랩스는 DAN 알고리즘을 통해 미국 라스베이거스에서 열린 세계 최대 규모 컴퓨터 비전 패턴인식 학회(CVPR 2016)에서 열린 'VQA(Visual Question Answering) 챌린지에서 캘리포니아 대학교(버클리)에 이어 2위를 수상하기도 했다.

◆구글 번역 '다언어NMT'로 진화

구글은 지난 9월 NMT 기술을 공개하고 11월부터 한국어를 포함한 8개 언어에 적용했다. 구글은 구글(Google)의 G를 앞에 붙여 'GNMT'라 부른다.

구글은 10년전 2개 언어로 시작해 현재 전세계 103개 언어를 번역하는 번역 서비스를 제공하고 있다. 이중에는 아프리카의 '줄루어'도 있다. 사실상 전 지구상의 모든 온라인 사용자를 커버하는 셈이다. 구글 번역 서비스는 전세계 5억명 이상이 사용하고 있으며 매일 1천억회 이상의 번역이 이뤄지고 있다.

특히 프랑스어에서 영어로 번역할때 가장 정확도가 높다. 다만 아쉽게도 한국어 번역 정확도는 이번 GNMT가 적용된 8개 언어 중 가장 낮다.

그러나 기계가 스스로 웹이 있는 번역 콘텐츠를 크롤링(수집)하고 검색하면서 인간의 도움 없이 스스로 콘텐츠를 통해 해당 언어의 관련성을 배우면서 학습한다는 점에서 의미는 남다르다.

실제로 기존에 '없던' 문장을 만들어 번역하기도 한다. 예를 들면 고3 수험생들이 수능을 마친 이후 '수능 망했어'를 'I lost my Life(내 인생은 이제 끝났어)'로 번역하거나 'She geun hye you(쉬 근혜 유)' 문장을 '그녀는 너를 화나게 한다' 등의 문장으로 번역하는 등 기존 번역 서비스에서 보여주지 않았던 면모를 보여주면서 연일 화제에 오르게도 했다.

뿐만 아니라 '레알(진짜)', '카톡', '고고씽' 등 한글로 만들어진 인터넷 신조어들도 스스로 번역하기 시작했다. 이 단어를 구글 번역 서비스에 넣으면 각각 'Real', 'Kakao Talk', 'Let's go' 등으로 번역해준다. 앞서 언급했듯 기계가 스스로 인터넷 상의 콘텐츠를 수집해 언어 관련성을 배우고 있기 때문이다.

구글은 GNMT에 이어 지난달 GMNMT(Google’s Multilingual Neural Machine Translation System)을 발표했다. 여기서 'Multilingual'은 '다언어'를 의미한다.

이 방식은 쉽게 풀이하면 '영어-일본어', '영어-한국어'를 번역할 수 있다면 '일본어-한국어'도 번역할 수 있는 원리다. 번역에 필요한 데이터가 충분하지 않아도 '제로샷 학습'과 '전이 학습'이라는 2가지 기계 학습 기법을 통해 이뤄졌다.

이는 결정적으로 영어, 일본어 등 두가지 외래어가 하나의 문장에 혼재돼있는 문장도 한가지 언어로 번역이 가능해졌다는 것을 뜻한다.

버락 투로프스키 구글 번역 프로덕트 매니지먼트 총괄은 "신경망 기계번역 기술 덕분에 구글 번역 오류가 55%에서 85%가량 현저히 감소하는 등 지난 10년간 쌓아온 발전 그 이상의 결과를 단번에 이룰 수 있었다"며 "구글 번역 서비스로 전 세계 사용자들이 언어의 장벽 없이 원활하게 소통하는 데 도움이 될 수 있기를 희망한다"고 전했다.

성상훈기자 hnsh@inews24.com







포토뉴스