'이루다' 개인정보유출 의혹 AI 규제로 이어질까…업계 '노심초사'


"악의적 의도로 질문해 개인정보 탈취 불가능"

[아이뉴스24 최은정 기자] AI 업계가 최근 개인정보 유출 의혹으로 논란을 일으킨 인공지능(AI) 챗봇 '이루다' 사태로 AI 관련 사업이 때 아닌 규제를 받지 않을까 노심초사하고 있다.

'이루다' 사건을 계기로 자칫 모든 AI 챗봇의 신뢰성과 보안성에 우려가 제기될 수도 있는 상황. 특히 일각에서는 사용자가 챗봇에게 교모하게 질문을 이어가면서 원 데이터를 복구할 수 있고 이를 악용해 개인정보를 알아낼 수 있다고 주장하면서 사태가 겉잡을 수 없이 커지고 있다.

하지만, AI 챗봇업계에서는 대다수의 챗봇이 스스로 생각하고 답변을 생성할 수 없기 대문에 현재로서는 이러한 방식의 공격은 불가능하다는 입장이다.

AI 챗봇 '이루다' [이미지=이루다 페이스북]

12일 AI 관련 업계에 따르면 AI 챗봇 '이루다' 개인정보 유출 의혹에 따라 곤혹을 겪고 있는 것으로 나타났다.

익명을 요구한 한 챗봇 기업 대표는 "대부분의 AI 챗봇은 기억 메모리가 없을 뿐더러 답변을 자체적으로 생성하지 못한다는 점에서 채팅창을 통해 개인정보를 알아낼 수 있는 가능성은 거의 없다"고 설명했다.

현재 대다수의 챗봇은 발화자의 질문에서 의도를 파악하는 데에만 AI 알고리즘이 쓰인다. 답변은 해당 의도에 맞는 문장을 데이터베이스(DB)에서 골라 채팅창에 띄운다.

즉, 발화자의 대화 내용을 보는 것이 아니라 그 의도만을 추려내는 것. 그 의도에 맞게 DB에 정렬된 답 중 하나를 선택하는 셈이다. 사람과 사람간 대화처럼 챗봇이 배경지식(개인정보 등)을 활용해 생각하고 답을 내 주는 것은 아니라는 것.

해당 기업 대표는 "챗봇이 미리 저장해 놓은 답변을 (DB에서) 골라서 그대로 출력하는 식"이라며, "챗봇에게 교묘하게 말을 시킨다고 해도 특정인의 집 비밀번호, 계좌번호 등이 그대로 유출되기 힘들다"고 강조했다.

또 다른 업계 관계자 역시 "만약 챗봇이 개인정보가 포함된 내용의 답변을 한다고 하더라도 이는 단편적인 정보에 불과하다"며 "해당 정보가 어떤 사람의 것인지 챗봇이 이를 정확하게 매칭시키지는 못한다"고 말했다.

물론, 가능성은 있다. 자아를 갖고 있는 AI인 '강인공지능' 혹은 AI신경망이 학습한 어휘·문장을 내뱉는 자연어생성(NLG) 형태의 챗봇의 경우에는 사용자가 악의적으로 기밀정보 등을 캐내기 위해 말을 거는 과정에서 어떤 답변을 할 지 예측하기 어렵다.

현재 구글의 '듀플렉스' 정도가 NLG 챗봇으로 꼽히나 아직 상용화 전이다. 이루다를 포함한 대부분의 챗봇 서비스는 전 단계라 할 수 있는 사용자 발화를 이해하는 자연어이해(NLU) 영역에만 딥러닝을 활용하는 방식이다.

◆ 'AI 챗봇' 자체 문제로 오인될까 '걱정'…관련 AI 학습용 데이터 확보도 숙제

AI 챗봇 업계는 이번 사건이 AI 챗봇 시스템 자체 내에서 발현된 것이 아닌 비식별 미처리 등의 외부적 요인에 따른 것으로, 자칫 확대 해석될까 우려하고 있다.

이 점에 대해서는 스캐터랩 측도 일부 시인한 바 있다. 스캐터랩 관계자는 "이루다 출시전에도 답변으로 저장된 문장에 대해 비식별화 조치를 취했으나 이 같은 조치에도 대화 내용 중에 은행 이름이나 인물 이름이 등장한다는 지적이 있었다"고 말했다.

이어 "1억 건의 개별 문장을 사람이 일일이 검수하기는 어렵기 때문에 알고리즘을 통한 기계적인 필터링을 거쳤다"며 "이 과정에서 되도록 많은 변수를 주려고 노력했으나, 문맥에 따라 인물의 이름이 남아 있다거나 하는 부분들이 발생했다"고 설명했다.

일각에선 AI 챗봇에 쓰일 수 있는 안전한 학습 DB를 국가 차원에서 마련해줘야 한다는 주장도 나왔다.

업계 관계자는 "AI 챗봇의 성능은 학습 데이터가 좌우하는데 국내는 연구개발(R&D)을 위한 이러한 데이터가 부족한 상황"이라며 "AI 기술이 모든 사업분야에서 활성화되려면 연구를 목적으로 하는 학습 데이터가 대규모로 공개돼야 한다"고 강조했다.

한편, 스캐터랩 측은 이날 내놓은 추가 입장문에서 "이루다는 DB에 수록돼 있는 문장에서 적절한 답변을 선택해 응답하고 있다"며 "해당 DB에는 1억개의 문장이 개별적이고 독립적인 형태로 저장돼 있고, 이루다는 AI 알고리즘에 따라 가장 적절하다고 판단하는 문장을 선택해 답변하기 때문에 루다의 답변 내용을 조합해 개인을 특정할 수는 없다"고 했다.

원데이터를 AI 엔진의 학습 데이터로 가공하는 과정에서 이름, 연락처 등 개인을 특정할 수 있는 정보는 비식별화 등 제대로된 처리만 거치면 개인정보 노출·유출 위험도 낮아진다는 것이다.

최은정 기자 ejc@inews24.com






포토뉴스