[종합] 'AI 이루다' 아동·성취향까지 수집…'자율점검표' 구축예고


개인정보위, AI 챗봇 이루다 관련 조사결과 발표 브리핑

송상훈 개인정보위 조사조정국장 [사진=개인정보위]

[아이뉴스24 최은정 기자] 개인정보보호위원회가 인공지능(AI) 챗봇 '이루다' 개발사 스캐터랩에 총 1억330만원에 이르는 과징금과 과태료 등을 부과했다.

개인정보위(위원장 윤종인)는 개인정보보호위원회는 28일 서울 광화문 서울청사에서 'AI 챗봇 이루다 관련 조사결과 발표 브리핑'을 진행하고 이 같은 내용을 공개했다.

스캐터랩의 개인정보 보호법 위반 사항에는 개인정보 수집 시 정보 주체가 명확하게 인지할 수 있도록 공지·동의를 받지 않은 행위, 법정대리인 동의 없이 만 14세 미만 아동의 개인정보를 수집한 행위 등 총 8가지다.

AI 챗봇 이루다 [사진=캡처]

개인정보위 조사 결과, 스캐터랩은 자사 애플리케이션 서비스인 '텍스트앳'과 '연애의 과학'에서 수집한 카카오톡 대화 내용을 이루다 개발·운영에 활용했다. 이를 기반으로 한 이루다 알고리즘 학습 과정에서 회사는 카카오톡 대화에 포함된 이름, 핸드폰 번호, 주소 등의 개인정보를 삭제·암호화하는 등의 정보보호 조치를 하지 않은 것으로 나타났다.

약 60만명 이용자의 카카오톡 대화 문장 94억여건을 무분별하게 이용한 것. 또 회사는 이루다 운영 과정에서 20대 여성의 카카오톡 대화 문장 약 1억건을 응답 데이터베이스(DB)로 구축했으며, 이루다가 이 중 한 문장을 선택해 답변하는 등 방식으로 모델을 설계했다. 코드공유·협업 사이트인 깃허브에 카카오톡 대화 내용이 포함된 AI 모델을 게시한 것 역시 개인정보 보호법 위반 사항으로 지적됐다.

이에 개인정보위는 시정명령과 함께 과징금 5천550만원과 과태료 4천780만원을 합한 총 1억330만원을 부과하라는 행정처분을 내렸다.

다음은 배상호 개인정보위 조사2과장과의 일문일답.

-스캐터랩에 부과된 과징금, 과태료는 어떤 기준으로 책정됐나. 최근 페이스북은 330만명 이상의 개인정보를 유출한 것으로 조사돼 67억원의 과징금이 부과됐다. 이번 이루다 사건으로 60만명의 개인정보가 침해 당했다고 보이나 부과 금액은 약 1억원 정도 수준인데

"페이스북과 스캐터랩은 법 위반 행위 관련 매출액 규모 차이가 많이 나기 때문에 부과되는 과징금 액수에도 차이가 난다. 이루다와 직접 연관된 매출액은 없지만 이루다가 스캐터랩 서비스인 텍스트앳과 연애의과학에서 수집된 카카오톡 대화 문장을 이루다 발화에 쓴 점, 세 가지 서비스가 모두 같은 서비스 관리 조직 등으로 운영된다는 점 등을 고려해 텍스트앳과 연애의과학 연 매출액 기반으로 과징금을 산정했다.

텍스트앳과 연애의 과학의 평균 매출액은 10억8천만원이다. 작년 기준으로 8억2천500만원 정도였다. 다만 스캐터랩 측이 최근 3년간 과징금 처분을 받은 적이 없다는 점, 개인정보위 조사에 적극 임했다는 점 등을 감안해 일부 과징금을 감경했다."

-스캐터랩은 학습DB와 응답DB 모두를 가명화했으며 응답DB의 경우, 철저한 가명화 처리를 거쳤다고 주장하고 있다. 발화 데이터 700만건 중 3~4건만 문제가 됐다고 주장하고 있는데

"스캐터랩이 이루다 학습DB 데이터에서 개인 식별 가능한 부분을 가명처리, 비식별화 한 것은 맞다. 그러나 카카오톡 대화 내용에 대해서는 전혀 가명처리를 하지 않은 것으로 조사됐다. 이루다 발화에 쓰이는 응답DB 중 실제 사용된 대화 내용은 700건 정도이나 발화 여부를 떠나 해당 DB 자체가 카카오톡 대화 내용을 변형 없이 그대로 가져다 쓴 것이었다. 이 대화 내용을 개인정보로 판단했다."

-만 14세 미만 아동의 개인정보를 법정대리인의 동의 없이 수집한 것으로 나타났다. 대상 인원은 몇 명 정도인지

"텍스트앳은 약 4만8천명, 연애의과학은 12만명 규모의 아동 정보를 수집한 것으로 조사됐다. 이루다의 경우 3만9천명 정도다. 당초 일부 언론 보도에서 대화 데이터가 '민감정보'로서 유출됐다고 했으나, 이런 사실은 발견하지 못했다. 다만 연애의과학 서비스 중에 심리분석 서비스 중에 상대방의 성적 취향('내 대화 상대방의 섹스 판타지는?') 관련된 게 하나 있다. 여기서 수집되는 부분이 민감정보였다고 파악했다."

-사용자가 이루다 서비스에 회원가입하는 과정에서 만 14세 미만 아동을 걸러내지 못했다는 의미인가

"스캐터랩 측은 이루다가 페이스북 메신저를 기반으로 한 서비스고, 페이스북은 14세 이상 사용자에 한해서만 회원으로 받고 있어 14세 미만 아동이 이용할 수 없다는 입장이다. 그러나 개인정보위가 조사한 결과, 페이스북 메신저를 통해서 이루다에 회원가입할 때 스캐터랩에서 가입자의 성별, 연령 등을 추가로 수집한 것으로 나왔다. 때문에 14세 미만의 아동의 정보도 수집했다고 본 것이다. 현재 이에 대해 시정조치하고 있는 중이다."

-연애의 과학을 통해 개인정보가 유출당했다고 주장하는 피해자들은 스캐터랩 측에 데이터 파기를 요구하고 있다. 이에 대한 개인정보위의 입장은

"개인정보 보호법을 위반해 정보 수집 목적을 달성한 경우, 회원탈퇴를 한 사람의 정보 등에 대해 당연히 정보를 파기해야 한다고 보고 있다. 법원에서 손해배상청구소송을 제기한 일부 사용자들의 증거 보전을 신청을 받아들였는데, 이와 관련 특정 정보가 법정 소송 과정에서 증거로서 활용돼야 한다는 점을 감안해 관련 처리를 잠시 유보하는 중이다. 다만 데이터를 원칙적으로는 파기하는 것이 맞다. 이러한 각종 상황을 고려해 스캐터랩과 파기 조치를 할 예정이다."

-경찰 등 기관에 추가 수사의뢰를 할 계획이 있나

"개인정보보호법 3조2항에 법규 위반에 대한 고발 기준이 있는데, 이번 스캐터랩 사례는 포함되지 않아서 수사의뢰를 하지 않는다."

-이번 결정이 AI 가이드라인 마련에 어떤 식으로 반영되나

"이번 AI에 대한 첫 위반에 대한 판단 사례에 따라 개인정보위는 보호법 취지에 따라서 보호만을 하는 게 아니고 활용도 같이 조화롭게 가는 부분을 갖다가 조명을 하고 그 방향으로 일을 진행하고 있다.

이에 따라서 이번 처분과 함께 조만간 AI 서비스에 대한 개인정보보호 자율점검표를 마련할 계획이다. 이는 AI 기업이 AI 모델 개발·운영 시 어떤 경우에 어떻게 개인정보를 보호하고, 어떻게 활용하는지 등 각 기준별로 구분해 지침을 확인할 수 있는 일종의 점검표다. 이와 더불어 AI 기술 기업에 대해서 현장 컨설팅 등 적극 지원할 계획이다."

-이번 스캐터랩과 같이 AI 기업이 가명처리를 철저히 했다면서 대규모 데이터 중 몇 건에 대해 개인정보를 걸러내지 못했다고 주장하는 상황이 있을텐데. 이에 대해 어떤 고민을 하고 있나

"모든 가명처리에 있어 개별, 사안별로 고려해 판단해야 한다. 획일적으로 '어떻게 해야 가명처리를 완료한 건지'를 말하기는 굉장히 어렵다. 이번 조사과정에서 느꼈던 부분이다.

이번 이루다 건으로 보면 응답DB를 서비스 개발에 활용하는 것은 '과학적 연구' 목적에 포함될 수 있지만, 이를 외부에 공개하는 것은 그렇지 않다고 심의를 통해 판단했다. 실제 발화를 사용하는 대화 서비스를 외부에 제공하는 경우에는 DB를 익명화하거나 이용자 동의를 꼭 받아야 한다."

/최은정 기자(ejc@inews24.com)







포토뉴스