[팩트체크] "현재 AI기술 불완전해 가짜뉴스 걸러낼 수 없다"


AI알고리즘, 기술적 오류·데이터 편향성 문제 가능성 있어

[아이뉴스24 박진영 기자] 가짜뉴스에 대한 정의는 아직까지 사회적 합의를 이루지 못했다. 해당 범위 역시 넓다. 그러다보니 신뢰할 수 있는 충분한 학습용 데이터를 확보하기가 어렵다. AI윤리나 기술적 오류 가능성도 여전히 배제할 수 없는 변수다. 즉, 오롯이 기술만으로는 가짜뉴스를 걸러낼 수 없다는 의견이 지배적이다.

정재관 카카오 정책팀 부장은 한국과학기술단체총연합회가 지난해 온라인으로 개최한 '2020 대한민국과학기술연차대회'에 참여해 현재 AI 기술로 가짜뉴스를 완전히 걸러내지는 못한다고 주장한 바 있다.

"가짜뉴스를 구분하는 조작적 정의가 불명확하고, 기술이 불완전하기 때문에 실현이 어렵다"는게 해당 발언이다. 또한

"AI가 인간의 가치를 학습하기 위해선 편향된 교과서를 배워선 가치를 탐색할 수 없다"며 "알고리즘에 정확한 인풋(Input)을 넣어줘야 한다. 그 학습자료가 무엇인지에 대한 근원적 고민이 필요하다"고 말했다.

그렇다면 1년이 지난 현재 인공지능(AI)기술만으로 온라인상 넘쳐나는 가짜뉴스를 전부 걸러낼 수 있을까.

현재 인공지능(AI)기술로 온라인상 넘쳐나는 가짜뉴스를 모두 걸러낼 수 있을까 [사진=아이뉴스24]

◆ 정의되지 않은 가짜뉴스에 정확한 인풋 데이터 부족 '여전'

AI가 인간의 가치를 제대로 학습해 가짜뉴스를 걸러내기 위해서는 기반이 되는 명확한 인풋 데이터를 넣어줘야 한다.

이는 전제부터 성립이 어렵다. 가짜뉴스에 대한 사회적 정의가 충분치 않기에 정확한 인풋 데이터를 찾는 것도 쉽지 않기 때문이다. 즉, AI 개발에 활용되는 학습자료조차 불명확할 수 있다는 설명이다.

세간에선 가짜뉴스를 '전체 또는 일정 부분이 사실이 아닌 정보에 근거해 만들어진 기사나 뉴스 형태'라고 정의내리는 경우가 있으나 그 개념이 포괄적이고 광범위하게 확장될 수 있고, 사회적으로도 합의점을 찾은 것이 아니다.

이완수 동서대 미디어커뮤니케이션학부 교수는 '가짜뉴스란 무엇인가?'를 주제로 한 논문을 통해 가짜뉴스 정의의 포괄성과 판별의 까다로움을 지적했다.

그는 "가짜뉴스에 대한 정의와 개념은 매우 다차원적이고, 포괄적이다"면서, "가짜뉴스는 법률·저널리즘적·기술적·정치사회적 관점에서 그 의미와 타당성을 통합적으로 논의할 필요가 있다"고 밝혔다.

또 "무엇이 진짜인지, 가짜인지 구분하는 기준을 정하기 어렵기 때문에 허위·거짓정보를 의도적으로 교묘하게 숨겼는지를 따져서 판단해야 하는 문제가 있다"고 밝혔다.

가짜뉴스에 대한 모호한 정의는 올 초 '가짜뉴스 처벌법'으로 인해 논란이 된 바 있다. 가짜뉴스에 대한 사회적·법적 합의가 명확해진 후에 규제가 뒤따라야 한다는 주장이 나왔다.

지난 2월 윤영찬 의원(더불어민주당)이 대표 발의한 정보통신망법 개정안에 따르면, 정보통신망 이용자가 명예훼손, 불법 등 정보를 생산 및 유통해 타인에게 손해를 입힐 경우 징벌적 손해배상을 최대 3배까지 처할 수 있는 법적 근거를 신설했다.

이에 대해, 허은아 의원(국민의힘)은 "가짜뉴스 개념이 법으로 정해지지도 않은 상황에서 강도 높은 처벌을 시사하는 것은 표현의 자유를 저해할 수 있고, 표현의 자유를 국민의 기본권으로 인정한 헌법정신에도 위배된다"면서 가짜뉴스 개념이 모호하다고 지적했다.

즉, 국회에서도 이같은 가짜뉴스에 대한 공방이 계속되고 있는 것. 이 교수 역시 "가짜뉴스에 대한 기준과 범위가 모호한 상태에서 규제 문제를 논의하는 것은 앞뒤가 맞지 않다"고 지적한 바 있다.

◆ AI알고리즘, 기술적 오류·데이터 편향성 문제 가능성 있어

AI알고리즘 자체가 편향된 학습데이터나 기술적 오류로 인해 문제가 생길 수 있다. AI가 걸러 낸 가짜뉴스를 온전히 신뢰할 수는 없다는 주장에 대한 근거다.

'AI알고리즘'은 윤리적 가이드라인에 맞춰 흠결 없이 완벽하게 개발하더라도 개발 과정이나 기술적 오류로 인해 실패할 수도 있다. AI 알고리즘은 명확하고 투명하게 작동할 수는 있지만 그 안에 들어가는 데이터가 명확치 않으면 결과 역시도 장담할 수 없다는 것.

즉, 윤리적 가이드라인에 따라 완벽한 알고리즘이 개발되더라도 학습데이터에 의해 비윤리적으로 진화할 수 있다는 한계가 있다.

지난 2017년 발표된 보고서 '페이크 뉴스 탐지 기술 동향과 시사점'에 따르면, '인공지능 기반 가짜뉴스 탐지'는 언어와 구문을 분석해 과거 문제가 된 가짜 뉴스에 자주 등장한 단어와 표현을 기계에 학습시켜 가짜 뉴스일 확률을 추정하는 기법이라고 정의내리고 있다.

AI 기반 가짜뉴스 탐지 기술의 한계점으로 ▲충분한 학습의 필요성 ▲인공지능 성능 지표에 대한 사전 정보의 부재 ▲판단의 정확도 문제 ▲정밀하게 조작된 가짜 뉴스 진단의 난해성 문제 등이 있다.

보고서는 "충분한 학습 데이터만 존재한다면 인공지능 기반 가짜뉴스 탐지 기법이 우원할 성능과 신속한 탐지 능력을 보여줄 수 있으나, 학습데이터의 부재와 치밀하게 조작된 가짜 뉴스 탐지의 어려움이 있다"고 지적했다.

다만, "인공지능 기반 기법은 신속한 진단 능력으로 가짜뉴스 탐지 방법의 주류로 자리 잡을 것"이라면서, "인공지능의 오류 확인 및 전문가의 최종 검토를 위해 인공지능에 전적으로 의존하는 것이 아니라 전문가와 역할을 분담하고 협업하는 하이브리드 검증방식이 점차 확산될 것"이라고 밝혔다.

AI윤리 가이드라인 정립의 문제도 있다. 국내에서는 AI윤리 정립의 필요성이 지난 이루다 사태를 계기로 활발하게 논의되고 있지만 아직 초기 단계다. AI윤리 문제는 해외에서도 이제 막 논의되기 시작했다. 정부는 지난달 13일 '신뢰할 수 있는 AI 실현전략'을 발표했고, 이제부터 구체적인 가이드라인을 세워 AI윤리를 확산시키겠다는 밝혔다. 개인정보보호위원회도 지난달 31일 AI 자율점검표를 공개, 확산하기 시작했다.

이성엽 고려대 기술경영전문대학원 교수는 "가짜뉴스에 대한 사회적 합의가 쉽지 않을 뿐더러 AI알고리즘이 가짜를 모두 걸러내기도 현실적으로 어렵다"고 말했다.

이어 "AI알고리즘 설계에는 인간의 주관이 개입할 수밖에 없어 공정성·객관성과 조화되기 쉽지 않다"면서, "그나마 용이하게 실행가능한 것은 기업이 이용자 또는 파트너들에게 알고리즘의 작동원리에 대해 충분히 설명하도록 하는 것"이라고 밝혔다.

/박진영 기자(sunlight@inews24.com)







포토뉴스