"데이터 절반 버린다"…AI 스타트업, 저작권·개인정보법에 발목

[아이뉴스24 윤소진 기자] 인공지능(AI) 경쟁력을 키우기 위해서는 그래픽처리장치(GPU) 확보 만큼이나 '데이터를 쓸 수 있는 권리'를 정비하는 것이 중요하다는 지적이 나왔다. 저작권법, 개인정보보호법, 부정경쟁방지법 등 관련 규제가 AI 학습 데이터 활용을 막는 이중 족쇄로 작용하고 있어 개선이 시급하다는 주장이다.

26일 국회에서 열린 'AI 대전환의 동력, 데이터 활용 입법 개선 과제 토론회'에서 참가자들이 종합토론하고 있다. 사진은 왼쪽부터 이기대 스타트업얼라이언스 센터장, 김민호 성균관대 법학전문대학원 교수(좌장), 방성현 김앤장법률사무소 변호사, 김현경 서울과학기술대학교 IT정책전문대학원 교수, 신재민 트릴리온랩스 대표, 정일권 두들린 정보보호최고책임자, 김형진 국회 입법조사처 입법조사관, 양청삼 개인정보보호위원회 개인정보정책국장. [사진=윤소진 기자]

26일 국회에서 열린 'AI 대전환의 동력, 데이터 활용 입법 개선 과제 토론회'에서는 스타트업 대표부터 학계, 정부 관계자까지 한목소리로 현행 규제의 문제점을 지적하고 개선 방안을 제시했다. 주요 쟁점은 △개인정보 필터링으로 인한 데이터 손실 △데이터 활용 동의 기반 구조의 한계 △텍스트·데이터 마이닝(TDM) 면책 부재 등이다.

대규모언어모델(LLM)을 개발하는 트릴리온랩스는 웹 공개 데이터를 수집하는 과정에서 규제로 인한 대규모 데이터 손실을 지적했다.

신재민 트리리온랩스 대표는 "현재 약 100테라바이트(TB), 책으로 따지면 10억 권 분량의 웹 공개 데이터를 확보했지만 개인식별정보(PII) 필터링 작업을 거치면 절반이 사라진다"며 "개인정보를 완전히 삭제하려고 하면 학습 데이터셋 자체가 성립이 안 되는 현실적 한계도 있다"고 토로했다.

채용 솔루션 기업 두들린은 동의 기반 구조의 비현실성을 강조했다. 정일권 두들린 정보보호최고책임자(CPO)는 "외국 서비스들은 링크드인 같은 공개 데이터를 다 쓰고 있지만, 우리는 동의를 받지 못해 아예 시작조차 할 수 없다"며 "수억 건에서 수십억 건, 때로는 100억 건까지 올라가는 데이터에서 100억 명의 동의를 받을 수는 없으니 좀 더 현실적인 방식이 필요하다"고 말했다.

"EU도 완화하는데 한국은 가장 보수적”

저작권법상 텍스트·데이터 마이닝(TDM) 면책 규정이 없다는 점도 문제로 지적됐다. TDM 면책은 디지털 텍스트나 데이터를 자동화 기술로 분석할 때 저작권자의 동의 없이 일정 범위의 이용을 허용하는 제도다. 현재 한국은 AI 학습을 위한 저작물 이용을 공정이용 조항에 기대고 있지만, ‘사전 허용 범위’가 명확히 규정돼 있지 않아 기업이 합법성을 예측하기 어렵다는 것이다.

개인정보보호법의 ‘정당한 이익’ 조항 역시 AI 시대에 맞지 않는다는 지적이 이어졌다. 현재 법은 개인정보 처리자의 이익이 정보주체의 권리보다 ‘명백하게 우월’해야 한다고 규정하고 있는데, 이 기준이 지나치게 엄격해 사실상 실무에서 작동하지 않는다는 것이다.

김현경 서울과학기술대학교 IT정책전문대학원 교수는 "우리가 벤치마킹하던 EU조차 민감정보 데이터셋을 어느 정도 쓸 수 있게 하고, 비식별 데이터는 정보 주체가 재식별 수단을 보유하지 않으면 아예 개인정보로 보지 않겠다는 파격적인 법안을 내놨다"고 말했다.

관계 부처는 기존 구조로는 AI 산업을 지원하기 어렵다는 점을 인정하면서도 법 개정 방식에 대해서는 신중한 입장을 보였다.

김형진 국회 입법조사처 입법조사관은 "정당한 이익 조항의 '명백한 우월성' 요건은 개정이 필요하지만, 법률 단계에서 지나치게 명확하게 규정하는 것은 신중해야 한다"며 "개인정보 처리 상황은 매우 다양해 포괄적 일반 조항 형태가 불가피하다"고 설명했다. 이어 "행정 단계에서 가이드라인을 통해 구체적 기준을 제시하는 방식이 사안별 이익형량을 도모하고 상황 변화에 탄력적으로 대응할 수 있다"고 부연했다.

양청삼 개인정보보호위원회 정책국장은 "국회 정무위에서 심사 중인 AI 특례법이 통과되면, 후속 입법 과제로 정당한 이익 조항 개정이 필요하다. 이후 공개된 정보는 학습 단계에서 큰 문제없이 활용할 수 있을 것"이라고 설명했다. 다만 "버티컬 AI처럼 좁은 영역에서 데이터를 쓸 때는 적절한 전처리가 수반돼야 한다. 대규모 데이터를 학습하면 위험성이 저감되지만, 특정 영역에서는 추론 단계에서 개인정보가 유출될 위험이 있다"고 말했다.

한편 이날 토론회는 스타트업얼라이언스와 국회 연구모임 유니콘팜 공동 주최로 열렸다.

이기대 스타트업얼라이언스 센터장은 "데이터 접근의 불확실성과 법적 리스크는 기술 개발 속도를 늦추고 새로운 서비스와 혁신의 출현을 제약하는 요소로 작용한다"며 "AI 대전환이 선언에 머물지 않기 위해서는 데이터 활용을 둘러싼 제도적 장벽을 실질적으로 해소하는 '실행 단계'로 나아가야 한다"고 제언했다.

/윤소진 기자(sojin@inews24.com)

"데이터 절반 버린다"…AI 스타트업, 저작권·개인정보법에 발목

개인정보 필터링·동의 구조 한계…'공개 데이터' 활용 근거 시급
정당한 이익 조항 '명백성' 기준 모호…법개정에 산·학·관 공감대

"EU도 완화하는데 한국은 가장 보수적”

주요뉴스

댓글 쓰기 ^제목 "데이터 절반 버린다"…AI 스타트업, 저작권·개인정보법에 발목

댓글-

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

개인정보 필터링·동의 구조 한계…'공개 데이터' 활용 근거 시급 정당한 이익 조항 '명백성' 기준 모호…법개정에 산·학·관 공감대

"EU도 완화하는데 한국은 가장 보수적”

주요뉴스새로고침

댓글 쓰기 제목 "데이터 절반 버린다"…AI 스타트업, 저작권·개인정보법에 발목

뉴스톡톡 인기 댓글을 확인해보세요. 정렬 인기순 최신순

개인정보 필터링·동의 구조 한계…'공개 데이터' 활용 근거 시급
정당한 이익 조항 '명백성' 기준 모호…법개정에 산·학·관 공감대

주요뉴스

댓글 쓰기 ^제목 "데이터 절반 버린다"…AI 스타트업, 저작권·개인정보법에 발목

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순