실시간 뉴스



[IT돋보기] 정부, AI 학습데이터 170종 민간 '공개'…"혐오·편향 검증했다"


데이터 60종 우선 개방…하반기 객체 검색 서비스 계획도

[아이뉴스24 최은정 기자] 과학기술정보통신부가 기업·기관이 인공지능(AI) 기반 서비스 개발, 고도화 등에 쓸 수 있는 AI 학습용 데이터를 대거 공개하면서 향후 민간 활용도가 높아질지 관심이 모아지고 있다.

일각에서 제기된 이루다 AI 사건과 같은 혐오표현과 편향성에 대한 검토도 마쳤다. 올 연말 '객체 식별화' 기능 추가도 예고했다.

과기정통부는 18일 음성·자연어, 헬스케어, 자율주행 등 8개 분야의 170종, 총 4억8천만건에 달하는 학습용 데이터를 'AI 허브' 플랫폼에 순차적으로 개방한다고 발표했다. 개인정보 보호 등 검증을 통과한 60종부터 이날 우선 공개했다.

지난해 예산 390억원으로 AI 학습용 데이터 20종을 마련한데에 이어 추가경정예산 2천925억원을 투입해 150종을 추가로 구축한 것. AI·데이터 업체와 대학, 병원 등 총 674개 기업·기관이 관련 구축 작업에 참여했다.

[사진=아이뉴스24]
[사진=아이뉴스24]

앞서 정부는 지난해 7월 '한국판 뉴딜' 정책을 발표하고 3대 프로젝트 중 하나로 디지털 뉴딜 분야를 선정, 이 일환으로 데이터 댐 사업을 추진했다. 해당 사업은 오는 2025년까지 1천300종의 AI 학습용 데이터를 신규 확충한다는 내용을 포함하고 있다.

이달말까지 공개될 데이터는 음성·자연어(39종), 헬스케어(32종), 자율주행(21종), 비전(15종), 국토환경(12종), 농축수산(14종), 안전(19종), 기타(18종) 등 분야로 구성돼 있다. 민간 수요에 따라 기존 5개 분야(2017~2019년)에서 8개 분야로 확대한 것이다.

과기정통부는 지난 2개월간 해당 데이터를 실제 서비스에 활용하는 등 사전 검증도 시행했다.

과기정통부 측은 "삼성전자, LG전자, 네이버, KT, SK텔레콤 등 대기업과 중소기업 등 22개 기업·기관으로부터 사전 리뷰를 받았다"며 "한국어 강의·방언, 고객 응대, 상담 음성 등을 포함한 106종 데이터를 기업의 실제 서비스 혹은 AI 모델에 직접 적용해 본 결과, 유용했다는 의견이 대다수였다"고 말했다.

양기성 과기정통부 데이터진흥과장은 "AI 학습 데이터 구축 시 스타트업이나 개별 연구자 등이 데이터 수집·가공·레이블링하는 데에 인력, 비용적 부담이 된다는 점을 고려했다"며 "이에 정부는 AI 학습용 데이터를 구축해 AI 허브에 홈페이지에 무료로 개방, 누구나 활용할 수 있도록 하고 있다"고 강조했다.

송경희 과기정통부 AI기반정책관은 "국내 AI 산업의 가장 큰 애로사항은 데이터 부족"이라며 "일반 중소기업, 스타트업들이 AI 학습용 데이터를 자체 구축하기는 쉽지 않기 때문에 이번 대규모 데이터가 도움이 될 것"으로 기대했다.

◆ AI 이루다 사건 재발 우려없나…과기정통부 "데이터 편향성 등 검증 거쳤다"

과기정통부는 한국정보통신기술협회(TTA) 등 기관과 산업별 80여명 전문가가 참여한 품질자문위원회를 통해 글로벌 수준의 데이터 품질검증 과정도 거쳤다. 자문위에서 데이터 검증 시 중점 다뤄야 할 부분을 의논하고 이를 TTA가 실질 검증하는 등 식으로 진행했다. 다양성, 구문 정확성, 의미 정확성, 유효성 등의 검증 항목을 토대로 했다.

이 과정에서 혐오표현, 데이터 편향성 등 문제 가능성이 있는 데이터를 검토했다는 설명이다.

고윤석 한국지능정보사회진흥원(NIA) 지능데이터본부장은 "학습 데이터에 편향성과 혐오표현이 포함될 여지가 있는 데이터 170종을 모두 검증했다"며 "일차적으로 4종 데이터를 추출했고 그중 문제 소지가 높은 1종에 대해선 전수 조사해 수정·보완까지 완료했다"고 설명했다. 전수 조사한 데이터는 자연어 분야에 속한 '감성대화 말뭉치'(28만5천건) 종류다.

고윤석 본부장은 "다만 데이터가 방대하기 때문에 조금이라도 문제가 있을 가능성은 있다"며 "3개월 개선 기간을 통해 이를 보완하겠다는 것"이라고 덧붙였다.

◆ 시나리오 기반 학습 데이터 '지적'…하반기 객체 검색 서비스 추가 계획도

과기정통부에 따르면 자율주행, 헬스케어 부문을 제외한 나머지 데이터는 시나리오 기반으로 제작·구축됐다. 일상생활에서 자연스럽게 나온 데이터가 아니라 특정인을 섭외해 목소리를 녹음하거나 촬영해 데이터를 만들었다.

현행 개인정보 보호법을 준수하기 위한 조치이나, 일부 업계에서 데이터 학습 정확도가 다소 떨어질 수 있다는 지적이다.

이에 대해 고 본부장은 "시나리오 기반 데이터라고 해서 무조건 정확성이 떨어지지는 않는다"며 "품질·활용성 등을 충분히 검증한 점, 데이터를 실제 서비스에 적용해 성능이 강화된 사례를 확인한 점에서 (정확도 관련) 문제는 없을 것으로 본다"고 했다.

아울러 데이터 활용 편리성을 높이기 위해 올 연말까지 '객체 식별화' 기능이 추가된다. 사용자는 객체(사람, 자동차, 건물 등)를 검색하는 것만으로 자신이 원하는 데이터를 확인하고 다운로드할 수 있게 된다.

고 본부장은 "학습 데이터를 객체로 검색할 수 있는 서비스를 제작중"이라며 "올 하반기에 서비스를 베타 버전으로 오픈하고 연말까지는 모든 데이터 대상 객체 검색이 가능하도록 준비하겠다"고 말했다.

/최은정 기자(ejc@inews24.com)






alert

댓글 쓰기 제목 [IT돋보기] 정부, AI 학습데이터 170종 민간 '공개'…"혐오·편향 검증했다"

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스