[아이뉴스24 박준표 기자] “주인공이 요리하는 장면을 찾아줘.”
이처럼 문장만 입력하면 영상 속 원하는 장면을 더 정확하게 찾아내는 인공지능 기술을 단국대 연구팀이 개발했다. 영상 데이터를 새로 학습시키지 않고도 기존 인공지능 모델의 판단 결과를 정교하게 다듬는 방식이어서 대규모 영상 검색과 콘텐츠 탐색 기술의 활용 폭을 넓힐 수 있다는 평가가 나온다.
단국대는 김선오 AI융합대학 컴퓨터공학과 교수 공동연구팀이 영상 속 특정 객체·행동·장면이 나타나는 구간을 찾아내는 ‘영상 위치 특정’ 기술을 고도화했다고 16일 밝혔다. 이번 연구는 윤기민 한국전자통신연구원 연구원, 엄대호 서울시립대 교수와 함께 수행했다.

영상 위치 특정은 사용자가 입력한 문장과 맞는 장면이 영상의 어느 구간에 나오는지를 찾아내는 기술이다. 예를 들어 “주인공이 요리하는 장면을 찾아줘”라고 입력하면 해당 장면이 시작되고 끝나는 시점을 자동으로 추정하는 식이다. 디지털 콘텐츠 생산과 소비가 빠르게 늘면서 영상 데이터가 급증한 만큼 관련 기술의 중요성도 커지고 있다.
기존 ‘약지도 기반 영상 위치 특정’ 기술은 사람이 장면의 시작과 끝을 일일이 표시하지 않아도 학습할 수 있다는 장점이 있다. 다만 특정 장면이 등장할 가능성이 높은 구간을 확률적으로 추정한 뒤 비교적 단순한 기준으로 경계를 정해 실제 장면의 시작점과 끝점을 정밀하게 잡아내는 데는 한계가 있었다.
연구팀은 이 문제를 풀기 위해 제안된 구간이 실제 장면을 얼마나 충실히 포함하는지 또 불필요하게 길게 잡히지는 않았는지를 함께 따지는 최적화 방식을 제시했다. 이를 바탕으로 기존 모델이 내놓은 추론 결과를 수학적으로 보정해 장면 경계를 더 정확히 찾아내는 방법을 구현했다.
이번 기술의 특징은 새로운 인공지능 모델을 다시 학습시키지 않아도 기존 모델에 바로 적용할 수 있다는 점이다. 별도의 대규모 학습 과정 없이도 탐색 정확도를 높일 수 있어 영상 검색·장면 기반 콘텐츠 탐색·영상 분석 분야에서 두루 활용될 가능성이 크다.
김선오 교수는 “이번 연구는 영상 장면 탐색 모델을 처음부터 다시 학습시키는 대신, 이미 학습된 모델의 추론 결과를 더 정교하게 해석하는 방법을 제시했다는 데 의미가 있다”며 “앞으로 대규모 영상 검색과 장면 기반 콘텐츠 탐색, 영상 분석 기술의 실용성을 높이는 데 도움이 될 것”이라고 말했다.
이번 연구 성과는 소프트웨어 공학 분야 국제학술지 'IEEE Transactions on Multimedia(JCR 상위 3%, Q1)'에 지난해 11월 게재됐다.
/천안=박준표 기자(asjunpyo@inews24.com)
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기