실시간 뉴스



과거 신문기사 DB 전쟁 시작됐다


온라인 신문 아카이브 검색 서비스 다각도 진행

과거 신문기사에 대한 DB(데이터베이스)전쟁이 시작됐다.

구글은 9일 과거 신문기사를 검색할 수 있는 온라인 신문 아카이브 검색 서비스를 공개했다. 1768년 기사부터 약 240년 전의 신문기사를 디지털화해 검색이 가능하도록 하겠다는 전략이다.

국내에서도 과거 기사의 디지털화 작업에 속도가 붙고 있다.

일일역사를 기록하는 신문 기사만큼 당대의 정확한 모습을 보여주는 것은 없다. 특정 시대의 삶과 문화를 알기 위해서는 당시 신문을 펼쳐보는 것이 가장 빠른 방법이다. 이같은 매력으로 과거 기사에 대한 디지털화 작업이 진행되고 있다.

국내의 과거 기사 DB화 작업은 그러나 아직 초기단계이다. 현재 국내 포털을 이용할 때 검색할 수 있는 기사는 1997년부터 현재까지에 불과하다. 그 이전의 기사는 포털을 통해서 검색이 불가능하다.

반면 한국언론재단은 과거 기사에 대해 인터넷을 통해 서비스하고 있다. 한국언론재단이 운영하는 카인즈(www.kinds.or.kr)는 기사 검색을 세단계로 구분해 놓고 있다. 1990년부터 현재까지는 웹문서로 검색이 가능하다.

1960년부터 1989년까지는 PDF로만 검색할 수 있다.

1960년대부터 1989년까지 경향신문, 동아일보, 서울신문, 한국일보의 날짜별 신문 지면(PDF 파일)을 볼 수 있지만 본문 및 키워드 검색은 불가능하다. 즉 면별로(1면, 2면 등)로만 볼 수 있다. 따라서 자신에게 필요한 특정기사만 검색해 볼 수는 없다.

고신문에 대한 검색도 카인즈에서는 제공하고 있다. 독립신문의 경우 1896년 4월7일부터 1899년 12월4일까지 발행된 한글판과 영문판의 전체 지면과, 대한매일신보는 1904년 7월 18일부터 1905년 3월9일까지와 1907년 5월 23일에서 1910년 8월 28일까지 약 4천쪽에 달하는 분량이 PDF로 볼 수 있다.

한국언론재단측은 "과거 기사에 대한 키워드 검색 등은 예산상의 문제 등으로 염두에 두고 있지 않으며 과거 기사의 경우 PDF 파일로 돼 있지 않은 기사를 확대하는 방향으로 방침을 정하고 있다"고 말했다.

최근 서비스를 시작한 뉴스뱅크(pod.newsbank.co.kr)의 경우는 2006년부터 현재까지 기사에 대해 웹 검색이 가능하다. DB화 작업을 진행중에 있다. 2006년 이전의 기사는 아직 서비스 되지 않는다.

뉴스뱅크측는 앞으로 과거 기사에 대해 두 가지 접근방법으로 디지털화할 계획이다.

PDF로 언론사가 보관하고 있는 과거 기사의 경우 이를 면단위에서 해당 특정기사로 다시 추출해 검색이 가능하도록 할 계획이다. 즉 1면 기사의 PDF파일에 5개의 기사가 있다면 이 기사를 다시 추출해 검색이 가능하도록 한다는 것이다. 키워드 검색이 가능하도록 시스템을 만들겠다는 전략이다.

PDF로 돼 있지 않고 종이나 필름 형태로 보관돼 있는 과거 기사의 경우 우선 이미지화(스캐닝) 작업을 해야 한다. 뉴스뱅크측은 "과거 기사를 이미지화 하고 다시 텍스트를 추출해 검색이 가능하도록 할 방침"이라고 말했다.

네이버는 과거 기사 DB화 작업과 관련해 경향, 동아, 매경, 한겨레신문과 계약을 체결하고 디지털화 작업을 진행하고 있다. 디지털화 작업은 PDF화 뿐만 아니라 텍스트 문자열, 이미지 등도 함께 추출된다.

네이버측은 "내년 상반기에 서비스가 시작될 것으로 예상되지만 상황에 따라 시기는 조금 변동될 수 있다"고 말했다.

정종오기자 ikokid@inews24.com







alert

댓글 쓰기 제목 과거 신문기사 DB 전쟁 시작됐다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스