실시간 뉴스



외부 전문가가 본 카카오 서비스 장애… "이중화·위기 대응 미흡, 인력·자원 부족"


7일 연례 개발자 컨퍼런스 '이프카카오' 개최

[아이뉴스24 정유림 기자] 비상대책위원회(비대위) 원인조사 소위원장을 맡은 이확영 그렙 공동대표는 지난 10월 15일 판교 SK C&C 데이터센터 화재에 따른 카카오 서비스 장애 대란 원인 분석 결과를 7일 내놨다. 이중화와 위기 대응이 미흡했으며 장애 복구를 위한 인력과 자원이 충분하지 않았단 진단이다.

7일 온라인으로 열린 카카오 연례 개발자 컨퍼런스 '이프 카카오'에서 이확영 비상대책위원회(비대위) 원인조사 소위원장이 발표하고 있다. [사진=카카오]
7일 온라인으로 열린 카카오 연례 개발자 컨퍼런스 '이프 카카오'에서 이확영 비상대책위원회(비대위) 원인조사 소위원장이 발표하고 있다. [사진=카카오]

7일 온라인으로 열린 카카오 연례 개발자 컨퍼런스 '이프 카카오(if kakao)'에서 이 소위원장은 "이번 서비스 장애를 살펴본 결과, 데이터센터 간 이중화와 시스템 복구를 위한 운영 도구 및 모니터링 시스템에 대한 이중화가 미흡했다"며 "데이터센터 전체의 장애에 대응하기 위한 인력과 자원이 충분치 않았다"고 분석했다.

이 소위원장은 모든 서비스가 완전히 복구되기까지 예상보다 오랜 시간이 걸린 원인으로 이중화와 위기 대응이 미흡했던 점을 꼽았다.

그는 "데이터센터 한 곳 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구가 됐을 텐데 일부 시스템이 판교 데이터센터 내에만 이중화돼 있어서 장애 복구가 늦어졌다"고 설명했다.

이어 "서로 다른 데이터센터에 이중화가 된 경우에도 다른 데이터센터로 자동 전환해 주는 시스템이 작동해야 하는데 이 시스템마저도 화재가 발생한 판교 데이터센터에만 설치돼 있어 수동으로 전환 작업이 진행됨에 따라 복구가 지연됐다"고 덧붙였다.

또 "서비스 개발과 관리를 위한 운영 관리 도구가 필요한데 이 도구들의 이중화 역시 미흡했다"며 "상대적으로 이런 도구들의 안정성 확보에 소홀해 복구에 어려움을 겪은 것"이라고 분석했다.

이와 함께 "장애 복구를 위한 인력과 자원이 부족했다"며 "평소 이중화나 장애 대응 체계를 갖추고 있었더라도 이번 서비스 장애처럼 데이터센터 전체 상황을 가정하면 준비가 부족했다"고 설명했다.

아울러 "커뮤니케이션 채널에도 혼선이 있었다"며 "카카오에선 사내 커뮤니케이션 채널과 모니터링 채널로 카카오톡과 카카오워크를 사용하고 있었는데 해당 채널을 쓸 수 없을 때 중요 사항을 전파하거나 의사 결정을 위한 커뮤니케이션 채널이 있었어야 한다"고 지적했다.

더불어 "재해 초기 컨트롤타워가 부재해 공동체와 개별 조직이 동시 다발적으로 대응을 했다"며 "전체적인 조율과 협업을 지원하는 전사 조직이 사전에 셋팅돼 있지 않았고 서비스별로 개발자들이 최선을 다했지만 그것만으로 부족했다"고 짚었다.

마지막으로 "원인 분석 결과는 무거운 마음으로 비대위에 제출했다"며 "이번과 같은 대규모 서비스 장애 사례가 흔치 않은 만큼 공유되는 정보가 다른 서비스 재해 복구 대비에 도움이 됐으면 한다"고 덧붙였다.

/정유림 기자(2yclever@inews24.com)






alert

댓글 쓰기 제목 외부 전문가가 본 카카오 서비스 장애… "이중화·위기 대응 미흡, 인력·자원 부족"

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스