반응형

장애 발생

  • 2011 3 15일 화요일, 미즈호 은행(Mizuho Bank)의 내부 컴퓨터 시스템 오작동으로 트랜잭션 처리가 원활하지 못하게 됨. 영업점 창구 직원들이 이체(cash transfers), 은행환(money orders), 예금(bank deposits) 등의 트랜잭션을 처리할 수 없게 되었고, ATM과 인터넷 뱅킹 시스템에도 장애가 발생함
  • 이 후 여러 날 동안 장애가 계속되면서 급여 지불 트랜잭션(salary payment transactions) 처리가 지연되고 외환 트랜잭션(foreign exchange transactions)도 중단됨
  • 3 18일 금요일 은행 측은 시스템 복구를 위해 38,000 대의 ATM 기계를 3일 동안 셧다운 하기로 결정(약 백만명의 ATM 사용자가 셧다운의 영향을 받은 것으로 추정)


장애 원인

  • 전 주에 발생한 일본 대지진 참사의 기부금 이체 요청이 폭증하면서 미즈호 은행의 시스템 프로세싱 능력을 넘어서게 되어서 문제가 발생함
  • 장애가 공개적으로 드러난 것은 3 15일이지만 실제 문제는 지진 기부 펀드(earthquake relief funds) 모금 첫 날인 3 14일 월요일에 시작됨. 월요일 주간에 시민들의 기부금 이체가 쏟아지면서 밤 사이 배치 런을 통해 처리되어야 하는 이체 트랜잭션(money transfer transactions) 양이 갑자기 늘어나 배치 프로세싱이 실패하게 됨
  • 야간 배치 런의 비정상적 종료(abnormal termination)로 화요일 아침 은행 개점 시간까지도 트랜잭션이 처리되지 못한 채 쌓이게 되었고, 화요일 야간에 배치 런이 다시 시도되었지만 마찬가지로 비정상적으로 종료됨. 결과적으로 수요일 아침 은행을 개점할 시점에는 약 백만 건의 이체 트랜잭션(돈으로 환산하면 약 1조엔)이 처리되지 못한 채 백로그로 쌓이게 됨
  • 이 배치 프로세싱 문제는 수요일 밤에도 계속되었고, 은행의 IT 담당자는 목요일 아침에서야 배치 런이 처리할 수 있는 데이터 상한(data ceiling)을 넘기 때문에 비정상적 종료가 발생하는 것을 깨닫게 됨
  • 은행 측은 신규 이체 트랜잭션 유입을 낮추지 않으면 지연된 트랜잭션 처리를 따라잡을 수 없다고 판단하여 38,000개의 ATM 전부를 주말 연휴 동안(3 18일 금요일~3 22일 화요일) 셧다운 시킴
  • 셧다운 기간 동안 배치 런을 여러 개의 작은 배치 런으로 나누어 실행 시켜서 정상적으로 완료하는데 성공함


전산 사고의 여파

  • 장애 발생일로부터 10일이 경과된 3 24일 목요일에서야 모든 백로그가 처리되고 시스템이 정상으로 복구됨(하지만 계정에 일부 거래 내역이 반영되지 않는 등의 소소한 문제가 25일 이후에도 계속 이어짐)
  • 이후 수행된 은행 자체 조사에 따르면 배치 런의 데이터 상한에 대하여 명세 하는 문서화가 부적절했던 것으로 나타남. 또한 야간 배치 프로세싱이 비정상적으로 종료했을 경우에 대비한 비상 계획(Contingency Plan)도 마련되어 있지 않았음(비상 계획 수립을 위한 리스크 분석에서 배치 런을 적시에 완료할 수 없는 상황과 그 영향 자체가 아예 고려되지 않았었음)
  • 3 11일 발생한 지진, 쓰나미, 원자력 발전소 사고로 인해 일본 사회가 크게 불안하던 시기에 은행 전산 장애가 혼란을 가중시키며 많은 비난을 받게 됨
  • 결국 미즈호 금융 그룹의 수장들이 교체되고 그룹 구조 개편이 일어나는 결과를 낳음



[2011년 3월 17일 미즈호 ATM에 고객 접근이 차단됨을 전하는 뉴스]

반응형

+ Recent posts