반응형

스코틀랜드 보건위원회(Health Board) 시스템 장애

  • 2013 10 1일 화요일, 영국 스코틀랜드 중서부 지역을 담당하는 보건위원회인 National Health Service’s Greater Glasgow and Clyde(NHSGGC)의 컴퓨터 서버에 장애가 발생함(서버가 다운되고 백업 시스템도 실패)
  • NHSGGC 직원 및 해당 지역 10여개 병원의 의사와 간호사가 환자 기록을 포함한 바이탈 임상 정보(clinical information)에 접근이 불가능하게 되었고, 결과적으로 709명 환자의 진료가 취소됨(599건의 외래 환자 예약, 48건의 암 화학 치료 세션, 14건의 입원 환자 수술, 43 건의 무입원 진료가 연기된 것으로 집계됨)
  • 이 장애는 하루 뒤인 수요일 점심 무렵 기본 수준의 IT 서비스가 복구되었고, 10 3일 목요일 새벽 3시경에 완전 해결됨


장애 원인

  • 계정 관리 플랫폼(identity management platform) Microsoft Active Directory의 훼손이 서버를 다운시킨 것으로 파악됨. NHSGGCIT 시스템인 임상/관리 시스템(clinical and administrative systems)에 사용자가 로그인을 하면 Active Directory가 사용자를 식별하고 시스템의 여러 서비스에 개별 액세스를 허가해 줌
  • NHSGGC IT 팀이 소프트웨어 공급업자인 MicrosoftCharteris(마이크로소프트 파트너인 에딘버러 기반 IT 컨설팅 업체)의 기술자와 협업하여 복구 작업을 함. 처음에는 이 문제를 Microsoft Professional Support에서 맡았다가 이 후 Microsoft Premier Support에게 올라감
  • 사고 후 NHSGGC와 스코틀랜드 정부 의뢰로 독립적인 조사가 수행되었고 2013 12월에 사후 조사 보고서가 나왔지만 어떻게 Active Directory 소프트웨어 프로그램이 망가지게 되었는지 정확한 근본 원인을 확정하는 데는 실패함
  • 사고 발생시 NHSGGC의 최우선이 서비스 복원에 있었기 때문에 증거가 되는 데이터가 덮어쓰기(overwritten) 되었고, Microsoft Premier Support가 기술적 스냅샷 만으로는 원인을 결정하지 못함에 따라 시스템 다운의 근본 원인이 끝까지 드러나지 않을 가능성이 크다는 의견


[2013년 10월 2일 STV News 보도]


반응형

+ Recent posts