반응형

항공교통관제센타의 라디오 통신 시스템 고장

  • 2004 9 14일 화요일 4:40p.m. PDT에 로스앤젤레스 북부의 Palmdale에 있는 미연방항공국(Federal Aviation Administration Agency: FAA)의 항공교통통제센터에서 라디오 통신 시스템이 셧다운 되어 3시간 반 동안 중단됨(메인 시스템 다운 후 백업 시스템을 켰지만 마찬가지로 1분만에 다운됨)
  • 시스템 중단 동안 해당 센터의 항공관제사들이 레이더상의 항공기를 모니터 할 수는 있었지만 조종사들과 음성 통신이 불가능해짐. 항공사에 전화를 걸어 사고를 알리고 항공사 측이 다시 조종사들에게 연락하여 다른 항공 교통 통제 시설로 라디오 주파수를 변경하도록 조치함
  • 사고는 없었지만 고장 발생 시점에 관제 구역 내에 약 800대의 비행기가 공중에 있었고 갑자기 음성 커뮤니케이션이 끊어져 비행기 방향을 잡아주지 못하게 됨에 따라 서로 너무 가깝게 비행하는 위험 순간이 최소 5건 정도 있었던 것으로 알려짐
  • 문제가 생긴 항공교통통제센터는 남부 캘리포니아와 미국 남서부 대부분의 고고도 항공 교통을 통제하는 시설이라 이 고장으로 인해 큰 혼란이 생김(이륙이 예정된 비행기들이 모두 지상에 발이 묶이게 되었으며, 남부 캘리포니아를 향하던 항공기들이 방향을 바꾸어야만 했고, 착륙을 못해 계속 순회하는 비행기 안에서 승객들이 한 시간 넘게 기다리는 등 많은 불편을 겪음)
  • 8:15p.m.에 라디오 시스템이 복구되었지만 지연되고 방향을 바꾼 항공기들이 정상으로 돌아오는데 시간이 걸려서 9 15일 수요일 까지 사고 여파가 계속됨


시스템 중단 원인

  • 문제를 일으킨 라디오 통신 시스템은 VSCS(Voice Switching and Control System)라 불리며 1990년대 말에 설치되어 오랜 동안 별 문제 없이 사용된 신뢰성 높은 시스템(발주자 FAA, 개발자 Harris Corporation, 개발비 15억 달라)
  • VSCS는 애초에 Unix 서버를 사용했지만 2001년에 원래 서버를 Microsoft Windows 2000 Advanced Server가 올라간 Dell 하드웨어로 대체한 VCSU(VSCS Control Subsystem Upgrade)를 개발. 이 업그레이드는 사고가 생긴 Palmdale의 센타에 1년 전(2003)에 설치됨
  • VCSUMicrosoft Windows는 시간을 밀리초 단위로 재는 내부 카운트다운 타이머를 사용. 이 타이머는 시스템의 서버와 소프트웨어가 다룰 수 있는 최고 숫자인 232(4십억 밀리초가 조금 넘음)로 시작하며, 카운터가 0에 다다르면 tick(재깍)이 바닥나서 시스템이 더 이상 시간을 재지 못하고 셧다운 하게됨(232 부터 0 까지 밀리초로 카운트다운 하는데 49.7일 소요)
  • 시스템이 자동 셧다운 되는 것을 막기 위해 FAA는 기술자가 매 30일마다 시스템을 수작업으로 재시작하도록 하는 운영/유지보수 절차를 수립(, 232 타이머의 디지트가 바닥나기 약 3주 전에 리셋)
  • 제대로 훈련 받지 못한 직원이 Palmdale의 라디오 통신 시스템 리셋 작업을 건너뛰어서 시스템이 셧다운 하는 결과로 이어짐
  • 부적절한 유지보수가 사고의 원인으로 지적됨(Unix 서버를 대신하기 위해 도입된 Microsoft Windows 서버가 시스템으로 통합되는데 있어서 설계가 부적절했음을 사고의 부분적 원인으로 지적하는 의견도 있음)
  • FAA는 문제 재발을 막기 위해 주기적인 리셋 유지보수가 완료되지 않은 경우 경보를 울려 직원들에게 알리는 신규 소프트웨어를 설치할 계획


반응형

+ Recent posts