반응형

미국 911 비상 전화 연결 장애

  • 20144 9일 수요일 자정 조금 전부터 410일 목요일 새벽까지 미국의 비상 전화인 911 7개 주에서 6시간 동안 연결이 안 되는 문제가 발생함
  • 911 콜 센터를 PSAP(Public Safety Answering Points)라 부르는데 북캐롤라니아, 남캐롤라니아, 펜실베니아, 캘리포니아, 미네소타, 플로리다에서는 일부 PSAP가 장애를 겪었고 워싱턴 주는 모든 PSAP가 영향을 받음
  • 장애가 지속되는 동안 6,600건 이상의 911 콜이 무시됨. , 911 전화를 하면 통화 중 신호만 들리고 해당 콜이 PSAP로 연결되지 못함


장애의 기술적 배경 이해

  • 인터넷이 널리 퍼지기 전의 911 서비스에서는 911 콜이 지상선 전화에 의해 연결되고 해당 지역 중앙 사무소(the central offices) 911 콜을 수신함. 이 중앙 사무소는 전화의 위치를 모두 알고 있으며 따라서 걸려온 911 콜을 그 위치에 근접한 PSAP로 라우팅 함
  • 최근 911 서비스를 더 효율적이고 유연하게 만들기 위해 인터넷 기반 인프라구조를 활용하는 차세대 911 서비스(the Next Generation 911: NG911)가 등장. NG911에서는 지역 중앙 사무소가 911 콜을 직접 지역 PSAP로 라우팅하는 대신 중앙 사이트(the central sites)로 보내면 이 중앙 사이트에서 PSAP로 재라우팅 됨
  • 중앙 사무소와 중앙 사이트 간의 통신 링크는 초기에는 단일 지상선 상에서 다수 콜을 처리할 수 있는 시분할 다중화(time-division multiplexing: TDM) 방식의 지상선 트렁크(land-line trunks) 였지만 서서히 IP(Internet Protocol) 통신 링크로 교체되고 있음
  • NG911의 장점은 음성뿐만 아니라 텍스트나 비디오 같은 911 메시지가 IP 링크를 타고 PSAP로 전달될 수 있는 점
  • NG911의 취약점은 중앙 컴퓨터에 서비스가 집중된다는 점. , 이 중앙 사이트들 중 하나만 실패해도 911 서비스에 큰 영향을 줄 수 있음. 4 10일에 발생한 장애도 이런 종류의 문제임


911 콜 장애 원인 자동 콜 라우팅 시스템의 소프트웨어 버그

미국 연방통신위원회(the U.S. Federal Communications Commission: FCC)의 조사에 따르면 미국의 911 콜의 절반 이상을 처리하는 중앙 사이트에서의 소프트웨어 버그(단순 코딩 에러)가 장애를 야기함. 이 소프트웨어는 제 3의 계약자(외주 업체)Intrado Inc. 라는 회사가 소유 및 운영함 

  • Intrado는 미 전역의 통신 서비스 공급업자와 공공 안전 기관에 911 비상 통신 인프라구조/시스템/서비스를 공급하는 업체. 전통적으로 지역 통신 사업자가 수행해 왔던 911 서비스를 Intrado가 대신 제공하고 있는 경우가 많음
  • Intrado가 제공하는 서비스 중 하나가 911 콜을 적절한 PSAP로 라우팅하는 것이며, 이를 위해 ECMC(Emergency Call Management Centers)라 불리는 두 개의 메인 데이터 센터를 유지 관리하고 있음(하나는 콜로라도 Englewood에 다른 하나는 플로리다 Miami에 위치). Intrado의 라우팅 시스템은 유입된 911 (지상선 전화 또는 이동 전화)ECMC의 데이터베이스에 기반하여 해당 콜과 가장 가까운 PSAP로 재라우팅 함
  • 워싱턴 주의 경우 CenturyLink라는 통신 사업자가 911 서비스를 공급/관리하는 책임을 지고 있으며, CenturyLink는 다시 Intrado와 계약을 맺어 워싱턴의 911 콜을 Intrado의 콜로라도 ECMC로 라우팅 함
  • TDM 트렁크 상으로 유입되는 콜을 위해서 Intrado ECMC가 각 콜에게 고유한 식별 키(key)를 할당하는데 이를 담당하는 소프트웨어가 키 최대 용량을 4천만개로 설정함. 유입되는 콜을 처리할 수 있는 충분한 키가 항상 있도록 보장하기 위해 키들이 주기적으로 제거됨. 하지만 Intrado의 콜로라도 ECMC의 마지막 키 제거가 전년도 9월에 일어났고, 2014 4 911:54PM PDT(태평양 표준시)에 콜로라도 시스템의 키가 한계에 도달함. , 4천만번째 이후로 시스템에 들어오는 911 콜에 키를 할당하지 못하게 되었고, 유입된 콜들이 타임아웃 되면서 더 이상 처리되지 못함
  • 장애가 TDM 트렁크 상에서 콜로라도 ECMC와 통신하는 PSAP에만 영향을 주었고, IP 링크 상에서 통신하거나 마이애미 ECMC 시스템과 통신하는 PSAP는 영향을 받지 않음


장애 해결에 장시간이 소요된 원인

쉽게 수정이 가능한 소프트웨어 버그로 인해 야기되었고 중복 시스템이 갖추어져 있었기 때문에 문제가 정확하게 식별만 되었어도 서비스가 금새 복구될 수 있었던 사고임. 하지만 여러 시간 동안 실패의 원인 파악이 지연되었던 요인이 아래와 같다. 

  • Oregon 주에서 같은 시점에 서비스 장애가 발생하였고 IntradoCenturyLink의 직원들은 워싱턴의 문제와 오레곤의 문제가 동일한 결함에 의해 야기되었다고 자연스럽게 추정함. 이후 오레곤의 문제가 해결되었고 그때서야 워싱턴이 뭔가 다른 문제로 장애를 겪고 있음이 명백해짐
  • Intrado의 서버가 풀-키 조건(a full-key condition)을 중요하지 않은 것으로 간주하여 콜로라도 ECMC에서 카운터가 한계에 도달한 이벤트를 낮은 우선순위의 사건으로 분류함. , 서버에서 미완성 콜 각각에 대한 수 천 개의 알람이 로그로 쌓였지만 중요하지 않는 경고로 자동 분류되어 사람(관리 직원)의 주의를 끌지 못함
  • 장애 발생 6시간이 지난 후인 4 106:00AM PDT 경에서야 Intrado 측이 이 문제를 인지하고 걸려오는 911 콜을 중복 허브인 마이애미 ECMC로 가도록 수동 전환함(manual failover). 그러자 911 콜 서비스가 즉시 복구됨


사후 시정 조치

문제 수정 및 향후 유사 문제의 발생을 예방하기 위해 Intrado가 아래와 같은 신규 기능과 조치를 구현함

  • 키 한계를 4천만개에서 6십억개로 증가시킴
  • 키 카운트 알람을 주요 알람(major alarm)’으로 격상시킴
  • 최대 한계치에 근접하지 않았음을 확인하기 위해 매 주 키 카운트를 모니터하는 직원을 할당함
  • 15분 주기로 ECMC에서 처리된 성공적인 콜의 백분율에 기반한 알람을 생성함. 만약 ECMC가 콜 처리를 중단하면 즉각적인 알람이 생성됨
  • ECMC에 의해 처리될 수 없는 911 콜은 다른 ECMC로 자동 재라우팅 되도록 함


[2014년 4월 15일자 KOIN 6 뉴스 영상]


반응형

+ Recent posts