반응형

2010 12월 미국에서 가장 먼저 대규모 4G LTE 서비스를 시작한 Verizon Wireless2011년에 여러 차례의 LTE 데이터 서비스 중단(data outages) 사고를 경험함. 중단 원인 대부분이 IMS(IP Multimedia Subsystem) 소프트웨어의 결함이라고 설명


20114 26일 화요일~4 27일 수요일: 1LTE 데이터 서비스 중단

  • 2011 4 27일 수요일 Verizon Wireless 4G LTE 서비스가 미국 전역에서 중단되는 사고 발생
  • 일부 고객은 20114 26일 화요일 저녁부터 문제가 있었다고 보고함(버라이존의 첫 LTE 스마트폰인 HTC ThunderBolt를 사용하는 고객들이 화요일 저녁 LTE 신호를 받을 수 없음을 알아챔. 단지 1X 데이터 연결만 되었다고 함)
  • Verizon 측은 427일 수요일 오후 늦게 원인을 발견하고 복구를 위해 벤더와 협업 중이라고 밝힘
  • 4G LTE 네트워크가 문제가 약 24시간 동안 지속되다가 4 28일 목요일 일찍 복구됨
  • 버라이존은 사고 기간 중에도 4G LTE 스마트폰의 음성 통화가 가능했고 속도가 느리긴 해도 데이터 연결도 가능했다고 말하지만 일부 고객은 4G LTE 기기 자체를 가동시킬 수 없었다고 주장함


2011 5 19: 1차 데이터 중단 사고에 대한 설명

  • Verizon Wireless의 기술담당최고책임자(CTO) Tony MeloneTIA 2011 컨퍼런스에서 기조 연설을 한 후에 4월의 4G 네트워크 중단 사고에 대하여 처음으로 언론에게 자세한 설명을 제공함
  • Melone에 따르면 네트워크 코어에서 점증하는 소프트웨어 문제가 4 27 Verizon Wireless 모바일 브로드밴드 네트워크를 셧다운 하게 했다고 함. , IMS(IP Multimedia Subsystem) 아키텍쳐의 한 부분(element)에서 생긴 소프트웨어 버그가 수십만 가입자의 4G LTE 네트워크와 3G 네트워크 액세스를 최소 24시간 막으며 사고를 야기함
  • 다수의 백업 시스템(redundant systems)을 가진 네트워크에서 소프트웨어 버그는 대개 작은 문제로 그치지만 이 버그는 코어의 백업 시스템에 있는 동일한 프로세스에도 마찬가지로 영향을 주었고 결국 3G 4G 데이터 네트워크의 모든 액세스를 차단하면서 빠르게 상황을 악화시킴
  • 사고 당시 버라이존과 문제가 생긴 부분(element)의 벤더가 함께 원인을 식별하여 수정 패치(a fix)를 개발했으며, 남아있는 문제가 없도록 하기 위해 점진적으로 서서히 네트워크를 복구시켰다고 함. Melone은 구체적으로 어떤 IMS element에서 문제가 생겼고 벤더가 누구인지는 밝히지 않음(외부 분석가들은 주요 벤더 중 하나인 Nokia Siemens NetworksHSS 홈 가입자 시스템이 범인일 가능성이 높다고 봄)
  • 버라이존의 3G 고객들은 영향을 받지 않은 반면 4G 고객들의 3G 네트워크는 중단된 이유에 대해 Melone은 데이터 네트워크가 설계된 방식 때문이라고 설명함. 4G 고객이 LTE 커버리지 밖으로 나가 3G 라디오 네트워크로 들어갈 때 4G 고객은 3G-only 가입자들의 서비스를 제공하는 HRPD(the high-rate packet data) core로 바뀌는 대신에 4G mobile packet core(진화된 HRPD core)에 그대로 남아 있게 됨. 4G 가입자들의 두 개의 데이터 네트워크간의 지속성(continuity)을 유지할 수 있게 해주는 것이 바로 이 진화된 HRPD core. 따라서 IMS core의 장애가 4G 가입자들의 LTE 네트워크 액세스를 차단 시킬 때 (3G 라디오 네트워크는 멀쩡하게 살아있었지만) 4G 가입자들의 3G 액세스도 마찬가지로 차단시킨 것이며 버라이존의 3G 고객들은 IMS core와 아무런 인터액션이 없으므로 영향을 받지 않음


2011126일 화요일~12 7일 수요일: 2 LTE 데이터 서비스 중단

  • 12 6일 화요일 저녁 늦게 부터 4G LTE 서비스에 문제가 생김(일부 4G LTE 고객들이 자신들 기기가 4G 대신에 3G 데이터 서비스에서 작동되고 있다고 보고함. 또 일부는 데이터 액세스가 간헐적이거나 또는 아예 불가능하다고 보고)
  • Verizon이 수요일 저녁 네트워크를 정상으로 복구하여 약 24 시간 동안 Verizon 4G LTE 서비스에 장애가 발생(장애 시간 동안 영향을 받은 고객들이 LTE 네트워크에 연결을 못함. 모든 고객의 음성 전화, 텍스트 메시지, 3G 데이터 서비스는 정상적으로 운영됨)
  • 버라이존 측에 따르면 4월의 대규모 완전 중단(4G 고객들의 모든 high speed 데이터 연결이 차단됨)과 달리 이번 LTE 문제는 모든 고객에게 영향을 끼치지는 않았고 또한 간헐적으로 영향을 끼침. 일부 고객들의 3G 액세스도 안 된다는 보고도 있었지만 대부분의 기기들이 LTE 보다는 못해도 스마트폰의 대부분의 기능을 지원하는 버라이존의 3G EV-DO 네트워크에 그런대로 의지할 수 있었음


2011 1220일 화요일~1221일 수요일: 3 LTE 데이터 서비스 중단

  • 12 20일 화요일 저녁부터 버라이존 사용자의 데이터 연결이 끊어지는 문제 발생
  • 12 21일 수요일 미국 도처에서 Verizon Wireless 고객들이 3G4G 데이터 네트워크에 접근을 못함(일부 4G LTE 고객들이 3G CDMA로 전환하여 데이터 네트워크에 접근하는 것이 가능했다는 보고도 있었지만 많은 3G 고객들 역시 데이터 연결을 할 수 없어 불만을 표시함)
  • 수요일 정오부터 일부 지역에 서비스가 서서히 돌아오기 시작


[2011년 12월 21일 버라이존 LTE 데이터 중단에 대한 뉴스 영상]


201112 28일 수요일: 4 LTE 데이터 서비스 중단

  • 12 28일 수요일 뉴욕, 샌프란시스코, 시카고를 포함한 미국 전역의 여러 주요 도시에서 일부 Verizon Wireless 고객들이 4G LTE 네트워크에 연결이 안 되는 문제를 겪음(같은 달에 발생한 지난 2건의 사건과 같이 모든 사람이 영향을 받은 것은 아니며, 음성 통화, 텍스트 메시지, 3G는 정상 작동함)
  • 고장이 4G 기기에만 영향을 미치는 듯 보임(3G-only 휴대폰은 정상 작동되는 반면 4G 휴대폰은 3G 4G 데이터 서비스 두 개 모두를 잡아내지 못함)
  • 2011 12 29일 목요일 아침 Verizon은 공식 트위터를 통해 문제가 있었고 이를 해결했다고 인정


[버라이존 LTE 데이터 중단에 대한 2011년 12월 29일 뉴스 영상]


201112월에 발생한 3건의 LTE 중단 사고에 대한 설명

  • 2011 12 29Verizon Wireless의 네트워크 엔지니어링 부사장 Mike HabermanGigaOM과의 인터뷰에서 일련의 LTE 중단 사고 원인을 설명함
  • 3건의 서비스 중단 모두 버라이존의 service delivery core의 문제에 의해 야기됨. , 2G3G 네트워크에서 사용되는 구 신호 아키텍쳐(the signaling architectures)를 대신하는 아키텍쳐인 IMS가 원인을 제공
  • IMS가 등장한지는 꽤 되었지만 LTE 네트워크에 구현한 것은 Verizon이 처음이고, 4월에 있었던 사고(IMS core 내부 깊숙한 곳에서 발생된 소프트웨어 버그가 전국 LTE 고객들의 3G4G 네트워크 연결을 완전히 끊음) 이후 계속 문제의 근원지가 됨. 4월 사고를 일으킨 소프트웨어 버그는 수정했지만 새로운 IMS 결함들이 계속 등장했다고 함
  • 12 7일에 발생한 데이터 서비스 중단은 백업 커뮤니케이션 데이터베이스의 장애(the failure of a back-up communications database)로 인해 일어났고, 12 21일의 중단은 한 IMS element가 제대로 응답하지 않은 결과이며, 12 28일의 중단은 두 개의 IMS elements가 서로 제대로 커뮤니케이션 하지 않아서 발생되었다고 함
  • LTE 라디오 네트워크는 잘 작동하고 있었지만 IMS가 고객들을 인식하지 못하게 됨에 따라 고객들이 정상인 LTE 네트워크에 연결을 할 수 없게 됨. VerizonIMS 장애를 식별한 후에 LTE 폰들이 4G에 액세스 하려는 것을 멈추게 하고 대신 3G CDMA 네트워크로 가도록 스위치오버(switch-over)를 시킴. 하지만 이 스위치오버 효력이 발생되기 전 계속 4G 네트워크에 로그인을 시도하는 일부 고객들의 폰이 일정 시간 동안 3G가 없는 상태로 남아 있게 됨
  • Haberman에 따르면 12월에 연이어 발생한 3건의 중단 사고 각각이 새로운 버그의 결과이며(기술적인 측면에서 각 사고가 다름), 일단 문제가 해결된 후에는 같은 문제가 다시 발생하는 일은 없었다고 함
  • Haberman은 어떤 element 또는 어떤 벤더가 데이터 중단 문제의 책임이 있는지 밝히기를 거절함. 버라이존의 IMS는 여러 벤더가 공급하는 데이터베이스, 서버, 라우터, 게이트웨이, 정책관리자(policy managers)가 연결되어 있는 복잡한 시스템으로 Alcatel-Lucent, Nokia Siemens Networks, Acme Packet, Tekelec 등이 각기 다른 부분을 공급함
  • Verizon 측은 더 이상의 중단이 없다는 약속은 못하지만 문제가 생기면 그 영향을 최소화할 수 있는 조치를 취하기로 했다고 함. 예를 들어 LTE 네트워크를 지리적으로 나누어(geographically segmenting) 소프트웨어 버그가 발발하면 전국으로 퍼지는 대신에 특정 지역이나 시장을 고립시킬 수 있도록 함


2012 2 22일 수요일: 또 다른 LTE 중단

  • 작년 4건 사고에 이어 Verizon이 또 다른 전국적인 LTE 중단 사고를 겪게 됨
  • 2012 2 22일 아침부터 4G LTE 서비스 연결을 할 수 없다는 Verizon Wireless 고객의 보고가 시작됨. 특정 지역 문제가 아닌 전국적인 것으로 보이며 일부 사용자는 Verizon 3G (EVDO) 서비스와도 연결 문제가 있었다고 말함
  • 버라이존 측은 2 22일 오전 10시경 트위터에 4G LTE 데이터 네트워크 관련 고객이 보고한 문제를 조사 중이라는 글을 올림



흥미로운 건 모든 중단 사고가 수요일에(더 정확히는 화요일 저녁부터) 생긴다는 점. 저쯤 되면 버라이존 직원들 사이에서 저주 받은 수요일이라는 말이 나왔을 것 같은데... 버라이존 측은 데이터 중단의 원인이 다 다르다고 말하지만 1년 넘는 기간 동안에 거쳐 발생한 사고들이 하나같이 증상이나 시점이 너무 비슷해서 놀라울 지경


반응형

+ Recent posts