반응형

2011 10 10일 월요일 서비스 장애 발생

  • 대략 오전 10(10am BST) 부터 EMEA(유럽, 중동, 아프리카) 지역의 수천만 블랙베리 폰 고객의 이메일과 메세징 송수신이 불가능하게 됨(통화 서비스는 사용 가능). 모바일 통신업자들이 블랙베리 인터넷 트래픽이 완전히 사라진 것을 알아챘으며 전세계 블랙베리 폰 사용자들도 웹이나 트위터에 문제를 보고하기 시작
  • 3.30pm에 회사측에서 블랙베리 서비스에 문제가 있음을 짧게 인정. 언제 정상화될지 구체적으로 무엇이 문제인지에 대한 언급은 안 함
  • 정확한 서비스 중단의 원인은 알 수 없지만 캐나다 회사 Research In Motion(RIM)의 유럽 본부가 있는 영국 Slough의 데이터 센터 서버에 문제가 있는 것으로 알려짐. 블랙베리 시스템은 전세계에 위치한 RIM 서버와 암호화된 연결을 통해 보안성 높은 이메일과 BBM(BlackBerry Messenger) 서비스를 제공


2011 10 11일 화요일 서비스 장애 2일째

  • 화요일 오전 RIM이 모든 서비스가 정상 운영으로 돌아왔다고 발표하지만 몇 시간 후 다시 서비스 중단 발생(이메일, 웹 브라우징, BBM 메신저 서비스를 사용 못하게 됨)
  • 일차 사고 시 문제가 있었던 EMEA(유럽, 중동, 아프리카) 지역을 넘어 중남미로도 퍼짐(인도, 브라질, 칠레, 아르헨티나에서도 메세징과 브라우징 서비스 문제 발생)
  • 화요일 밤 RIM 측은 자사 인프라구조 내의 core 스위치와 back-up 스위치 실패로 문제가 생겼다고 발표. core 스위치에 장애 발생 시 시스템이 백업 스위치로 가도록 설계되었지만 이 백업 스위치가 정상 작동되지 않아서 많은 데이터 백로그(미처리 지연 작업)가 생성되었고 현재 이 백로그를 처리하는 작업 중이라는 설명


2011 10 12일 수요일 서비스 장애 3일째

  • 여전히 고르지 못한 이메일 서비스와 아예 접근이 안 되는 브라우징과 메신저 서비스 문제가 계속됨. 서비스 중단 또는 지연이 미국과 캐나다 까지 퍼짐
  • RIM 측은 아시아와 미국으로부터 유럽으로 가는 이메일 백로그가 많이 쌓여서 서비스 장애가 계속되고 있다고 설명. 많은 데이터 백로그에도 불구하고 어떤 이메일 메시지도 누락(삭제)시키지 않고 결국은 모두 전달되도록 하겠다고 약속함
  • 수요일 오후 언론 컨퍼런스에서 RIM의 최고 기술 경영자(Chief Technology Officer)David YachRIM의 유럽 사이트 중 한 곳에서의 core 스위치 실패가 일차적인 서비스 중단을 유발한 것은 인정했지만 정확한 위치나 문제에 영향을 받은 사용자 수는 밝히기를 거절함. 일부 소문과 달리 해킹이나 보안이 뚫린 문제는 아니라고 분명히 함


[블랙베리 블랙아웃에 대한 2011년 10월 12일자 영국 채널4 뉴스]


2011 10 13일 목요일 서비스 복구

  • 3일간의 서비스 중단이 있은 후 목요일 아침 일찍 전세계 블랙베리 서비스 대부분이 정상 운영되기 시작
  • RIM의 설립자이자 공동 회장인 Mike Lazaridis, 공동 회장 Jim Balsillie, 최고 기술 경영자 David Yach가 언론 컨퍼런스를 가짐. Lazaridis는 하드웨어(core switch) 실패가 애초 문제의 원인이라고 밝힘. 이 문제를 야기시킨 에러를 수정하기 위해 현재 벤더와 함께 작업 중이라고 말했지만 벤더 이름을 밝히기는 거절함
  • 컨퍼런스 후 질의 세션에서 사용자 보상을 할 것인지에 대한 질문에도 아직 근본 원인 조사를 기다리는 중이라고만 하며 구체적 답변을 회피


[RIM 사 CEO의 고객 사과 영상]


사고 관련 정황

RIM이 보안에 유난히 엄격한 성향이라 그런지 장애 근본 원인에 대해 공개된 정확한 정보를 찾기 힘들었지만 몇 가지 알려진 정황은 아래와 같음

  • 처음 서비스 중단의 원인이 된 RIM 내부 네트워크의 장비는 Cisco switch로 알려짐
  • 애초 사고 발생지로 알려진 영국 Slough에 있는 RIM의 유럽 본부는 EMEA 지역의 오퍼레이션을 담당하기는 하지만 이 지역의 천만명 블랙베리 사용자에게 실제 서비스를 제공하는 네트워킹 장비들의 물리적인 위치는 아님. 공개적으로 말은 안 하지만 실제 기계는 영국 Surrey Egham에 있는 사이트에서 유지 보수되고 있는 것으로 보임
  • 블렉베리의 아키텍쳐는 근본적으로 애플이나 안드로이드의 것과는 다름. 애플과 안드로이드는 중간에서 프로세싱을 제공하지 않지만 블렉베리의 경우 모든 데이터가 캐리어 네트워크(, Sprint, Verizon )로 전달되기 전에 RIM의 내부 서비스 네트워크를 거쳐 처리됨. 블랙베리는 모든 데이터 메시지를 중앙 프로세싱(압축과 암호화) 함으로써 추가적인 보안을 제공하고 사용자 기기에서 요구되는 프로세싱을 줄임(파워 사용을 줄여 배터리 수명 연장의 효과)
  • RIM 사의 하드웨어와 소프트웨어의 복잡한 일련의 실패가 서비스 중단 사고의 원인으로 보임. 영국의 데이터 센터에 있는 블렉베리 core switch에 장애가 생기면서 backup switch가 대신 작업을 인계하도록 되어 있었지만 테스트에는 성공적이었던 이 백업 스위치가 실 적용 시는 작동하지 않아 처리 해야 할 메시지가 쌓이게 됨. 이렇게 쌓인 메시지는 세계 전역의 다른 데이터 센터에서도 백로그가 생기게 하는 문제로 이어짐. 또한 스위치가 실패하면서 네트워크 내의 모든 메시지를 관리하는 데이터베이스 소프트웨어를 훼손시킴
  • 월요일 아침 장애가 발생한 후 RIM 엔지니어들이 스위칭 인프라구조를 작동시키는 소프트웨어를 업그레이드 이전 버전으로 되돌리기로 결정함(이 말은 EMEA에 있는 블랙베리 네트워크의 Internet Protocol 백본이 처음부터 다시 구축되어야만 한다는 의미. 리셋 후 스위치와 라우터는 네트워크 내에서 자신들이 어디에 있었는지 그리고 어떻게 서로 다시 대화할 수 있는지를 습득해야만 함). 이런 재구축 작업이 꽤 빠르게 될 수도 있었겠지만 오라클 데이터베이스가 훼손되어 있어서 작업이 느려진 것으로 추정됨. 더구나 RIM 측은 시스템이 돌아가는 동안에 수정하는 핫픽스(hotfix)를 해야만 했음(데이터베이스가 돌아가는 동안 수정 작업을 하는 것은 쉽지 않은 프로세스)


반응형

+ Recent posts