반응형

2003 미 북동 지역 정전 사고

  • 20038 14일 목요일 오후 4:10 경에 시작된 미국 북동 지역과 중서부, 캐나다 온타리오 지역의 대규모 정전 사태
  • 일부 전력은 저녁 11시 경에 복구되었지만 많은 지역이 이틀 후에야 정전에서 벗어남
  • 1999년 브라질 남부 정전 사태에 이어 역사상 두 번째로 넓은 범위에서 발생한 대규모 정전으로 대략 온타리오의 천만 명의 사람과 미국 8개 주의 45백만 명에게 영향을 줌


배경 정보

  • 전력은 장시간 저장이 어려워 대개 생성된 후 바로 소모되며, 네트워크로 공급되는 전력 정도와 네트워크가 공급된 전력을 전송할 수 있는 정도가 매치되도록 네트워크 상의 부하(loads) 균형이 유지되어야 함
  • 송전선의 과부하나 발전기의 과부하/저부하는 수리가 어렵고 비용이 많이 드는 피해를 입힐 수 있으므로 부하 불균형이 발견되면 영향을 받는 기기의 네트워크 연결을 차단함
  • 송전선이 많은 전류를 나르면 뜨거워져서 전기탑 사이의 송전선(금속전도체)을 길어지고 늘어지게 만듬. 만일 선이 지나치게 낮게 늘어지면 나무 같은 주변 물체로 섬락(a flashover)이 발생하며 전류의 일시적 증가가 일어날 수 있음
  • 자동 보호 계전기(protective relays)는 고전류를 발견하여 문제가 있는 선을 신속하게 서비스에서 차단하는 역할을 하며, 서비스에서 선을 제외 시 생기는 전류 흐름의 변화는 추가적인 전류를 나를 수 있는 충분한 여력을 가진 다른 송전선에 의해 보충됨
  • 만약 다른 송전선에 그런 여유가 없으면 과부하 보호 장치(overload protection)가 켜지면서 초과 전류가 한계 상한에 있거나 그에 가까운 상태인 이웃의 회선으로 계속 전달되는 연쇄 실패 현상(a cascading failure)이 나타남
  • 시스템 오퍼레이터는 전력 공급과 부하 정도의 균형을 유지하고 시스템이 안전한 한계치 내에서 운영되도록 하여 한 곳에서 발생된 문제로 인해 전체 시스템이 붕괴되는 일이 없도록 하는 책임을 진다(, 국부적인 고장/정지가 발생하면 발전기나 의도적 절전 등을 통해 추가 전력을 확보하여 균형을 맞추고 전체 네트워크에 영향을 주는 것을 막음)
  • 오퍼레이터를 돕기 위해 송전 시스템이나 발전 시스템에 에러가 있는 경우 경보를 내주는 컴퓨터 시스템이 존재하며, 전력 흐름 모델링 도구(Power flow modeling tools)는 오퍼레이터가 네트워크의 상태를 분석하여 과부하 가능성이 있는 부분을 예측하고 발전 분배를 변경하거나 송전 시스템을 재구성하여 문제를 막을 수 있게 지원함


정전 사고 발생 과정

  • 더운 날씨로 높은 전력 요구가 있는 상황에서 FirstEnergy(FE)가 소유한 오하이오 Eastlake에 있는 발전 플랜트가 오프라인 상태가 되며 북동 오하이오 외곽 지역에 위치한 고전압 송전선에 부담을 주었고, 이후 송전선이 너무 자란 나무와 접촉하면서 서비스 중단이 발생. 이 실패는 다른 송전선으로 부하를 이전하는 원인이 되었고 이를 감당하지 못한 송전선이 계속 이어지며 100개가 넘는 전력 플랜트를 셧다운 시키는 연쇄 실패가 일어남
  • 미국과 캐나다 정부의 공식 조사에 따르면 정전 중에 265개 파워 플랜트에 있는 508개 이상의 발전 장치(generating units)가 셧다운 됨
  • 컴퓨터 문제도 정전 사고에 일조. 유닉스 기반 General Electric XA/21 에너지 관리 시스템에 경쟁 상황(race condition)으로 알려진 소프트웨어 버그가 존재하여 FirstEnergy의 통제실 경보 시스템을 한 시간 이상 멈추게 만들었음. 시스템 오퍼레이터는 이 오작동에 대해 알지 못하고 있었으며 FE 시스템 상태에 중요한 변동이 있었음에도 오디오 경보와 시각 경보를 받지 못함. American Electric Power로부터 북동 오하이오의 345kV 공유선의 트리핑(tripping)과 재폐(reclosure)에 대한 전화가 왔었지만 시스템 경보를 받지 못한 오퍼레이터는 이를 대수롭지 않게 여김


근본 원인

2004 2월 미국-캐나다 조사단은 최종 보고서에서 정전의 원인을 아래의 4개 사항으로 정리함

  • FirstEnergy가 자사 시스템의 부적절성을 평가하고 이해하는데 실패하였으며(특히 전압 불안전성과 Cleveland-Akron 지역의 취약성) 또한 적절한 전압 기준을 가지고 시스템을 운영하지 못함
  • FirstEnergy가 자신들의 시스템이 악화되는 상황을 인지하고 이해하는데 실패함
  • FirstEnergy가 송전선 용지에서 자라는 나무를 적절하게 관리하는데 실패함
  • 상호 연결된 그리드의 신뢰성을 책임지는 조직이 효과적인 실시간 진단 지원을 제공하는데 실패함

 

이런 결론에도 불구하고 미 에너지부는 그 당시 미국 법에 전기 신뢰성 표준에 대한 규제가 없었으므로 FirstEnergy를 처벌하지 않기로 함


소프트웨어 Race condition 에러

  • 많은 전력 회사에서 사용하는 General Electric XA/21 에너지 관리 시스템(Energy Management System) CC++ 언어로 쓰인 약 1백만 코드 라인의 알람 및 이벤트 프로세싱 루틴을 가짐
  • 여러 주에 걸친 노력 끝에 General Electric 사의 엔지니어들이 오하이오 알람 장애를 실험실에서 재현하는데 성공. 프로그램에 의도적으로 지연 코드를 삽입하여 시스템을 느리게 만들고 알람을 생성하는 입력을 주어 재현을 해보니 race condition이 나타나는 것을 발견
  • 두 개의 프로세스가 공용 데이터 구조를 차지하려 다투는 상황에서 한 애플리케이션 프로세스에 있는 소프트웨어 코딩 에러로 인해 두 프로세스가 동시에 데이터 구조에 쓰기 접근(write access)을 획득하면서 알람 이벤트 애플리케이션이 무한 루프에 빠지게 됨


[2003년 미국 정전 사태를 언급한 영상]


반응형

+ Recent posts