とあるIT屋の独白

ITや経営について主に書きます

システム障害の対応

先日、ANAのシステム障害により大幅に飛行機の運航時間が遅れたことは記憶に新しいところです(JALでもシステム障害発生してますが…)。ANAのシステム障害の原因に関して、以下にまとめられていますので紹介します。

 

ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン】

http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/?ST=erm&P=1

 

システム障害は起こらないに越したことはないのですが、今までのIT屋の経験から考えると、どんなにテストをしたところで起きるときは起きてしまいます(私も過去に何度かやらかしてしまいました…)。システム障害といってもANAのような大規模な停止から、アプリケーションのバグまで大小様々あると思います。ハードウェアやネットワーク部分は、予期できない故障が発生することがあるので起きた時を見越した準備が必要です。

特に業務的に影響が大きいシステムは、ハードウェアは冗長な構成にするのですがANAの障害では故障時の切替が上手くいかなかったようです。たしかにベンダー製品であるシスコが原因であるとは現場のエンジニアは思いもよらなかったとは察しますが、早期の原因究明と対策が大きなシステムである程求められます。

オープンソースでもサーバを監視できるものもありますので、活用して障害に備えたいですね。

 

【連載記事 「ZABBIXで脱・人手頼りの統合監視」】

http://www.atmarkit.co.jp/flinux/index/indexfiles/zabbixindex.html