何たる迷惑であることか!

独自の路線で生きています

「システム障害対応の教科書」を読む

f:id:kinaco68:20201124114836j:plain

 以前から気になっていた、「システム障害対応の教科書」を読んだ。

 

 

 システム障害対応は未知かつ非計画的であるため、教育が難しい領域です。そして、多くの先輩たちがぶっつけ本番の障害対応の中で成長してきたのも事実です。それゆえに、教育が不可能と認識されていることも多いのです。

 しかしながら、これは大変な誤解です。

 

 この一文を読んだだけで「わかる」と頷きが止まらないIT関係者は多いだろう。サービスを使うだけの立場から、作る側に回ると、「システムは障害が起きて当たり前」だと理解できるようになる。サービスがあるところ、システムがあるところには障害は必ず起こる。しかし、いつ起こるか予測ができない。そのため、障害対応はたまたまその場に居合わせた人間がぶっつけ本番でやる、逃げられないからやる、という修羅場になりがちである。

 

 私が以前所属していた会社は、システム障害の教育を比較的きちんとやる方だったと思う。障害対応のデータベースが整備されており、月に一度の障害に関する勉強会も開催されていた。しかしながら、提供される過去の障害例はあくまで個別のものに止まっていて、「何が起きたら障害とするか」の検討や、障害対応の流れなどの体系的な知識を学ぶことはなかった。そのため、だいたいユーザーの指摘によって不意打ち的に障害が発生してしまう。障害対応の場では指揮系統も何もあったものではなく、なし崩し的にリーダーと作業者が決まり、何とか対応することが多かった。

 私は下っ端だったので、作業者としてとりあえずPCの前に座ったものの、何が起こっているのか、自分は今何をしているのか、まるでわからずに何となく作業をしていることもあった。新人ゆえにシステムの全体像をつかめていなかったせいもあるが、会社全体に「障害は起こってはいけないもの」「障害は悪いもの、恥ずべきもの」という雰囲気が強くあったことも大きい。システムは完璧であり、障害は起こってはいけないものとされていたために、障害対応は当たり前にやらなければいけないにも関わらず、その実態は隠されていたのだった。

 

 翻って、「システム障害対応の教科書」は、その性質ゆえに属人化しがち、隠されがちな障害対応のノウハウを体系的に網羅した一冊である。修羅場に揉まれて学んだ中堅〜ベテランはもちろんのこと、自分が新人の頃に読んでおきたい一冊であった。

 

 ただ、本文で用語が多用されている割に解説が少ないので、新人にはちょっと不親切かもしれない。また、障害については抽象的な話が多かったので、具体例を載せてもらえると、読み物としての面白さが出てより理解しやすくなると思う。

 

 血の通った具体例ほど面白く、勉強になるものはない。

 IPAが出している「情報システムの障害状況一覧」とか、

www.ipa.go.jp

 

 最近の例で言うと、2020年10月1日に発生した石原さとみショック東証のシステム障害が、よくまとまっていて面白かった。

 

 障害を恥ずべきものとして隠すのではなく、当たり前に起こるものとしてオープンに扱い、効率的に障害対応を学ぶために読むべき一冊である。