動かないコンピュータの記事読んで・・・人ごとじゃない!?

久々に面白い記事だったので、コメント。

まだ、記憶新しい6月6日、終日Docomoの携帯が不通になった。

私の携帯もDocomo。が、その日は・・・・実は、家に携帯忘れて、そもそも私自身が不通だったりした日でした(笑)。

この記事読む限り、Docomo側の言い訳としては、”7つの障害が重なった”とある。

そもそも最初のハード障害から起因するようだが・・・・・さてどうなの?!

もちろん、この規模のシステムともなれば、二重化はもちろん、各種障害回避策は講じられているはずです。だから、本来なら起こり得ないこと、という認識だったでしょう。

この記事記載内容のDocomo側の状況を100%は信じられないけど、明確なのは、明らかに「人為的潜在的なミス」ですね。7つの問題は、本来全て回避できたことです(まぁ、それは自覚されていることでしょうが)。

少し疑念があるとすれば、1つ目のハード障害が、果たして単なるハード障害なのか?!っていう点かな!?前日深夜に本番系の更新を実施していて、その直後くらいに発生しているから、何らかしらの人為的ミスがあったとしか、私には思えないわけで。

とはいえ、私は、ここで、何が真実で、言い訳とか、そういうことを指摘するつもりはない。

当社もメールサービスをSAASにて提供している立場であり、常に、通信不能になってしまうリスクを24時間365日抱えている身である。ゆえに、Docomoさんの事象は人ごとではない。

当社も、少なからず障害はある。SLAを公開しているから、全くないとはウソつけない。

そして、恥ずかしながら色んな問題のほとんどは人為的なものである。システムはウソつかないから、よほどのことがない限りおかしな行動はしない。むしろ、人間のほうがミスる。しかし、当然ながら、コンピュータより人間のほうが上位レイヤーに存在するわけで、良くも悪くも起因する部分は人間となるわけだ。

この人為的ミスには、単なるオペミスもあるが、多いのは想定が甘い、っていうこと。今回のDocomoも、あらゆる局面での想定が行き届いていなかったことが根本的な原因。サービスやっている限り、最大MAXでの高負荷な時点を想定していないとダメだし、1つの事象に起因する二次三次・・・のリスクも想定していないといけない。

100%って本当に難しいが、用心に用心は越したことがない。

とはいえ・・・実際、動くのは人間だから、100%ミスはすると想定すべき。そのあたりのサジ加減が難しいですよね・・・。

こういう事例を教訓に、わが身も案じていこう。

にしても、これだけ大規模な通信障害っていうのに、”損害賠償”とか”訴訟問題”などを見かけないのはなんであろう・・・・!?

もし、これが当社なら、間違いなく一瞬で終わってしまうような気がする。

燃えコラム
2011/07/22 12:28



コメント

コメントを見る (0)

コメントを投稿

* コメントは記事の投稿者が承認するまで表示されません。