<登場人物>
 | 新入社員 たかし IBCの新入社員。情シスに配属され、IT障害と奮闘中。 週末は趣味の波乗りに行くことで癒されている。 |  | 長老 しげる たかしが困っていると現れるIBCのベテラン社員。IT障害をゼロにするために日々精進している。 |
<プロローグ>
情報システム部で働いていると、予期せぬシステム障害やネットワークトラブルに悩まされること、ありますよね?忙しい日々の中、対応に追われるだけで精一杯で、障害を防ぐ方法をじっくり考える時間が取れない。そんな経験をしたことがある方も多いのではないでしょうか。
本コラムでは、ある新人社員と長老のようなベテラン社員との何気ない会話を通じて、障害を未然に防ぐためのヒントをお届けします。長老と新人の対話の中で、日常の運用監視で見落としがちなポイントやサーバーやネットワークの「健康診断」の重要性 アラート対応だけに頼らない「予兆検知」の必要性など、すぐに役立つ考え方やアプローチを分かりやすく解説しています。
読者の皆さんも、「あっ!」と気づかされること間違いなし。ぜひ、あなたの日常業務のヒントにしてください!
第1回 障害を未然に防げるか
 | 長老(しげる) 「どうしたんじゃ?顔がまるで夜勤明けのシステムログのようじゃぞ。」 |
 | 新入社員(たかし) 「長老、またこの前、システム障害が発生してしまって…。復旧に手間取ってお客様にも迷惑をかけてしまい、落ち込んでいます。」 |
 | 長老(しげる) 「ほほう、それは辛かったのう。さてはまた、ネットワークの妖怪に襲われたか?」 |
 | 新入社員(たかし) 「そうそう妖怪が急に出てきて、わってなって…ってコラ!違うわ! 急にネットワークが遅くなって、サーバーがダウンしたんです。原因を突き止めるのに時間がかかってしまいました。」 |
 | 長老(しげる) 「ふむふむ…。たかしよ、ノリツッコミの腕を上げたようじゃな。ってその話は置いといて、その状況を防ぐために、サーバーやネットワークの健康状態を日頃から把握できておるか?」 |
 | 新入社員(たかし) 「えっと…、OSS系の監視ツールを使って頑張ってはいるんですが、正直、ちゃんと使いこなせてない気がします。」 |
 | 長老(しげる) 「なるほどのう。OSSのツールは確かに便利じゃが、使い方を誤ると刃物を振り回すようなものじゃぞ。」 |
 | 新入社員(たかし) 「刃物って、、、そんなに危ないんですか!?(うっ、あっ!)」 |
 | 長老(しげる) 「危ないとも。たとえば、設定が間違っておったら大事なアラートを見逃すことになる。それに、お主がアラートを見て『何だこれは?』と叫ぶだけでは、障害は治らんからのう。」 |
 | 新入社員(たかし) 「あっ、それ、僕のことですよね!?(汗)」 |
 | 長老(しげる) 「図星か。ちなみに、OSSはサポートが限定的で、問題が起きたら自力で何とかせねばならんことも多い。お主、そこまでの覚悟はあるか?」 |
 | 新入社員(たかし) 「覚悟…ですか。正直、自信ないです。」 |
 | 長老(しげる) 「ならばまず基礎からじゃ。監視ツールの正しい使い方を学ぶのじゃ。そして、もっと重要なのは予兆検知じゃぞ。障害が発生してから『うわっ、大変だ!』と騒ぐのではなく、その前兆を察知して対応するのがプロの仕事じゃ。」 |
 | 新入社員(たかし) 「予兆検知…。長老、それって僕にもできますか?(ドキドキ)」 |
 | 長老(しげる) 「もちろんじゃ。まずはこの三つを押さえよ。」 |
 | 長老(しげる) 「これを怠ると、障害発生の兆候を見逃してしまうぞ。」 |
 | 新入社員(たかし) 「なるほど…。でも、そんなデータを蓄積する仕組み、今はないんです。(あわわ…)」 |
 | 長老(しげる) 「そこが問題じゃな。稼働状況を記録し、データを分析可能にすることが重要じゃ。ちなみに、アラートの設定も『とりあえず全部通知』などというやり方は禁物じゃぞ。」 |
 | 新入社員(たかし) 「そうなんですか!?(えっ、やばい、僕の設定がまさにそれかも…)」 |
 | 長老(しげる) 「ほほう、また図星か?本当に重要なアラートだけが目に入るよう、適切な閾値を設定することが肝心じゃ。」 |
 | 新入社員(たかし) 「確かに、アラートが多すぎて、何が重要か分からなくなってました…。」 |
 | 長老(しげる) 「その通りじゃ。最後にもう一つ。障害が発生したときの対応をシミュレーションしておくことじゃ。備えあれば憂いなし、じゃな。」 |
 | 新入社員(たかし) 「長老、本当にありがとうございます。健康状態の把握や予兆検知の重要性がよく分かりました!」 |
 | 長老(しげる) 「理解が深まったようで何よりじゃ。しかし、次は具体的に何から手を付けるべきか、そこが問題じゃのう。」 |
 | 新入社員(たかし) 「確かに…。何から始めれば良いのか、悩みます。」 |
 | 長老(しげる) 「よかろう、それについては次回、わしが伝授してやろう。次回は『何から始めれば良いか』をテーマにするぞ。楽しみにしておれ。」 |
 | 新入社員(たかし) 「はい!長老、ありがとうございます!」 |
新入社員たかしの奮闘はまだまだ続く・・・
たかしに教えてあげたい、情シスのお悩みを解決できるツールはこちら↓
