JEIS は日本最大の鉄道会社・JR東日本の根幹となる IT システムを支えるため、複数の監視ツールを駆使してシステムを停止させないための対策に力を入れてきた。全てのシステムを冗長構成で組み、複数の監視機能や監視製品を組み合わせて IT システムの動作を把握する仕組みを整備してきた。その結果として、管理するネットワーク環境下における大半の異常検知が可能な状況になっており、万全の体制で運用をおこなっていた。
しかしながら数年前から「通常通りにネットワークは稼働しているが、なぜか通信遅延が発生している」と言ったような、既存の監視システムでは検知し切れないサイレント障害(ルーターのエラーパケット増加《※ 下記「サイレント障害事象の例」参照》、インターネット向け回線の輻輳など)の発生頻度が増加傾向にあり、そのための対応コスト増加に悩んでいた。
さらに、JEIS では原因調査をおこなう際には監視システムに蓄積した過去データを遡って分析し、原因特定と対策検討をおこない再発防止対策を行っていたが、そのプロセスには膨大な工数が発生していた。なぜならば必要となるデータの検索と抽出、グラフ化のための二次加工などの作業を人手でおこなっていたためだ。
なお、その頃 JEIS 社内では次世代データセンターの新規構築計画が進んでいた。本計画内では運用の改善、高度化も重要なテーマとなっており、前述のサイレント障害への対策や運用業務効率化の実現もミッションとなっていた。
これらの課題を解決するため、System Answer G3 を導入した。
※ サイレント障害事象の例
システム開発部門や利用ユーザーから「業務通信ができない」と問い合わせがあった。監視システム上では全く問題がなく、監視通信の疎通も確認できた。SSH で接続しても、ルーターの CPU 負荷やメモリー利用状況に問題はなかった。
取り急ぎ原因解明よりも復旧を優先させ、手動でフェイルオーバーを実施した。すると順次業務通信が可能となり、通信が復旧した。
その後の調査で、メインルーターのエラーパケットが増加していたことが判明。
◆季節や時間帯・曜日などの要因により、障害と判断するエラーパケットのしきい値を定められない。
→ 可変的なしきい値を設定する必要があった。
◆TCP 通信(業務通信)が疎通できていない状況だったが監視通信は通っており、異常だと検知できなかった。
→ さまざまな通信状況を監視する必要があった。