CASE STUDY

導入事例・導入実績

世界最大級の鉄道事業を支えるシステム安定稼働の取り組み
~ プロアクティブな予防保守対応でサイレント障害の根絶を目指す ~

System Answer G3
情報通信業

株式会社 JR東日本情報システム

株式会社 JR東日本情報システム

株式会社 JR東日本情報システム(略称:JEIS)は、東日本旅客鉄道株式会社(JR東日本)から情報システム部門を分離・独立する形で設立されたシステムインテグレーター。JR東日本グループの情報処理システムの企画・提案・設計・開発・運用業務を中心に、ICT 機器の開発、制作、販売、設置をおこなう。

株式会社 JR東日本情報システム

設立
1989 年 11 月 24 日
資本金
5 億円
(東日本旅客鉄道株式会社 100 %)
社員数
1,611 名(2021 年 4 月 1 日現在)
所在地
東京都新宿区大久保三丁目 8 番 2 号
新宿ガーデンタワー 7階
導入内容
開始
2018 年 11 月
規模・対象
80,000 項目

導入背景

JEIS は日本最大の鉄道会社・JR東日本の根幹となる IT システムを支えるため、複数の監視ツールを駆使してシステムを停止させないための対策に力を入れてきた。全てのシステムを冗長構成で組み、複数の監視機能や監視製品を組み合わせて IT システムの動作を把握する仕組みを整備してきた。その結果として、管理するネットワーク環境下における大半の異常検知が可能な状況になっており、万全の体制で運用をおこなっていた。

しかしながら数年前から「通常通りにネットワークは稼働しているが、なぜか通信遅延が発生している」と言ったような、既存の監視システムでは検知し切れないサイレント障害(ルーターのエラーパケット増加《※ 下記「サイレント障害事象の例」参照》、インターネット向け回線の輻輳など)の発生頻度が増加傾向にあり、そのための対応コスト増加に悩んでいた。

さらに、JEIS では原因調査をおこなう際には監視システムに蓄積した過去データを遡って分析し、原因特定と対策検討をおこない再発防止対策を行っていたが、そのプロセスには膨大な工数が発生していた。なぜならば必要となるデータの検索と抽出、グラフ化のための二次加工などの作業を人手でおこなっていたためだ。

なお、その頃 JEIS 社内では次世代データセンターの新規構築計画が進んでいた。本計画内では運用の改善、高度化も重要なテーマとなっており、前述のサイレント障害への対策や運用業務効率化の実現もミッションとなっていた。

これらの課題を解決するため、System Answer G3 を導入した。

 

※ サイレント障害事象の例

システム開発部門や利用ユーザーから「業務通信ができない」と問い合わせがあった。監視システム上では全く問題がなく、監視通信の疎通も確認できた。SSH で接続しても、ルーターの CPU 負荷やメモリー利用状況に問題はなかった。

 

 

 

 

 

 

 

取り急ぎ原因解明よりも復旧を優先させ、手動でフェイルオーバーを実施した。すると順次業務通信が可能となり、通信が復旧した。
その後の調査で、メインルーターのエラーパケットが増加していたことが判明。

◆季節や時間帯・曜日などの要因により、障害と判断するエラーパケットのしきい値を定められない。
 → 可変的なしきい値を設定する必要があった。

◆TCP 通信(業務通信)が疎通できていない状況だったが監視通信は通っており、異常だと検知できなかった。
 → さまざまな通信状況を監視する必要があった。

 

採用理由

① 障害予防に必要な分析機能

サイレント障害の検知などを目的とする変動検知機能ベースライン)が標準機能として実装されており、カスタマイズ等を必要としないため、負担なく運用開始できる。

② 運用業務効率化を支援するコンサルサービス

製品導入とあわせてレポート自動作成ツールと専門エンジニアによる分析結果報告サービスをワンストップで活用することで、障害予防保全に向けた月次のレポーティング運用を効果的におこなうことができる。

③ 運用者目線の分かりやすい GUI、優れた操作性

必要な時に、誰もが・スピーディに・ほしい情報を確認できるため、属人化のリスクが排除でき、関係部署間での共有活用ができる。

 

効果・感想

死活 / しきい値監視では気づけない事象をリアルタイムに検知し、復旧時間の短縮に成功

従来の監視システムでは気がつくことが困難であったサイレント障害に対して G3 の変動検知機能(ベースライン)を用いることで、早期検知、状況把握、原因特定、対策実施、復旧までの時間が大幅に短くなり、サービスレベル向上、機会損失防止につながっている。

 

 

 

 

 

 

 

<変動検知機能について>
・収集情報の時間帯、曜日毎の平均値を自動学習し、ベースラインを作成
・標準偏差を用いた揺らぎを考慮し、稼働傾向を自動表示
・収集情報と稼働傾向に大きな乖離が発生した場合には、「いつもと違う動き」としてアラート通知

 

クライアントとの情報共有スピードが向上し、安心・安全な業務遂行が実現

クライアント向けの報告や連絡の際には、監視システムの情報を都度人手でまとめ上げてレポートを作成しており、タイムリーな報連相が難しかった。G3 のリアルタイム性のあるグラフ描画機能や共通 Web ポータル機能を用いることで、レポート作成工数の削減とクライアントからのさらなる信頼の獲得に成功した。

 

 

 

 

 

 

 

 

更なる高度化への取り組み

サイレント障害への対策を共同で研究開発

変動検知機能(ベースライン)を活用したサイレント障害の検知と分析精度向上のため、JEIS はアイビーシーと定期的に意見交換を重ね、下記の機能改良企画を進めてきた。

・「祝日」「イベント」などのイレギュラーなデータによって発生する誤検知アラートの抑制

・過去の特定期間のベースラインを活用した比較検知

この改良版変動検知機能は、2022 年 1 月に製品へ実装された。

CONTACT

お気軽にお問い合わせ下さい