TOPICS

特集ページ

 

最終更新日:2024 年 7 月 8 日

System Answer G3 は IT システムの未来を予測します!

将来予測オプション『キャパシティ予知』『昨対比較』『変動検知』

※ 機能は予告なく変更される場合があります

情報システム障害の多くは回避することができる

IPA(独立行政法人 情報処理推進機構)が 2010 年から社会に影響を与え全国紙などに報道された情報システムの障害情報を集計している「情報システムの障害状況一覧」によると、2019 年後半における障害は 84 件(消費増税関連を除く)ありました。
  (参考:https://www.ipa.go.jp/sec/system/system_fault.html

アイビーシーによる分析の結果、多くの情報システム障害は回避できた可能性がありました。

近年のリモートワークの増加やクラウド利用の推進など、ビジネス環境の急激な変化にともない情報システムの運用は日々複雑化する一方で、IT システム障害が経営におよぼす影響は計り知れないものとなっております。障害にはさまざまなケースがありますが平均的な障害回復に必要となるコストは数百万 ~ 数千万円となります。また、障害による業務停止などの影響を鑑みた機会損失額は数億円以上に及ぶことも稀ではありません。金融システムや EC サイト / 決済サイトなどの障害は大きな社会的影響を及ぼします。

今回提供の「将来予測オプション」は、これら IT システム障害を未然に防ぐことで課題を解決いたします。

情報システム障害の多くは、IT システムの Observability を実現することで、回避することができます。Observability 実現の第一歩は各システムコンポーネントの性能状態を長期にわたり詳細に収集し、統計的な手法で将来のトレンドを予測することからはじまります。キャパシティ予知 / 昨対比較により、長期的な設備投資計画の立案はもとより増強が必要となる数か月前にアラートを通知して、リソースひっ迫による障害を回避することができます。

また、長期にわたり詳細に収集したデータから、平常時の状態把握、曜日や時間帯、イベントやキャンペーンによる突発的なリソース変化を学習 / 比較 / 予測し、回避行動を促すための予兆を検知することができます。特に、新規システムのリリースや拠点変更、回線やサーバー入れ替え、パッチ適用などの前後におけるデータの変化を確認することは、障害を回避するうえで重要なポイントになります。

IT システムの運用監視 / 運用管理分野において、導入実績 1,000 社以上、IT システム機器の監視数 1,800万 項目以上のライセンス販売実績を誇る System Answer シリーズに、キャパシティ予知 / 昨対比較 / 変動検知といった未来予測機能を追加しました。これにより、今まで過去のログ情報や監視データの収集・可視化・分析をもと にした事後対応が中心であった IT システム運用のありかたを、世界に先駆けて(当社調べ)未来予測を実現することで IT システム運用をプロアクティブな事前対応に変え、運用にかかわる TCO を大幅に削減することが可能となります。

System Answer G3 は過去(ログ監視)から未来予測へ!

キャパシティ予知機能

将来、リソースが最大値やしきい値を超える状況を検知し、アラート通知をします。
ディスク容量やメモリー使用率などのトレンド(傾向)から、最大値やしきい値を超える時期を予測し、アラートを通知することで、リソース使用状況が限界となる 3 か月 ~ 1 年先の IT システム障害を回避する対策を講じることができます。

今までの障害対応は、障害発生後にいかに早く障害復旧ができるかという点に主眼が置かれていました。しかも障害復旧時間のほとんどは障害箇所の特定に費やされています。
今回リリースするキャパシティ予知機能では、長期的な観点で特定のリソースに障害が発生する日時の予測が可能であり、今までのように障害復旧時間を短縮するものではなく、障害発生そのものを未然に防ぐものです。
また、長期のトレンドでは十分なリソースが確保されていると想定していても、実際には新システムのリリースや多様な働き方などによって、短期間にトレンドが急激に変化することも稀ではありません。キャパシティ予知機能では、サンプリングデータとして平均値や最大値を選択可能であり、サンプリング期間も長期、中期、短期などお客様リソース毎に任意の期間に設定可能ですので、高い精度の予測を実現します。

  • しきい値を超えそうな 6 か月前 / 3 か月前 / 1 か月前にアラートを通知します。
  • アラートには予測グラフが添付され、リソース枯渇時期を早期に的確に判断することができます。
  • しきい値(デフォルトは 100 % になる日)やアラート発報のタイミングは、お客様ごと任意に設定可能です。
  • 1 か月、3 か月、6 か月、1 年のトレンド値をもとに平均、最大での将来予測をおこないます。

活用例

■メモリーリークの早期発見

1 か月程度の短期トレンドから、メモリ使用率の上昇傾向を検知
→メモリリークにより、将来(9 か月後)、枯渇することを事前に発見できた。

メモリー使用率

メモリー使用率

■SSL-VPN 装置の CPU 負荷の増加

3 か月程度の長期トレンドから、CPU 使用率の上昇傾向を検知
リモートアクセス増加に伴う、CPU 負荷が増加しており、将来(4 か月後)、リソース不足によるトラブルが発生するリスクを事前に発見できた。

CPU使用率

CPU 使用率

■ネットワークの遅延を発見

1 か月程度の短期トレンドから、レスポンスの上昇を検知
ネットワークの構成変更に伴うネットワーク遅延の発生を発見できた。

レスポンス

レスポンス

レスポンスのイメージグラフ

イメージグラフ

■キャパシティ予知の活用シーン

検知したい事象監視項目最大値任意のしきい値

上限・下限の注意 / 警戒 / 警告

期間

※ 任意で指定可能

ディスクの枯渇ディスク使用量搭載量(自動)ユーザー設定長期(6 か月~1 年)
ディスク使用率100 %(自動)
メモリーリークメモリー使用量搭載量(自動)ユーザー設定短期(1 か月)
メモリー使用率100 %(自動)
コネクション処理限界コネクション数ユーザー設定
カタログスペック
ユーザー設定中長期(3 か月~1 年)
温度上昇温度ユーザー設定ユーザー設定短期(1 か月)

今年のピークはクリアできますか? ピーク月も安心して休めます!

昨対比較機能

昨年の月別の実績値と今年の経過月の昨対平均倍率を算出し、掛け合わせることにより、将来月の予測値を算出します。この予測値がしきい値を超過する際に、アラートを通知します。
主にゴールデンウィーク、お盆、年末年始などの将来の季節変動月において、リソースの最大値 / しきい値を超えないかを判断することができます。

生活様式の変化による在宅時間の増加にともない、新製品のキャンペーン企画やクリスマスセール、年末年始セール時など Web サイトに想定以上のアクセスが集中し、動作が重くなったり、Web サイトがダウンしてしまい多額の機会損失に見舞われる事例が多発しています。昨対比較機能では、去年から今年にかけてのサイト利用者数の増加によるアクセス数や CPU、メモリー使用量などの増加分を予測して、今年のキャンペーン時に必要なリソース必要量を判断し、不足する可能性があればアラートを通知します。運用者は事前にスケールアウトなど十分な対策をおこなうことが可能となり、安心してキャンペーンを乗り切ることができます。

  • 購入済みライセンスの全項目を対象として、お客様の指定の条件にあたるリソースを抽出します。
  • 過去の対象データの開始月はお客様が任意に設定し、そこから 12 か月を昨年分として計算します。
  • バッチ処理アラートとして、月初に 1 回アラートを通知します。
  • アラートには予測グラフが添付されます。
  • 今年のピークを乗り切れるかどうか、早期に的確に判断することができます。

活用例

昨年からの増加率(約 120 % 増)を考慮すると、今年の年度末(3 月)に、機器性能を超えるアクセスが発生する可能性があることに、事前に気づくことができ、早期対策を打つことができた。

昨対比較

■昨対比較の活用シーン

検知したい事象監視項目最大値任意のしきい値

上限・下限の注意 / 警戒 / 警告

処理

最大 or 平均

新システムリリース後のシステム変動CPU 使用率100 %(自動)ユーザー設定最大値
コネクションユーザー設定最大値
レスポンス(HTTP)ユーザー設定平均値
決算月における
DC 向け通信によるNW 負荷限界
CPU 使用率100 %(自動)ユーザー設定最大値
ルーティングパケットユーザー設定
カタログスペック
最大値
トラフィックIF 速度(自動)

契約帯域を設定したい場合はユーザー設定

最大値、平均値
レスポンス(ICMP)ユーザー設定平均値

設定変更や本番リリースは人ではなく System Answer G3 が立ち会います!

変動検知機能

過去の性能データから周期性がある傾向を自動学習し、ベースラインを作成します。このベースラインから外れたイベントを自動的に検知し、異常変動としてアラートを通知します。
この機能を使用することで、IT システム運用で発生するシステム更改前後、新規システムのリリース、ソフトウェアのバグによる不定期な障害やパッチ適用後の有人監視から、エンジニアを開放することが可能となります。

今まで

  • Web ショッピングサイトの利用ユーザーから、「IT システムの動きが遅い」、「サービスが使えない」などのクレームが寄せられる
  • 運用担当者がIT システムのリソース状態を確認するも、死活監視で異常は見られず、原因特定に時間を要する
  • ようやく昨日パッチを適用したシステムに関連する機器で、スループットの低下を確認
  • 該当パッチを戻し復旧したが、多くの機会損失と顧客離反を招くこととなった。

変動検知を利用すると

  • 「いつもと違う動き」を検知し、運用担当者に異常リソースのグラフを添付してアラートを発報
  • アラートにより機器が特定されているため、運用担当者は即座に、昨日のパッチ適用が原因と判断
  • ワークフローにより自動的にパッチを戻すことで、機会損失と顧客離反を回避。自動化することで、運用担当者が立ち会う必要が無くなった

一般的な死活監視では、性能低下を検知することが難しく、障害としてアラートを通知できませんでした。そのためお客様などの利用ユーザーからクレームを受けて、初めて障害に気づくことになります。障害に気づいてから、原因特定さらに復旧までには相当の時間を要し、その間にお客様の離反や多額の売上機会損失を招くこととなります。
変動検知機能では、たとえばパッチ適用後に「いつもと違うリソースの変動」があれば即座に該当リソースの異常が検知され、パッチを一旦戻すなどの対処が速やかにおこなわれ、大きな障害を未然に防ぐことができます。
また、新システムリリースやソフトウェアの不具合などにより、急激なリソース上昇の変動も検知可能ですので、しきい値での監視では見過ごされていたサイレント障害に対しても有効に機能します。アラート検知後の処理をワークフロー化することで、設定変更や本番リリース時の運用担当者の立ち合いは不要となります。

  • 平常時の状態把握、曜日や時間帯、イベントやキャンペーンによる突発的なリソース変化を予測することができます。
  • ベースラインとしての学習対象から除外する曜日・日付(休日など)を、カレンダーから任意に設定可能です。
  • 異常をアラートをとして検知させない曜日・日付も、カレンダーから任意に設定可能です。
  • アラートには異常部分のグラフが添付され、どのようにいつもと違う動きをしたのかを確認することができます。

活用例

■トラフィックの減少の検知

突然トラフィックが急激に減少したことを検知した。システムのダウンしていなかったが、サービスが正常に稼働していないことに気づくことができた。

トラフィック

トラフィック

■いつもと違うトラフィックの発生の検知

夜間に、普段以上にトラフィックが発生していることを検知した。不審な通信かどうか調査するきっかけとなった。

検知したトラフィック
普段のトラフィック

■変動検知の活用シーン

検知したい事象監視項目過去データ通信量の増加処理
パッチ適用後におけるリソース変動CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション
有り無しBasic
新システムリリース後のシステム変動リリース直後CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション
無し有りStatic
リリース 1 週間以降有り無しBasic
老朽化対策によるリプレイス前後のリソース変動トラフィック量
コネクション
有り無しBasic
システム増強を目的としたリプレイス前後のリソース変動リリース直後CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション
有り有りStatic
リリース 1 週間以降有り無しBasic

運用課題を解決するためのプロセス

「キャパシティ予知」「昨対比較」「変動検知」を実装することで、トラブルに強い運用体制を構築でき 、運用コストの削減も望めます。さらに、トラブルの原因を先回りして対処しておくことで、将来的に障害をおこさない IT インフラ体制を目指すことができます。

キャパシティ予知 / 昨対比較

将来リソースがひっ迫する状況を予測し、トラブルの原因になりそうなところを先回りして検知 / 解決します。

障害を起こさない IT インフラ構築

変動検知

過去のデータから導き出した傾向をもとに、IT システムの異常変動をもれなく検知 / 把握します。

トラブルに強い運用体制構築

◆ 資料ダウンロードはこちら

キャパシティ予知 / 昨対比較
ご紹介資料

CONTACT

お気軽にお問い合わせ下さい