TOPICS
特集ページ
最終更新日:2024 年 7 月 8 日 System Answer G3 は IT システムの未来を予測します! 将来予測オプション『キャパシティ予知』『昨対比較』『変動検知』 ※ 機能は予告なく変更される場合があります 情報システム障害の多くは回避することができる IPA(独立行政法人 情報処理推進機構)が 2010 年から社会に影響を与え全国紙などに報道された情報システムの障害情報を集計している「情報システムの障害状況一覧」によると、2019 年後半における障害は 84 件(消費増税関連を除く)ありました。 System Answer G3 は過去(ログ監視)から未来予測へ! キャパシティ予知機能 将来、リソースが最大値やしきい値を超える状況を検知し、アラート通知をします。 今までの障害対応は、障害発生後にいかに早く障害復旧ができるかという点に主眼が置かれていました。しかも障害復旧時間のほとんどは障害箇所の特定に費やされています。 活用例 ■メモリーリークの早期発見 1 か月程度の短期トレンドから、メモリ使用率の上昇傾向を検知 メモリー使用率 ■SSL-VPN 装置の CPU 負荷の増加 3 か月程度の長期トレンドから、CPU 使用率の上昇傾向を検知 CPU 使用率 ■ネットワークの遅延を発見 1 か月程度の短期トレンドから、レスポンスの上昇を検知 レスポンス イメージグラフ ■キャパシティ予知の活用シーン 上限・下限の注意 / 警戒 / 警告 ※ 任意で指定可能 今年のピークはクリアできますか? ピーク月も安心して休めます! 昨対比較機能 昨年の月別の実績値と今年の経過月の昨対平均倍率を算出し、掛け合わせることにより、将来月の予測値を算出します。この予測値がしきい値を超過する際に、アラートを通知します。 生活様式の変化による在宅時間の増加にともない、新製品のキャンペーン企画やクリスマスセール、年末年始セール時など Web サイトに想定以上のアクセスが集中し、動作が重くなったり、Web サイトがダウンしてしまい多額の機会損失に見舞われる事例が多発しています。昨対比較機能では、去年から今年にかけてのサイト利用者数の増加によるアクセス数や CPU、メモリー使用量などの増加分を予測して、今年のキャンペーン時に必要なリソース必要量を判断し、不足する可能性があればアラートを通知します。運用者は事前にスケールアウトなど十分な対策をおこなうことが可能となり、安心してキャンペーンを乗り切ることができます。 活用例 昨年からの増加率(約 120 % 増)を考慮すると、今年の年度末(3 月)に、機器性能を超えるアクセスが発生する可能性があることに、事前に気づくことができ、早期対策を打つことができた。 ■昨対比較の活用シーン 上限・下限の注意 / 警戒 / 警告 最大 or 平均 契約帯域を設定したい場合はユーザー設定 設定変更や本番リリースは人ではなく System Answer G3 が立ち会います! 変動検知機能 過去の性能データから周期性がある傾向を自動学習し、ベースラインを作成します。このベースラインから外れたイベントを自動的に検知し、異常変動としてアラートを通知します。 今まで 変動検知を利用すると 一般的な死活監視では、性能低下を検知することが難しく、障害としてアラートを通知できませんでした。そのためお客様などの利用ユーザーからクレームを受けて、初めて障害に気づくことになります。障害に気づいてから、原因特定さらに復旧までには相当の時間を要し、その間にお客様の離反や多額の売上機会損失を招くこととなります。 活用例 ■トラフィックの減少の検知 突然トラフィックが急激に減少したことを検知した。システムのダウンしていなかったが、サービスが正常に稼働していないことに気づくことができた。 トラフィック ■いつもと違うトラフィックの発生の検知 夜間に、普段以上にトラフィックが発生していることを検知した。不審な通信かどうか調査するきっかけとなった。 ■変動検知の活用シーン 運用課題を解決するためのプロセス 「キャパシティ予知」「昨対比較」「変動検知」を実装することで、トラブルに強い運用体制を構築でき 、運用コストの削減も望めます。さらに、トラブルの原因を先回りして対処しておくことで、将来的に障害をおこさない IT インフラ体制を目指すことができます。 キャパシティ予知 / 昨対比較 将来リソースがひっ迫する状況を予測し、トラブルの原因になりそうなところを先回りして検知 / 解決します。 障害を起こさない IT インフラ構築 変動検知 過去のデータから導き出した傾向をもとに、IT システムの異常変動をもれなく検知 / 把握します。 トラブルに強い運用体制構築 ◆ 資料ダウンロードはこちら
(参考:https://www.ipa.go.jp/sec/system/system_fault.html)
アイビーシーによる分析の結果、多くの情報システム障害は回避できた可能性がありました。
近年のリモートワークの増加やクラウド利用の推進など、ビジネス環境の急激な変化にともない情報システムの運用は日々複雑化する一方で、IT システム障害が経営におよぼす影響は計り知れないものとなっております。障害にはさまざまなケースがありますが平均的な障害回復に必要となるコストは数百万 ~ 数千万円となります。また、障害による業務停止などの影響を鑑みた機会損失額は数億円以上に及ぶことも稀ではありません。金融システムや EC サイト / 決済サイトなどの障害は大きな社会的影響を及ぼします。
今回提供の「将来予測オプション」は、これら IT システム障害を未然に防ぐことで課題を解決いたします。
情報システム障害の多くは、IT システムの Observability を実現することで、回避することができます。Observability 実現の第一歩は各システムコンポーネントの性能状態を長期にわたり詳細に収集し、統計的な手法で将来のトレンドを予測することからはじまります。キャパシティ予知 / 昨対比較により、長期的な設備投資計画の立案はもとより増強が必要となる数か月前にアラートを通知して、リソースひっ迫による障害を回避することができます。
また、長期にわたり詳細に収集したデータから、平常時の状態把握、曜日や時間帯、イベントやキャンペーンによる突発的なリソース変化を学習 / 比較 / 予測し、回避行動を促すための予兆を検知することができます。特に、新規システムのリリースや拠点変更、回線やサーバー入れ替え、パッチ適用などの前後におけるデータの変化を確認することは、障害を回避するうえで重要なポイントになります。
IT システムの運用監視 / 運用管理分野において、導入実績 1,000 社以上、IT システム機器の監視数 1,800万 項目以上のライセンス販売実績を誇る System Answer シリーズに、キャパシティ予知 / 昨対比較 / 変動検知といった未来予測機能を追加しました。これにより、今まで過去のログ情報や監視データの収集・可視化・分析をもと にした事後対応が中心であった IT システム運用のありかたを、世界に先駆けて(当社調べ)未来予測を実現することで IT システム運用をプロアクティブな事前対応に変え、運用にかかわる TCO を大幅に削減することが可能となります。
ディスク容量やメモリー使用率などのトレンド(傾向)から、最大値やしきい値を超える時期を予測し、アラートを通知することで、リソース使用状況が限界となる 3 か月 ~ 1 年先の IT システム障害を回避する対策を講じることができます。
今回リリースするキャパシティ予知機能では、長期的な観点で特定のリソースに障害が発生する日時の予測が可能であり、今までのように障害復旧時間を短縮するものではなく、障害発生そのものを未然に防ぐものです。
また、長期のトレンドでは十分なリソースが確保されていると想定していても、実際には新システムのリリースや多様な働き方などによって、短期間にトレンドが急激に変化することも稀ではありません。キャパシティ予知機能では、サンプリングデータとして平均値や最大値を選択可能であり、サンプリング期間も長期、中期、短期などお客様リソース毎に任意の期間に設定可能ですので、高い精度の予測を実現します。
→メモリリークにより、将来(9 か月後)、枯渇することを事前に発見できた。
リモートアクセス増加に伴う、CPU 負荷が増加しており、将来(4 か月後)、リソース不足によるトラブルが発生するリスクを事前に発見できた。
ネットワークの構成変更に伴うネットワーク遅延の発生を発見できた。検知したい事象 監視項目 最大値 任意のしきい値 期間 ディスクの枯渇 ディスク使用量 搭載量(自動) ユーザー設定 長期(6 か月~1 年) ディスク使用率 100 %(自動) メモリーリーク メモリー使用量 搭載量(自動) ユーザー設定 短期(1 か月) メモリー使用率 100 %(自動) コネクション処理限界 コネクション数 ユーザー設定
カタログスペックユーザー設定 中長期(3 か月~1 年) 温度上昇 温度 ユーザー設定 ユーザー設定 短期(1 か月)
主にゴールデンウィーク、お盆、年末年始などの将来の季節変動月において、リソースの最大値 / しきい値を超えないかを判断することができます。検知したい事象 監視項目 最大値 任意のしきい値 処理 新システムリリース後のシステム変動 CPU 使用率 100 %(自動) ユーザー設定 最大値 コネクション ユーザー設定 最大値 レスポンス(HTTP) ユーザー設定 平均値 決算月における
DC 向け通信によるNW 負荷限界CPU 使用率 100 %(自動) ユーザー設定 最大値 ルーティングパケット ユーザー設定
カタログスペック最大値 トラフィック IF 速度(自動) 最大値、平均値 レスポンス(ICMP) ユーザー設定 平均値
この機能を使用することで、IT システム運用で発生するシステム更改前後、新規システムのリリース、ソフトウェアのバグによる不定期な障害やパッチ適用後の有人監視から、エンジニアを開放することが可能となります。
変動検知機能では、たとえばパッチ適用後に「いつもと違うリソースの変動」があれば即座に該当リソースの異常が検知され、パッチを一旦戻すなどの対処が速やかにおこなわれ、大きな障害を未然に防ぐことができます。
また、新システムリリースやソフトウェアの不具合などにより、急激なリソース上昇の変動も検知可能ですので、しきい値での監視では見過ごされていたサイレント障害に対しても有効に機能します。アラート検知後の処理をワークフロー化することで、設定変更や本番リリース時の運用担当者の立ち合いは不要となります。検知したい事象 監視項目 過去データ 通信量の増加 処理 パッチ適用後におけるリソース変動 CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション有り 無し Basic 新システムリリース後のシステム変動 リリース直後 CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション無し 有り Static リリース 1 週間以降 有り 無し Basic 老朽化対策によるリプレイス前後のリソース変動 トラフィック量
コネクション有り 無し Basic システム増強を目的としたリプレイス前後のリソース変動 リリース直後 CPU 使用率
メモリー使用量(率)
トラフィック量
コネクション有り 有り Static リリース 1 週間以降 有り 無し Basic
CONTACT
お気軽にお問い合わせ下さい
03-5117-2780