COLUMN

コラム

第97回:AIOps により IT 障害をゼロにする運用 DX への取り組み

春の訪れとともに今年も “あれ” がやって来ました・・・。そう、花粉です !!  春という季節が、旬の味覚以外にも、スギにヒノキに、旬の嗅覚 (?) としてやって来たのかと思うと憂鬱だったりします。

噂の花粉については、人工知能(AI)の力による超高精細の「AI 花粉予報」なんていうサービスも存在します。AI と人との関わりが強く深いものになってきましたね。


その AI ですが、弊社でも IT システム情報管理ソフトウェア「System Answer G3」への AI を使った機能実装に向けて検討してきました。このコラムでは、今後、どのような機能を実装しようと考えているかをお伝えできればと思います。

まず弊社が掲げるミッション、それは「IT 障害をゼロにする」ことです。
このミッションを達成するために AI を通して System Answer に以下のような機能を実装していこうと考えています。

1.予兆検知
2.自動制御
3.運用支援

比較的、一般的な AI の使い方を提示していますが、これら機能を実装するうえで、弊社 System Answer シリーズがどのような変遷をたどってきたのか、簡単にですがご紹介させてください。

少し古いですが、System Answer G2 の機能にさかのぼります。

 

 

System Answer G2 では、 “ベースライン” という機能を実装しました。静的なしきい値では判断できない、サイレント障害や普段との動きの違いを検知する場合にお使いいただける機能です。具体的には、AI でいうところの教師なし学習、変化点や振る舞い検知といった機能を、2013 年ごろから提供しています。また、このベースラインを利用し、様々な機器情報をビッグデータ化した、Global Baseline サービスも実装されました。

 

 

その後、後継の System Answer G3 では “キャパシティ予知”“昨対比較”“変動検知” といった機能へ変貌を遂げていきました。

 

 

System Answer G3 の強みである長年蓄積された監視データによって、異常を検知、将来を予測することが可能となりました。AI に限らず、上記のような予測、予知、検知には、過去データがどうしても必要です。これはどのような AI の仕組みを使ったとしても、通常値、異常値の判断を学習させ、その値をもって、初めて比較判断できるからです。

※各機能の詳細はこちら
キャパシティ予知
昨対比較
変動検知

これまで System Answer G2、G3 で実装してきた機能では、取得した値が過去の学習状況とどの程度違いがあるのか、その値は特定の範囲内かどうかをイベントとして捉え、お客様に通知をおこなってきました。いわゆる教師なし学習によって判断するような機能となっています。
ここまでの機能は AI ではなくても、単なる数値の学習モデルとその仕組みだけで判断することが可能です。
ただ、この異常値の判断が非常に面倒です。振る舞い検知、周期、パターン分析だけではノイズの除去が難しく、判断ができないことも非常に多かったのです。このような機能部分は、開発する中でも非常に苦労した点でした。

 

今後の AI との関係性について:「予兆検知」「自動制御」「運用支援」の実装に向けて

まず、先に挙げた1.「予兆検知」は、キャパシティ予知、昨対比較、変動検知などで提供してきた機能に近いのですが、集めたデータを高度分析し、障害の予兆だけではなく障害の原因特定につなげます。これによって、人手によって経験・勘・想像で運用してきたデータ分析を機械化することで、今まで見えてこなかった傾向や予兆を把握することが可能になります。そのためにも、データの保存期間、アラートやイベントのデータ、その他の状況を理解し、答えを出さなくてはなりません。
例えば、トラフィック流量が急に下がるサイレント障害が発生したとします。
・下限静的しきい値にも反応しない程度の変動が発生
・普段との違いで振る舞い検知によって反応
この振る舞い検知は、System Answer G3 でもイベントとして確認できる部分です。
ただし、このトラフィック流量が下がった原因として何があったのか、そこが重要です。単体の事象であれば機器障害、ケーブル劣化など疑うことができるかもしれませんが、他の機器の影響の可能性もあります。このような他の機器との関係性、相関関係に AI を使って分析し、原因特定につなげたいと考えています。また、既存の将来予測オプションには、外的要因を含めたかたちでの IT インフラの将来予測ができる機能も検討していきたいと考えています。

一方、2.「自動制御」は非常にわかりやすいかと思います。
予兆検知の機能をベースに AI + 自動運用 が 「自動制御」です。予兆検知された可能性の情報を使い、対象の環境の調査、そのパターンを検知し、場合によってはサービスの再起動やネットワークの変更などを実施します。この予兆を検知した情報が正しいかどうか、できる限り人手を使わなくても判断できるような解析構造が必要になってきます。

IT の運用は、非常に多岐にわたるようになってきました。情報システム部門は 10 年前に比べてより高度な知識や迅速な対応を求められています。
そのため、3.「運用支援」は、日々の運用をいかに適切に間違いなく運用できるかを支援できるような機能として提供できればと考えています。代表的な機能としては、レポート機能やトラブルの管理になるかと思います。発生したイベントが自動的に処理され、あたかも問題がなかったかのような状況になる(これは自動制御によって提供されます)だけではなく、何が起きたのかを把握する必要があるためレポートの提出や原因特定が必要になるかと思います。理由を調べ、ログを確認し時系列にまとめる作業は心が折れる作業ですね・・・。そんなとき、同様の事象が無いか、他の機器のログを確認しレポートしてくれる、関連する構成に影響がないかを調査する機能があればいかがでしょうか? 作業負荷も気持ちも軽くなるのではないでしょうか。

弊社では、収集したデータをどのように扱うべきか、その手段、手法はどうするべきかを長年に渡って模索してきました。AI の時代に、特別な技術ではない運用管理という分野にどのような機能を提供すれば良いか考え続けています。

情報システム部門の課題解決に向けて、今後も手を止めずに開発を進めていきたいと思います。

 

by プロダクト開発部 部長 種田 聡幸

一覧を見る

CONTACT

お気軽にお問い合わせ下さい