COLUMN

コラム

第60回:機械学習や IoT 、機器監視で活用される時系列データの解析方法と評価のポイント

AI の機械学習や IoT 、機器監視などで活用されることの多いセンサー機器などから生成される時系列数値データですが、多量に発生する数値データのため、一見すると状況や状態がつかみにくいという特徴があります。

今回のコラムは、System Answer G3 をはじめとするシステムの時系列データを取得する監視ツールにて、取得したデータから有用な情報をピックアップする方法と、その後の解析方法についてお伝えします。運用監視にこの時系列データをどのように有効活用していくのか?については、本コラムの第 24 回 ~ 第 28 回に記載がありますので、そちらをご参考いただければ幸いです。

第 24 回:レポート運用を変えてみませんか?
第 25 回:改めて、性能監視とは
第 26 回:性能監視から捉えるもの
第 27 回:性能品質を把握する方法とは
第 28 回:管理・運用と性能監視

まず、時系列データのピックアップ方法について解説します。時系列データとは、「時間で遷移する値の集合」と定義できるかと思います。System Answer G3 で取得する CPU データであれば、下記のようなイメージです。

 

 

値に時刻という付帯情報があり、値が時間を追って推移するものです。このようなデータはグラフ化した場合、どの時刻で値が変化したのかという推移を把握することは容易なのですが、多量のデータからピックアップするには工数が必要です。

この多量のデータに対して網羅性を得るためには、ある一定期間の平均や最大、95 % タイル(後ほど解説いたします。)を帳票形式にサマライズして、ピックアップをおこなっていくことになります。これは、月次報告などでよく利用していることと思います。そのような帳票で、値そのものへのしきい値、前回値との比較をおこない、その上昇下降傾向からどの監視対象に着目すべきかをピックアップしていきます。

帳票に記載する値をサマライズする方法として、平均、最大、95 % タイルなどが挙げられます。95 % タイルとは、時系列データを正規分布としてとらえ、値の上位 5 % を省いた最大値をその値としています。(100 % - 5 % = 95 % 、よって 95 % タイルと呼称しています。)

これらの値を今回(指定期間、例えば前月)、前回(今回より以前の期間、例えば前々月)の期間を指定し取得および比較します。このようなサマライズからの情報で、網羅性を担保しつつ監視対象のピックアップをおこないます。

ピックアップ後は、値の評価をおこないます。値の評価をおこなうにあたって、

  • 単純に値そのものが評価される監視対象(エラーパケット数、廃棄パケット数など)
  • しきい値をもって評価される監視対象(ストレージ使用量、使用率、レスポンスなど)
  • システムの内容によって評価されるもの(CPU 使用率、メモリー使用率など)

を確認していきます。

 

評価ポイント 1
値そのもので評価をおこなう代表的な監視対象として、エラーパケット数、廃棄パケット数が挙げられます。特に、エラーパケットは、正常に動作しているネットワークで発生することは非常に稀です。以前は、サーバーの再起動時や LAN ケーブルの挿抜時に発生することがありましたが、昨今のサーバーやネットワーク機器では見受けられなくなりました。

これらの監視対象は、常に 0 であるか、ネットワークの仕様によって定期的なタイミングで定量的に発生(冗長化構成となっている場合に発生することがあります。)すること以外には、見受けられません。よって、サマライズされた値そのもので判断が可能になります。

評価ポイント 2
しきい値で判断していく監視対象の中で、代表的なものはストレージ使用量、使用率があります。これは、ご認識の通り 100 % であると、すでに問題ですのでこちらも判断が容易です。これに比べて、レスポンスは SLA(Service Level Agreement)を規定し、しきい値を設けていても判断が難しいものとなります。

下記グラフは、弊社デモサイトにて「http://www.google.com」の http レスポンス時間を監視対象とした 1 ヵ月分を表示しています。

 

 

グラフ中の凡例から最大値や平均値を確認できます。最小値をグラフで確認すると 200 msec 前後ですが、凡例からは 74.35 msec となり一致しません。これは、デフォルトではグラフが最大値を用いて描画されているためです。System Answer G3 のグラフは、横軸が 500 ピクセルで描画されています。

それに対して 1 ヵ月分のデータは、44,000 個前後(= 60 分 × 24 時間 × 28 日 ~ 31 日)となります。グラフ上にはすべてのデータをポイントできないため、1 ピクセルを表現するために代表の値を決定するのですが、それを最大値として指定しているためです。1 ヵ月であれば、44,000 個 ÷ 500 ピクセル = 88 個 / ピクセルとなり、約 88 分間中の最大値を代表値としてグラフに描画しています。

 

次に、最小値を基準に設定すると、以下のようなグラフが得られます。

 

 

凡例に表示される最小値をグラフから読み取ることができます。

続いて、平均値を基準にすると次のようになります。

 

 

平均値周辺にグラフ描画されました。このように、どの値を基準にするかにより、グラフの表現や読み取り方が変化します。

 

さらに、最大値のグラフで突出した値を省いた 95 % タイルが、どのような値をとるか確認します。

 

【最大値 + 95 % タイル】

 

 

【最小値 + 95 % タイル】

 

 

【平均値 + 95 % タイル】

 

95 % タイルの値が変化していることが確認できます。これは、95 % タイルがグラフ上の数値をもとに算出されているためです。

 

最大値、最小値、平均値それぞれに活用方法があります。

最大値グラフピーク時間帯、ピーク値の把握最大値グラフでは、繁忙期にそのシステムの応答時間がユーザーからのクレームと連動したものではないかの確認に利用できます。最大値や 95 % タイルを超えたタイミングでの CPU 使用率やトラフィックの負荷、廃棄パケットの発生を確認し、その遅延が発生した原因を分析します。
最小値グラフシステムの未負荷時の値把握最小値のグラフでは、特にレスポンスの場合、WAN 越しのレスポンスを取得することにより、回線遅延を把握することができます。回線遅延を把握することで、その値以上に速くすることができないことが確認できますので、WAN 越しに遅延に敏感な音声などのトラフィックに対して対応の検討が可能かと思います。また、自ネットワークに変更がなく WAN の経路が変更された場合など、グラフ上に変化が明確に表れます。
平均値グラフ平均的な負荷時の値把握、相関関係把握平均値のグラフでは、SLA に対してシステムが基準を満たしているかなどの確認に利用できます。満たしていない場合は、最大値と同様に原因の分析を開始します。

 

評価ポイント 3
最後に、システムの内容によって評価しなければならない CPU 使用率やメモリー使用率、使用量についての評価方法を解説します。特に、CPU 使用率はネットワーク機器を除き、サーバーなどで動作しているアプリケーションやバックアップなどにより、100 % を記録されていても問題ない場合があります。

下記は、デモサイト環境で、日次バックアップ、週次バックアップを疑似的に再現させた CPU の負荷をグラフ化したものです。

 

 

日々の負荷は 40 % ですが、バックアップ時には高い負荷を示しています。これを帳票で把握することは、難しい条件です。

例えば、1 日に 2 時間(120 個のデータ)のバックアップをおこない、その間 100 % 近くの値を記録している場合、1 日の集計結果の 5 % を超えます。(約 8.3 %)よって、最大値はともかく 95 % タイルであっても、100 % 近くの値を記録します。また、平均値もその値に左右されます。さらに、データベースサーバーなどはメモリーをデータベースソフトウェアで確保してしまい、メモリーの変動が見受けられない場合が多くあります。

このような場合、そのサーバーで稼働しているアプリケーションへのレスポンスを監視対象とし、負荷の変動とレスポンスが相関していないか確認していくこととなります。つまり、遅延の発生がサーバーの負荷の変動と関連していくか確認が必要となります。レスポンスの変動と CPU やメモリー、トラフィック量の変動は、1 分単位のグラフでも完全に一致しない場合があります。そのため、それぞれ平均値のグラフを作成し、ある一定時間の変動が、相関を持ったものかどうか確認していくこととなります。

また、定期的な変動であるかどうか確認する方法として、「ベースライン」のグラフで確認することが有効な場合があります。

 

 

グラフ上、赤色ラインが実取得値、水色ラインがベースライン、ピンク色が標準偏差で取得した過去の値の変動域です。上記のグラフは、変動域を超えている部分はほぼないため、定常定期な動作をおこなっていると考えられます。

この他、カスタマイズされた帳票作成ツールでは、就業時間帯のみの集計をおこなうことも可能ですので、これを利用して集計をおこないピックアップすることも有効な手段です。

対象となる時系列データは、確認すべき監視対象が多いほど何を確認すべきか、そのピックアップに時間がかかります。監視対象が少なければ、すべてを確認することは容易ですが、多い場合はかなり難しいこととなります。よって、帳票が表現するサマライズされたデータから網羅的に把握し評価することが必要になります。分析すべき時系列データを的確にピックアップし、分析することで適切な対応を事前に検討することが可能になります。

System Answer G3 では、API を利用して自身が取得した情報を効率的に外部に取り出せる機能を持っておりますので、別売の Stats Option や Excel レポートツールなどを利用して、この帳票を作成することが可能です。

【Stats Option】

 

【 Excel レポート】

 

System Answer G3 では、ベースラインや傾向把握、3 段階しきい値など、多彩なアラートを発報します。しかしながら、すべてのアラートを通知した場合、通知が多くなり緊急性が高い事象か否か判断が難しくなります。よって、通知ではなく定期的な監視データの確認は、システムの改善には必須の行動であるといえます。

多彩なシステムの詳細な時系列データの取得およびグラフ化は、System Answer シリーズの必須の命題であります。弊社は、System Answer G3 を通じて、お客様システムの安定稼働に貢献いたします。

 

by プロダクト&サービス統括部 コンサルティンググループ グループリーダー 井上 周洋

 

一覧を見る

CONTACT

お気軽にお問い合わせ下さい