VMware/サーバー/ネットワーク監視ツール
COLUMN
2011.09.30

第5回:1分間隔の壁 ~その先にあるもの~

今お使いの監視製品は、何が良くてお使いでしょうか。

■フリー(無料)で使えるから
■前の担当者が使っていたから
■ほかに良い製品に出会わないから
■監視はしていない・・・

他にも多くの理由があるかと思います。

ところで、その監視製品はどのような監視間隔でSNMPを使って(または他のプロトコルで)監視対象機器と通信しているかご存知でしょうか。1秒間隔ですか?1分間隔ですか?5分間隔ですか?もっと大きな間隔でしょうか・・・。また、なぜその間隔で監視するのでしょうか・・・

前回までの「kanshi de mirai」では、弊社の性能監視における考え方やSystem Answer G2 Datacenter Wareのご紹介をさせていただきました。今回は、技術者、開発者から見た監視間隔について、「1分間隔の壁 ~その先にあるもの~」のお話をしたいと思います。

弊社のBTmonitor、System Answer、System Answer G2は性能情報を1分間隔で監視する事ができます。この監視間隔には過去培ってきた経験と実績が詰まっています。

では、なぜ1分間隔の監視が必要なのでしょうか・・・・

弊社が起業したころ、ネットワークのコンサルティングをおこなう時にはフリーツールを使ってお客様のネットワークを監視し、問題点の把握、提案をおこなっていました。しかし、フリーツールを使った5分間隔や10分間隔の監視では、短時間で発生してすぐに収束してしまうトラフィックやパフォーマンスの問題に気がつきにくい事がわかり、1分間隔で監視ができる性能監視アプライアンス製品BTmonitorをリリースしました。

では、1分より短い時間での監視は必要ないのでしょうか。1ホストあたり多くの監視項目を要求するような場合、10秒、30秒間隔の監視では対象となるシステムの負荷(SNMPの処理負荷)が高くなる場合がありました。監視することでシステムの負荷が上がってしまうというのでは、本来の目的を考えると全く意味がありません。

このように検証した結果、実際にコンサルティングをおこなう上で必要な情報をそろえるためにも1分間隔の監視が重要であるという結論に達しました。

ただ「監視間隔が1分」を達成するためには、製品を開発する上で越えなくてはならない壁がいくつもありました。

現行の主力製品、System Answerは、

  • 500ホスト、10000項目を監視する
  • メール、Trap、Syslog、回転灯へアラートを通知する

といった処理を1分間隔でこなします。このように文字で書いてしまえば非常に簡単に感じますが、System Answerの前身、BTmonitorの頃から考えると倍以上のパフォーマンスを出すことを前提に設計、開発をおこなう必要がありました。※BTmonitorでは、200ホスト、4000項目が最大です。

■1分以内に処理しなくてはいけないのか

まず、1分以内におこなわないといけない処理と1分以上かかっても問題ない処理に分けました。振り返れば結果は単純な事ですが、その効果は非常に大きかったと感じます。例えば、すべての処理が1分以内を目標にしていた場合、全てに対応するようにアプリケーションの修正だけではなく、安全を考慮しより高速で大型なアプライアンス用のハードを選択する事になっていたでしょう。お客様が望んでいることは、きちんと監視ができていること、問題の把握ができること、経過的に見るための監視データが保管されていることです。運用者が、起きた問題の把握がすぐにできないようでは、監視製品の意味がなくなってしまうと考えています。

■アラートの通知のまとめ通知

例えば、監視結果のアラートはすぐにほしいと思いますが、監視データはある一点のデータだけで見るわけではないため少しゆっくり動かすことができます。ゆっくり動かすことで、システム全体の余裕が生まれ、重要視されるアラートの通知を優先することができます。

ただ、アラートは通知先が回転灯の場合とメールの場合では、大きくふるまいを変える必要がありました。回転灯の場合、通知されるアラートが何種類あったとしても同時に複数のパターンを表現することが難しい、そして回転灯への通知が連続して発行された場合、回転灯のシステムが受付を停止してしまう事がありました。そこから、回転灯へは通知間隔内でまとめて通知するなど同じような通知を省略して通知するようにしました。

■応答負荷による応答遅延が発生

開発をおこなっていく中で特に大きなポイントとなったのは、「監視対象の応答負荷による応答遅延」でした。全体として、応答遅延が発生するような監視対象は少ないですが、監視データが集まらないことや、応答に耐え切れずアラートになってしまう監視機器がありました。

● あるロードバランサーでは、連続して100ms以内に要求を受けたSNMPパケットは3sec遅延させて応答します

● あるセキュリティ機器ではSNMP V3 のみ対応しているが、そのSNMP V3の応答処理にCPUの資源を大量に利用します

このような情報を一つ一つ集めることで、1分(60秒)の制約内でどのように監視対象の負荷を考えながら監視をおこなえば良いか検討し実装しました。細かな監視対象の負荷を考慮したSNMPパケットの送出をおこなうよう設計しています。

■1分の壁、その先にあるもの

クラウドサービスを展開している企業やショッピングサイトを運営している企業など、多くの企業のシステムは、どんな原因にせよサービスの停止が許されなくなってきています。クラウドサービスの事業者は、サービスが停止することで非常に多くの企業から信頼を失うことになります。また、ショッピングサイトの停止は、売上に直結し利益を失いかねません。弊社では、そのような環境に対して、多くの性能監視情報を1分間隔で取得し、問題があれば通知先の特性に合わせて通知し可視化する。このような単純作業を、監視機器対象の特性を考慮しながら丁寧に監視していくことを目標に製品開発をしてまいりました。

弊社の製品は、お客様目線で求められるものをお客様と一緒に開発することで成長してきました。こうした試行錯誤の中で生まれた製品が、System Answer であり System Answer G2 です。可視化の真の意味や力を感じるためにも、1分間隔の監視で、今まで見えなかった情報をつかみ取っていただければと思います。

次回のテーマは「人海戦術からの脱出」です。

by 開発部 種田 聡幸

お電話でのお問い合わせ
受付 9:30〜17:30(平日)
トップに戻る
上に戻る