前回の「kanshi de mirai」では、人海戦術からの脱出というテーマで、監視業務、運用における問題点や検討すべき内容についてご紹介しました。
今回は「死活監視から性能監視、そして性能管理へ」と題しまして、ICTサービスにおいて監視を行う目的や、さまざまな監視形態についてお話しをしたいと思います。
現状行われている監視に対して、少しでも改善や最適化のヒントになれば幸いです。
◇なぜ監視を行うのか?
監視を行う目的は様々です。
ICTサービスから離れて、少し視野を広げてみると、監視カメラなんかも監視の部類に入るかと思います。
なぜ監視カメラを設置するのか?
ではなく、必要があって監視カメラを設置し、運用しているわけです。
防犯目的や、記録を残す必要があるといった目的もあるかもしれません。
少し極端な例をあげましたが、達成すべき目的に対して監視という手段を講じているということを忘れてはいけません。
ICTサービスに話を戻しましょう。
ICTサービスは、企業活動においてなくてはならないサービスインフラとなっており、このインフラを安定的に運用することはもちろんのこと、戦略的にITを活用し、仕事の効率を上げることや、画期的なサービスで利益を上げることが命題となっています。
では、安定的にICTサービスを運用するには、何をすべきでしょうか?
ネットワーク機器やサーバ機器を安定的に運用する為に、必要な監視とは何かを考えてみましょう。
監視といってもさまざまな形態があり、企業規模や業務内容によっても監視のレベルや手法が異なることを注意しなければいけません。
一般的に監視の目的は、以下であると考えます。
- 障害検知
機器やサービスの障害を検知すること
障害が発生した機器の特定や、障害の影響範囲を正確に把握できること - 予防保守
障害が発生する予兆を把握し、障害を未然に防ぐこと - キャパシティ管理
ICTサービスを構成する機器のリソースやネットワークの利用状を把握し、キャパシティにあった機種選定や計画的な設備投資を行うこと
それぞれの目的に対して、どのような監視手法を取るべきかを以下に記載します。
◇監視手法
・死活監視
最もベーシックな監視形態のひとつかもしれませんが、ICMP(ping)を用いて対象の機器に対しての応答を確認する手段です。
この手段では、機器がダウンした際に初めて気づくことになり、その直前に何が起きていたのかわかりません。
障害を検知するという目的に対しては、一部に関しては達成しているかもしれませんが、なぜ応答がなくなったのか、何が原因でその障害が発生しているのかをその時点から切り分けを開始することになり、根本的な原因をとらえることができず、結果的にハードウェアを交換しても障害が再発するという悪循環になる可能性もあります。
また、ポートのリンクダウンや冗長構成の切り替わりなど死活監視では発見できない障害も数多く存在します。
・ログ監視
死活監視での不足点を補う手段として、ログ監視というものがあります。
一般的には、syslogやsnmp trapを用いて監視対象機器からのメッセージを管理する手法となります。障害を検知する為の重要な手段になりますが、すでに事象が発生してからの対応となる為、予防保守やキャパシティ管理を行う為の手段としては不十分です。
・性能監視
トラフィック量やCPU使用率などの情報やネットワーク機器やサーバに対しての応答時間を定常的に取得する監視手法になります。
性能監視で取得した情報から「いつもの状態」を把握し、そこからの変化を検知することで、システムに何か変化があったということを把握することが可能となります。
その事象が発生した原因を特定し対応を行うことで、重大な障害に発展する前に未然に対応する予防保守を実現することが可能となります。
また、すでに障害が発生してしまった場合も、直前にどのような変化があったのかを把握することができる為、障害の根本的な発生要因を突き止めることも可能となり、障害を復旧する為の正しい手段を講じることができます。
また、取得した情報を長期的に保存し管理することで、過去の傾向から需要予測を立て、
計画的に設備投資を行うといったキャパシティ管理も行うことが可能となります。
◇性能管理の実現
性能監視で性能情報を取得するだけでは意味がありません。
取得した性能情報を定常的に分析することで、はじめて性能管理を実現することができます。
また、管理すべき内容に関して全ての機器で同一の指標で行う必要はないということも気をつけなければいけません。
管理すべきICTインフラで提供されているサービスの重要度や機器に対してのサービスレベルは異なりますし、機器の種別(ルータ/SW/サーバなど)によっても着目するべき監視項目や管理手法は異なります。
その為、性能管理を行う為の第一歩としては、監視ツールを入れて監視を始めることよりも前に、そこで提供されているサービスと、そのサービスを構成する機器を正確に把握することが重要です。
そこからサービスの重要度やそれぞれの管理すべき機器に対してどのような管理を行うかを決定し、監視を行うことで、効果的な性能管理を実現できると考えられます。
現在すでにさまざまな監視ツールで運用を行われているということであれば、今一度、それぞれのツールの利用状況が目的にかなった監視手法なのかを見直してみてはいかがでしょうか。
現在あるツールや人的リソースを十分に活用することは大変重要なことではありますが、非効率であったり、目的にかなっていない監視手法を取られたりしているようであれば、今すぐ改善すべきです。
監視間隔や監視項目、管理手法について見直しを行うことで、運用を効率化し監視レベルを向上し安定的なICTサービスの運用を行うことが可能になると考えます。
次回のテーマは「運用の課題と解決」です。
by コンサルティング部 明星 誠