前回の「kanshi de mirai」では、監視間隔によるネットワークやサービス、監視対象機器への影響度についてご説明させていただきました。今回は「人海戦術からの脱出」と題しまして、ICTの監視業務を扱う上で人海戦術がもたらす問題がどのような影響をおよぼすかについて、お話しいたします。
■システムの代わりに人間がおこなう作業精度
少し話が脱線してしまいますが、私の失敗談です。
人海戦術の本来の意味のように、大人数ではありませんが、システム化できるものをシステム化しなかった、よくある例として記載します。
前職で私はあるECサイトの運用、そして保守まで含めて担当していました。深夜に実行した定期動作でデータが正常に取り込めているかを、毎朝7時までに自宅の回線から会社に接続し、さらに会社からお客様のネットワークに接続して動作確認をおこなっていました。毎回、面倒だなと思いつつも特に難しいことを考えずに確認していました。このような確認作業はよくある作業で問題ないと考えていたのですが、当時、なぜ定期動作の確認作業を自動化しなかったのか考えてみました。
それは、私のコストが社内で一番低かったからです。人間が作業すれば、ある意味無料、がんばりは無料であるという当時の発想だったのかと思います。ご想像の通り、後にとても大きな問題を起こしました。大人数でデータの修復をおこない、お客様からの信用を落とし、さらにお客様はECサイトを利用したお客様の信用を落としました。この時、きちんと確認したのか、取り込みの件数を認識していたのか、最終的な出力がきちんとできていたのかを再度確認しましたが、どれも「記憶」が曖昧で役に立ちません。さらに運悪くログをとっていなかった結果、「記憶」という雑な情報から「推測」し、問題を解決していくことしかありません。
結局、システムを自動化するコストの何倍もかかりました・・・・
このように、単純で定期的かつ定量的な動作は、システムに任せることで簡単に精度があがるはずです。現実的に出ていくコストを考えずに何でもシステム化できるとは考えられませんが、目の前にあるコストばかり意識せずに、潜在的なコストを考えれば何が必要か、何が重要かを再度見直すことも重要です。
■運用上の人海戦術
ICT業界は多くの人員によって支えられています。規模が大きくなればなるほど運用に携わる人員は増えていく一方です。なぜ、運用の人員が増えるのでしょうか。
現状把握の時間もないまま新しいシステムの構築が進み、インフラの信頼性向上のためにより多くの人員を投入する。
また、インフラの信頼性の向上のためにインフラの監視をおこなうが、インフラの監視業務コストが大幅に削減され、高価な製品を購入してすぐに監視が開始できない。つまり、フリーの監視ソフトや既存の運用監視システムに無理に組み込むことで、コストが削減できているように取り繕う事が多いと聞いています。フリーのソフトが決して悪いわけではありません。私が携わったお客様は、「フリーのソフトを採用する基準はコストだけである」という意見でした。本来フリーソフトは、自由度が高く、カスタマイズ性に優れ、柔軟なソフトウェアであるはずです。ただ、現状感受するのは本来の恩恵ではなく、無料であることばかりが強調されているように感じます。
フリーソフトを導入し、初めて運用を開始するような場合、何から始めるのでしょうか。
■導入前の人海戦術
一般的なフリーソフトの場合、機材の準備(VMであれば、ゲストOSの準備)、インストール作業、そして設定作業から始めます。
ただ、インストール作業の担当者、設定作業の担当者、運用する担当者含め、作られた環境の安全性をどのように担保し保証するのかを検討しなくてはなりません。
それは検証作業をおこなう方法以外ありません。どのようなパケットで監視をおこなうか、どのような間隔で、どのような通知方法で・・・・非常に多くの検討、検証項目があります。
また、データを保管しておくのであれば資源の利用法、VM環境であればリソースの利用方法など、資源に対する多くの知識と検証が必要になってきます。
例えば、
- 想像以上にディスク容量が必要
- 回線容量が必要
- インストールされた機材の保守
- OSのメンテナンス
- 同時にインストールされているアプリケーションのメンテナンス
- 代替機、スタンバイ機、冗長構成・・・・そのメンテナンス・・・・
このようなことまで考えなくてはなりません。
そして、膨大な監視対象への登録、設定作業が待っているかもしれません。毎回、必要な環境への検証作業はどの程度の時間が必要でしょうか。
■導入後の人海戦術
運用以降で大きな問題になるのは属人化です。どんなにツール、機能が優れていた場合でも属人化による影響度に勝る問題はありません。
例えば、
- 担当がいないと単純な変更もできない
- イベントが通知されたが、通知された内容がわからない(対処方法など)
- データ集計が失敗した場合に毎回手作業でフォローしている
- トラブル発生時の復旧に非常に時間がかかる
少人数で運用されているお客様からは、「運用を開始したが、やりたい事が結果としてできていない場合が非常に多い」とお聞きします。
運用規模が大きいお客様では、より問題点が大きく
- データ集計後の2次加工を毎日手作業でおこなっている
- レポート出力のために表計算ソフトなどを駆使している
- 出てきた数字の確認作業をおこなっている
- 毎日の確認作業に時間がとられ、監視システムを監視している
運用作業に人員を割く必要があり、本来の業務に支障が出ることも多々あるはずです。
弊社のお客様には、非常に多くの監視製品を検討して、弊社の製品にたどりつかれる方が多いです。ご担当者の方は知識が高く、非常に厳しい評価試験がおこなわれます。そのようなお客様には、「アプライアンスだから導入初期の負荷が非常に低くて良い、何よりマニュアルを参照しないで設定ができる。値の担保ができているので、導入までの時間が非常に短い。そして、何よりオペレーターのレベルに関係なく運用できる」というコメントをいただいております。
特に運用以降の問題点を指摘されるお客様は、過去にフリーソフトの導入、運用をおこなってきた方です。手離れの悪さや製品知識が必要で、すぐにオペレーターや保守担当が操作できないことをご存知です。運用引き継ぎのために十分な研修をおこなう、その時間は製品選定の基準から外れていることも多いかと思います。
性能監視をおこなう上で「誰でもが簡単に」そして「詳細なデータを取得」そして「取得したデータの担保ができていること」をお客様にご理解いただき、弊社の製品をご採用いただいております。「誰でもが簡単に」に関しては、運用前も、運用開始以降も非常に重要になってきます。
その製品に熟知した担当者が部署の異動や退職などでいなくなった時に運用できなくなるシステムでは、最初に目の前のコストだけで導入を判断したシステムの意味がどの程度あるのでしょうか。
このように、導入検討、値の担保と保障、運用開始後の人員配置を含めた運用を検討することで初めて高い投資対効果を得られ、満足度の高い性能監視と管理ができるのではないかと考えております。
次回のテーマは「死活監視から性能監視、そして性能管理へ」です。
by 開発部 種田 聡幸