読んだらわかる!システム管理講座
あなたの会社でどうやって監視を始めるか − 死活監視とは?
公開日:2011年10月14日(金)
1 . 死活監視とは
システム管理者がより堅牢なシステム、さらに安定したサービス稼働率を目指し力を尽くしても、絶対に故障しないシステムは存在し得ません。サーバー稼働状況を管理し、停止したサービスをいち早く見つけ、迅速な復旧作業を行うのも、システム管理者の重要な責務となります。
こうした、サービス稼働状況の監視を行うシステムでも最も基本的かつ重要なのが、サービスが稼働しているかどうかを検知する「死活監視システム」です。本記事では、死活監視の概説と実導入・運用について解説します。
死活監視とリソース監視
死活監視とは、サービスの稼働状況を管理する様々なシステムのうちの一つです。もちろん、監理者自らがサービスやサーバーの状態を直接目視したりという人力監視も可能ですが、24・365体制で複数台のサーバーを監視、また障害発生時に効率よくその情報を受け取るためには、ソフトウェアやアプライアンスを用いた死活監視システムの導入が必要となります。
監視にはもう一つ、処理能やメモリ、ディスクIOやネットワークIOなどの使用状況を把握する「リソース監視」もあります。上記の死活監視が可能なソフトウェアやアプライアンスには、このリソース監視の機能も併せ持つものがあり、グラフなどを使った視認性の良いインターフェースで、死活監視のみの場合よりも長いスパンでシステムの負荷状況を把握し、より高度な監視管理を行うことができます。
死活監視とは
まず導入すべきなのが死活監視システムです。ダウンタイムの許されないサービスであればあるほど、ダウン時の機会損失の度合いは計り知れないものになります。システム障害時をあらかじめ想定し迅速な対応に当たれる体制を整えておくことがシステム管理者には重要な仕事になります。
死活監視ソフトウェアやサービスを利用する場合は、あらかじめ設定された頻度でのping送信などにより、定期的・恒常的にサービス死活状態が監視され、この際にサービスダウンなどが検知されると、その旨を伝える情報がメールなどなんらかの方法で管理者に通知されたり、自動復旧が行われたりなどして、事態の復旧が促されます。
死活監視の導入方法はいくつかあり、下記のように、導入の手間や機能拡張といった点で、それぞれに様々な特長があります。
担当者への 依存度 | 構築の工数 | 機能 | 機能拡張の容易性 | 運用サポート | ||
自作の簡易 スクリプト (Ping程度) | 多 | 中 | 低 | 低 | 開発でいかようにもなるが、手間が多く、担当者個人への依存も高くなる。 | 問題があっても誰にも頼れない。 |
特化型 ソフトウェア (Nagiosなど) | 中 | 多 | 高 | 高 | 監視コマンドの定義・新規作成で、幅を広げやすい。予めプラグインも豊富にある。 | WEB・書籍等で情報を得られる。 |
総合監視 ソフトウェア (Hinemosなど) | 中 | 多 | 高 | 中 | 別途オプション購入で拡張可能。自身での拡張も可能だが、Manager/Clientの双方に変更を加える必要がある。 | WEB・書籍等で情報を得られる。有償サポートに加入することも可能。 |
アプライアンス (EasyBlocksなど) | 少 | 少 | 中 | 中 | WEB I/Fでの設定に対応していない項目も、設定の直接編集で利用可能。 | ハードウェアを含めシステム一式での有償のサポートが得られる。 |
まずは自作スクリプトやソフトウェアとして導入するケースについて、次ページで見てゆきます。