システム運用（可用性管理） - 社内SEになりました

システム運用の可用性管理の説明です。

サービスレベル管理、キャパシティ管理ときて、今回は可用性管理。

そもそも何故これらを分ける必要があるのか、正直なところ、良くわかりません。

少なくとも私は実業務として分けて管理したことはありませんし、分ける必要性を感じたこともありません。

謎です・・・。

１．サービスレベル管理やキャパシティ管理との違い

サービスレベル管理は広く浅く、キャパシティ管理は狭く深く、可用性管理はその中間といったイメージです。

キャパシティ管理が上手くいかなければ、可用性が損なわれ、サービスレベルも低くなります。

でもキャパシティ管理だけきちんとすれば良いわけではなく、障害時の復旧手順の整備などを怠れば、可用性が低くなり、サービスレベルも低くなります。

同様にサービスデスクの対応が悪ければ、可用性に問題はなくても顧客満足度が下がりサービスレベル管理としては問題となります。

このように、管理する範囲（広さ）としては、キャパシティ管理＜可用性管理＜サービスレベル管理となります。

次に管理する大変さ（深さ）です。

キャパシティ管理は、やりだすとキリがないくらい、いろいろな管理項目があります。

CPU使用率、メモリー使用率、DISK使用率の管理は当然として、JAVAヒープの使用率やDBのフラグメント、さらにはアプリケーションのオンラインレスポンスなど、大規模でミッションクリティカルなシステムだと、さまざまな角度からシステムのリソース不足やその予兆がないか監視をしていきます。

キャパシティ管理を除いた可用性管理は、そこまでの大変さはなく、障害の分析がメインになり、どうすれば障害対応時間を短くできるか、とか、そういった管理になっていきます。

可用性管理を除いたサービスレベル管理になると、さらにできることは限られて、定期的に顧客に満足度調査をして、満足度を向上させるために何をすれば良いのかを考えたりしますが、できることはかなり限られます。

f:id:SystemEngineers:20210402212755p:plain

２．可用性管理の評価

可用性管理のプロセスの活動の成功度合いを評価するための主要なKPIの一番は、なんといっても稼働率です。

SLAではほぼ例外なく目標稼働率が設定されるので、その目標稼働率を達成できているかどうかが、可用性管理の評価の最重要指標となります。

他にもMTBF（平均故障間隔）やMTBSI（平均サービス・インシデント間隔）、MTRS（平均サービス回復時間）といったマニアックな指標を用いたり、非可用性から生じるコストの削減率なんていう指標を用いたりすることもあります。

f:id:SystemEngineers:20210403184456p:plain

【振り返り】

可用性管理の説明は以上で終了となります。次回はITサービス財務管理の説明をしていきたいと思います。

①インシデント管理
②問題管理
③構成管理
④変更管理
⑤リリース管理
⑥サービスデスク
⑦サービスレベル管理
⑧キャパシティ管理
⑨可用性管理
⑩ITサービス財務管理
⑪ITサービス継続性管理