28. 障害発生時の対応判断:ロールバックか、継続的な改善か
「戻すか、進めるか」のジレンマ:時間的プレッシャー下での意思決定
障害対応の現場では、時間的制約から「とにかく動く状態に戻したい」という心理が働きがちです。しかし、安易なロールバックは、根本原因の特定を遅らせる原因となり、根本的な解決を遠ざけるリスクを伴います。
意思決定のフレームワーク:リスクと影響度の定量化
この判断は、感情論ではなく、事前に定義された「リスク評価マトリクス」に基づいて行うべきです。システムを「機能しているか(可用性)」と「正しい状態か(正確性)」の二軸で評価することが基本となります。
状況に応じた3段階の判断プロセス
以下のフローに従って、対応の優先順位を決定します。
| ステップ | 評価軸 | 判断基準と取るべきアクション |
|---|---|---|
| 1. 影響範囲の特定(Scope) | 影響を受けている機能やユーザー層の範囲を特定する | 影響が限定的(特定機能のみ)であれば、その機能のみを隔離し、残りのシステムは稼働させ続ける(機能制限/Feature Flagの活用) |
| 2. 原因の特定度合い(Certainty) | 障害の原因が「特定できているか」を評価する | 原因が特定できていない場合、ロールバックは「安全策」として検討するが、原因特定にリソースを集中投下する期間を設ける |
| 3. 影響度と緊急度のマトリクス評価 | ビジネスインパクトと時間的制約を照合する | 【高影響度・高緊急度】:即時ロールバック(安全な過去バージョンへの復帰)を最優先。【低影響度・低緊急度】:原因特定に時間をかけ、根本解決を目指す |
ロールバックの「手順化」と「検証」の徹底
ロールバックは、単に古いバージョンに戻す行為ではありません。それは「安全な状態への復帰」というプロセスです。ロールバック手順自体を、本番環境と同じくらい厳密にドキュメント化し、テスト環境で必ずシミュレーション(Dry Run)を行う必要があります。
まとめ:リスク評価に基づいた意思決定のフレームワークを構築する
障害対応は、感情的なパニックではなく、構造化された意思決定プロセスが必要です。常に「影響範囲」「原因の特定度」「ビジネスインパクト」の3軸で状況を評価し、最もリスクの低い次のアクションを選択することが求められます。

