スタートガイド > 3. アラートを受け取って自動対応しよう > 3-10. アラートを受け取っても、しばらく回復するのを待ちたい
3-10. アラートを受け取っても、しばらく回復するのを待ちたい
アラートを受け取っても、すぐに担当者に連絡せずに、しばらく回復するのを待ちたいケースの実現例を示します。
1. 要件
1-1. 監視対象サービス
- アラートが発生したら、件名に
ERROR
を含むメールをOpsAidへ送信する - 対象サービスの状態が回復したら、件名に
OK
を含むメールをOpsAidへ送信する
1-2. OpsAid
- 件名に
ERROR
を含むアラートを受信したら、10分後に担当者のユーザー01(組織に登録済み)に電話発信する - アラートを受信してから10分以内に、件名に
OK
を含むアラートを受信したら、電話発信をキャンセルする
2. OpsAidの登録内容
以下の内容で、OpsAid側のアラート受信準備を行います。
2-1. プロジェクト作成
1-1. プロジェクトを用意しように従って、アラートを受信するプロジェクトを作成します。 アラートを受信するプロジェクトが既に作成されている場合は、このセクションは飛ばして構いません。
プロジェクトのメールアドレスが発行されたら、メモを取っておきます。
2-2. 担当者ユーザーをプロジェクトに追加
2-1. で用意したプロジェクトに、担当者のユーザー01のユーザーを追加します。
設定方法は
3-1. アラートが発生したら担当者に電話で通知したい
> 2-2. 担当者ユーザーをプロジェクトに追加
を参照してください。
2-3. ルール登録
アラートを受信するプロジェクトに、ルールを1件登録します。
ルールの条件には以下の内容を設定します。
マッチ条件
「検知条件・キャンセル条件で設定する」のタブを選択します
- 検知条件
- 「件名」に「ERROR」が含まれる
- 待機時間
- 「10」分間
- キャンセル条件
- 「件名」に「OK」が含まれる
- 再処理禁止時間
- 「10」分間
件名に ERROR
を含むアラートを受信したら、このルールを適用します。
10分以内に件名にOK
を含むアラートを受信したら、アクション実行をキャンセルし、受信しなかった場合はアクションを実行します。
アクション設定
- 自動コール
- 呼び出し秒数: 20秒
- リトライ回数: 2
- 連絡先1: ユーザー01の電話番号
このルールが適用されたら、アラートを受信してから10分後に連絡先1のユーザー01の電話番号に電話を発信します。20秒間呼び出しを行い、応答があった場合は、結果[OK]でアクションを終了します。応答がなかった場合は、リトライ回数2回まで再度連絡先1に発信します。すべての発信で応答がなかった場合は、結果[NG]でアクションを終了します。 電話を発信する前にキャンセル条件にマッチするアラートを受信した場合は、電話の発信はキャンセルされます。
インシデント設定
-
条件にマッチした場合に作成するインシデントの設定
- ステータス: 完了
- 担当者: ユーザー01
その他の項目は任意で設定します。
3. アラート受信時の動き
上記のルールをプロジェクトに登録した状態で、監視対象サービスでアラートが発生すると、以下の流れでアラートの自動対応が行われます。
3-1. 件名にERRORを含むアラートを受信した後、10分以内に件名にOKを含むアラートを受信した場合
- 監視対象サービスから、プロジェクトのメールアドレスへ向けて、件名に
ERROR
を含むアラートを送信する - OpsAidでプロジェクトがアラートを受信する
- プロジェクトに登録されたルールに、アラートがマッチするかチェックする。アラートの件名に
ERROR
が含まれているので、作成したルールの検知条件にマッチする - ルールの検知条件にマッチしたので、自動でインシデントが起票される
- この時点でアクションは実行せずに、10分間の待ち状態となる
- 監視対象サービスから、プロジェクトのメールアドレスへ向けて、件名に
OK
を含むアラートを送信する - プロジェクトに登録されたルールに、アラートがマッチするかチェックする。アラートの件名に
OK
が含まれているので、作成したルールのキャンセル条件にマッチする - アクションの実行がキャンセルされ、インシデントのステータスが対応不要となる
3-2. 件名にERRORを含むアラートを受信した後、10分以内に件名にOKを含むアラートを受信しなかった場合
- 監視対象サービスから、プロジェクトのメールアドレスへ向けて、件名に
ERROR
を含むアラートを送信する - OpsAidでプロジェクトがアラートを受信する
- プロジェクトに登録されたルールに、アラートがマッチするかチェックする。アラートの件名に
ERROR
が含まれているので、作成したルールの検知条件にマッチする - ルールの検知条件にマッチしたので、自動でインシデントが起票される
- この時点でアクションは実行せずに、10分間の待ち状態となり、そのまま10分経過する
- 件名に
OK
が含まれるアラートを10分以内に受信しなかったので、アクションの実行が開始される - アクションの結果を受けて、ルールの実行結果が起票したインシデントに記録される
- 問題なく終了したら、インシデントのステータスが完了となる
以上で、OpsAidの自動対応が終了します。
以上の設定を行うことで、アラートを受け取っても、すぐに担当者に連絡せずに、しばらく回復するのを待ちたいケースの実現が可能です。
次は 3-11. アラートを受け取ったら、自動で復旧処理を行いたい に進みます。