Die Kurzbezeichnung rm_ack steht für remove service acknowledgement. Dahinter verbirgt sich ein im Prinzip simpler Algorithmus zur Erkennung maskierter Alarme. Maskierte Alarme sind ein Phänomen, das ausschliesslich bei Mehrinstanzen-Checks, wie z.B. der gleichzeitigen Überprüfung aller Volumes auf einem NetApp-Gerät auftritt. Kurz zusammengefasst kann es dabei passieren, dass ein wegen eines bestimmten Volumes kritischer Servicecheck im Nagios bestätigt wird (Service Acknowledgement) wodurch keine weiteren Alarmmeldungen versendet werden. In der Zwischenzeit kann jedoch ein weiteres – vielleicht wichtigeres – Volume ebenfalls kritisch werden. Der Gesamtcheck war jedoch schon kritisch und ist bestätigt worden. Somit bekommen die zu alarmierenden Personen keine aktive Benachrichtigung darüber, dass ein weiteres Volume auszufallen droht. Mit anderen Worten: Der erste Ausfall und dessen Bestätigung, maskiert alle weiteren Ausfälle – daher der Name Alarmmaskierung.

Der mittels --rm_ack aktivierte Algorithmus überprüft nun auf Basis der vorhergehenden Check-Ergebnisse, ob es einen Ursachenwechsel im Vergleich zum letzten Check gibt. Sollte er erkennen, dass es bei einer der Instanzen zu einer Verschlechterung gekommen ist veranlasst das Plugin zweierlei:

  • Hinweis in der Nagios-Ausgabe (GUI und Alarmmeldung) auf den Umstand, dass es einen Ursachenwechsel gegeben hat und was sich verändert hat.
  • Rücksetzen des Service-Acknowledgements im Nagios, so dass Nagios wieder Alarmmeldungen verschickt.

Die folgende Tabelle skizziert den Ablauf eines Mehrinstanzenchecks (Overallcheck), bei dem Folgefehler durch das Acknowledgement (ACK) eines vorhergehenden Fehlers nicht mehr benachrichtigt werden würden.

Durch den Einsatz der RM_ACK-Funktion, werden die Bestätigungen im Nagios jedoch wieder rückgesetzt. Das Rücksetzen wird in der Tabelle durch das grüne Pfeilsymbol angezeigt.

Tabelle Ablauf Nagios Checks für NetApp