NetApp Monitoring, v3.9.0

3.9.0 Release veröffentlicht

Das eigentlich für Herbst 2017 geplante Release 3.9.0 ist schon per sofort verfügbar. Bitte beachten Sie, dass es zu einem Wechsel des Store-Formates kommt, daher ist das Studium des Handbuches (Kapitel: Upgrading to Version 3.9.0) diesmal besonders wichtig.

Details zu den neuen Feature und Fixes finden Sie wie immer in der Release History online.

Bitte bedenken Sie bei der Planung des Upgrades, dass wir über den Sommer urlaubsbedingt nur eingeschränkt Support bieten können.

NetApp Monitoring, Performance Monitoring

Perfdata Darstellungsprobleme lösen

Keine neue Sache aber auf Grund einer konkreten Anfrage möchte ich auf den schon länger existierenden Schalter --perfdata_uom_string hinweisen. Dieser hilft vielleicht, wenn das jeweilige Monitoringsystem mit einem korrekten aber nicht darstellbaren Unit-of-Measurement (UOM)-String – also der Einheit der Performance Daten – nicht zurecht kommt.

Am Beispiel des WAFL-Checks, der den CP-Counter korrekt als pro Sekunde (/s) ausgibt kann es dazu kommen, dass das Monitoringsystem meint, es gäbe keine Performancedaten, da es mit dem String wafl=0/s nicht zurecht kommt. Die Folge sind dann u.a. leere Graphen wie unten:

image.png

Mit dem Schalter --perfdata_uom_string=persec lässt sich das ändern, dann tauchen die Perfdaten auf einmal wieder auf – und dann zeigen die Graphen auch wieder die Daten an:

image.png

NetApp Monitoring

Großschreibung bei –exclude ignorieren

Um bestimmte Instanzen von einen Check auszuschließen gibt es den Parameter ‑‑exclude=<regex>. Damit lassen sich – eine Namenskonvention vorausgesetzt – auch Gruppen von zum Beispiel Volumes ausschließen. Das kann so aussehen:

$ ./check_netapp_pro.pl Usage ‑o volume ‑‑exclude=VMWare

Damit wären alle Volumes, deren Name ‚VMWare‘ beinhaltet ausgeschlossen (AB_VMWare_vol1, AB_VMWare_vol2, …).

Der Hund liegt aber im Detail, denn sobald ein Storageadmin auf die exakte Groß-/Kleinschreibung pfeift, wird’s mühsam: Bei AB_VMWare_vol1 und AB_vmware_vol2 würde das obige Muster vorausgesetzt, nur noch ersteres ausgeschlossen werden.

Hier schafft nun der Schalter ‑‑ignore_case Abhilfe.

$ ./check_netapp_pro.pl Usage ‑o volume ‑‑exclude=VMWare ‑‑ignore_case

Damit werden nun wiederum alle möglichen und und nur schwer vorstellbaren Schreibweisen von VMWare erfasst:

  • VMWare
  • VMware
  • VmWaRe
  • vmware

Sinngemäß gleich wirkt sich ‑‑ignore_case übrigens auch auf ‑‑include aus.

Verfügbar ist der Schalter ‑‑ignore_case erstmals im RC2 für die Version 3.9.0 welcher als Version 3.8.1_05 seit heute den Teilnehmern am Beta-Programm im Q-Portal zur Verfügung steht.

NetApp Monitoring, v3.9.0

RC1 für 3.9.0 verfügbar

Zur weiteren Beschleunigung der Checks setzen wir auf eine neues Store-Format, das wir erstmals in der Version 3.9.0 einsetzen werden.
Kunden, welche das jetzt sofort testen wollen, können sich bereits den ersten Release Candidate dafür, die Version 3.8.1_04 am Q-Portal holen.
Bitte lesen Sie in der Installationsanleitung die den Checks beigepackt ist den (kurzen!) Abschnitt über das Upgrade, da die Store-Dateien vor dem Upgrade konvertiert werden müssen. Weiters bedenken Sie bitte, dass es keine Möglichkeit der Rückkonvertierung ins alte Store-Format gibt. Im Falle eines Downgrades wären also alle vorhandenen Store-Dateien zuvor zu löschen (was wie wir wissen im Allgemeinen kein Drama ist).

Abgesehen von dem beschleunigten Storeformat, werden mit dieser Version zahlreiche kleiner Bugs behoben und der neue Check  LunSize ausgeliefert. Details finden Sie wie immer in der Release History.

check_netapp_anycli, NetApp Monitoring

Failed disks auf einem Uralt-Filer alarmieren

Auf einem Ontap 8.2.4 (7mode) System sind Festplatten ausgefallen. Weder die Checks noch das CLI Kommando sysconfig -c konnte diese finden. Auch aggr status –f  meldet: „Broken disks (empty)“. Der einzige Weg, diese aufzuspüren war sysconfig -a, welches eine lange Liste ähnlich dieser hier ausgibt:


134L84  : NETAPP   X414_HV60A15 NA03 560.0GB 520B/sect (LXY…4N)
134L85  : NETAPP   X414_HV60A15 NA03 560.0GB 520B/sect (LXY…1N)
134L86  : NETAPP   X414_HV60A15 NA03   0.0GB 0B/sect (Failed)
134L87  : NETAPP   X414_HV60A15 NA03 560.0GB 520B/sect (LXY…HN)
134L88  : NETAPP   X414_S160A15 NA08 560.0GB 520B/sect (6SL…NF)

Das macht es zu einem interessanten Anwendungsfall für check_netapp_anycli.pl.

Und so werden die ausgefallenen Platten nun alarmiert:

./check_netapp_anycli.pl -H my_old_netapp --in=sysconfig --in=-a --out="Failed|failed" --like_result=CRITICAL --unlike_result=OK

CRITICAL - output matches pattern 'Failed|failed'
Bitte beachten Sie, dass sich die Syntax von check_netapp_anycli.pl mit der Version 3.8.2 (geplante Veröffentlichung Juni 2017) ändern wird. Die obige Syntax ist bereits an diese neuere Version angepasst. 
Logfile Monitoring, NetApp Monitoring

check_netapp_events weiter verbessert

Der Logfile-Checker für das EMS-Log wurde weiter verbessert:

  • Der Look-Behind-Wert kann nun auch als Anzahl an Minuten, Stunden oder Tagen angegeben werden (zum Beispiel --lookback=2h, wertet die Einträge der letzten 7200 Sekunden aus )
  • Mit dem Schalter --authfile kann auf eine Credentials-Datei verweisen werden, dann müssen Benutzername und Passwort nicht auf der Kommandozeile bzw. in der Konfigurationsdatei stehen. Diese Datei ist teilweise kompatibel mit dem authfile von check_netapp_pro (Host-Sections werden noch nicht unterstützt, siehe --help)

Da es sich nach wie vor um ein nicht-offizielles Plugin handelt, fordern Sie den Downloadlink bitte beim Entwickler an.