Performance Counter – die Basis für das Performance-Monitoring
Wie auch immer man die Leistung eines NetApp-Filers überwacht, letztendlich greift man auf die Performance Counter zu. Diese sind nach einem klar strukturierten, hierarchischen Konzept [1] angelegt.
Objekte – Exemplare – Zähler (Objects – Instances – Counter)
Die oberste Ebene stellen Objekte dar, wie zum Beispiel Volumes. Von diesen Objekten kann es nun mehrere Exemplare (engl. instances) geben, z.B. ‘vol0′, ‘backup-vol’, o.a. Jedes Exemplar besitzt wiederum ein durch das Objekt vorgegebenes Set an Zählern (engl. counter). So werden beispielsweise je Volume die read_ops, die read_latency usw. zur Verfügung gestellt.
Verwaltet werden alle diese Werte vom Counter Manager (CM), auf den über das NetApp eigene CLI aber auch via SNMP oder die NetApp-API zugegriffen werden kann.
Das Nagios-Plugin check_netapp_ops frägt zahlreiche dieser Werte ab und stellt sie für die weitere Verarbeitung in Nagios zur Verfügung.
- total_ops, read_ops, write_ops
- nfs_ops, cifs_ops, http_ops fcp_ops
- iscsi_ops, dafs_ops
- net_data_recv, net_data_sent
- disk_data_read, disk_data_written
- streaming_pkts
So kann nun einfach beim Überschreiten von Schwellwerten alarmiert werden oder an Hand von Trends, die PNP4Nagios aufzeichnet anaysiert werden. Eine Erweiterung um Werte wie latency oder cache-age ist schon angedacht. Bei Interesse kontaktieren Sie mich bitte.
[1] partners.netapp.com - Abbildung Blockdiagramm
(privates reply)
In diesem Zusammenhang bietet sich auch an, die Histogram-Counter des Filers direkt auszuwerten. Diese sind leider nicht für alle Objekte und alle Instances in der gleichen Tiefe verfügbar.
Allerdings kann man damit zB eine tail-heavy IO Last relativ rasch erkennen, und als zusätzliche Dimension in die Kapazitätsplanung mit aufnehmen.
Histogramme sind verfügbar
für jede Backend Disk (LUN bei V-Series)
für jede LUN (Frontend), getrennt nach lese/schreib IOs
für jedes „professionelle“ Protokoll (NFS, FCP, iSCSI)
für jedes Volume
für jedes IP-Interface (Frame-Size)
für Raid
für die system-CPU / Last
Allerdings sind noch nicht alle Histogramme via CM verfügbar…
Die Auswertung dieser Histogramme kann jedoch zB einen Netwisdom (FCP protokoll performance Analyser) teilweise überflüssig machen (legacy arrays liefern diese Daten meist einfach nicht).