Defekte Disks mittels PowerCLI in VMware vSAN identifizieren

Mai 08 2018


Zurzeit verwenden wir HPE DL380 Gen9 Server mit VMware vSAN im Hybrid Mode und hatten bisher keine Möglichkeit, bei einer defekten SSD oder Disk das richtige Teil zu identifizieren.

Seit wir uns das Update auf vSAN 6.6.1 angetan haben, ist es nun endlich möglich, das "LED locator feature" zu benutzen. Mit vSAN 6.2 gab´s damals eine geniale Fehlermeldung: LED could not be enabled. Es kann auch gut sein dass niemand den P440 RaidController im HBA Modus verwendet und bei VMware wurde das halt vermutlich auch nie getestet.

Naja, jetzt haben wir ja die neue Version, jetzt wird alles gut (dachte ich) und uns geht ein Licht auf. Dás hat auch wirklich gut funktioniert sowohl im WebClient als auch auf der Shell kann man nun die LEDs ein- und wieder ausschalten. Das einzig blöde ist nur, wir haben unsere Caching Devices (=SSD) immer im Slot 1 verbaut (3 x 8SSF Drive Cage) und wenn man nun so eine SSD per LED Locator highlighten möchte, leuchtet aber eine Magnetic Disk. WTF
Nach einigen Tests sieht es fast so aus, als ob VMware eine falsche Tabelle zum decoden der Slot/Bay Informationen verwendent.

Somit wurde es wieder Zeit für einen 3 Zeiler in Powershell. :)
Wir haben das HPE Tool "ssacli" in Verbindung mit get-esxcli verwenet, und lesen damit den verbauten RaidController samt aller SSDs/Disks aus und haben mittlerweile auch herausgefunden, wie HPE die Slots und Bays nummeriert. Somit wissen wir nun, falls ein vSAN Device kaputt gehen sollte, in welchen Slot und Bay dieses sitzt.

Aber, falls eine Disk wirklich mal komplett tot sein sollte, der "naa. identifier" (=Network Addressing Authority identifier) wird ebenso von vSAN entsorgt. Übrig bleibt nur die vSAN uuid und diese wird nun auch vom Script erfasst und ausgegeben.

Als kleine Draufgabe lasse ich mir das Ergebnis als HMTL Datei ausgeben, welche täglich generiert wird. 
Und weil´s so schön war, hab ich auch gleich die Error counter zu read und write von den smartstats ausgelesen.