IBM eServer xSeries 336

Wir haben bei der Freitagsrunde von diesem Modell zwei Server in Betrieb. Sie dienen uns als physikalischer Host für eine Reihe von virtuellen Maschinen.

Aber wirklich glücklich sind wir mit ihnen nicht.

Der Serviceprozessor

Die Geräte haben einen integriertes Managementmodul. Leider Segfaulten die Linuxtools dazu vor sich hin und im Kernellog kommen auch lustige Meldungen zu Tage. Immerhin findet check_mk hin und wieder die Temperatursensoren – was in einem klimatisierten Rechenzentrum wenig informativ ist – und bedingt durch das hin und wieder des Erkennens zu vielen Mails von Icinga führt. ’18 Grad OK – kein Sensor gefunden – 18 Grad OK – kein Sensor…’.

Im Kernellog findet sich derweil soetwas:

[228481.713931] IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 35, got netfn 5 cmd 2d
[228601.715547] IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 35, got netfn 5 cmd 27
[228661.769703] IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 35, got netfn 5 cmd 2d

Und die Ethernetschnittstelle des Controllers bekommt auch keinen Link.

Das Ethernet

In den Geräten verbaut sind zwei Gigabit-Ethernet NICs:  “Broadcom Corporation NetXtreme BCM5721 Gigabit Ethernet PCI Express (rev 11)” – Dummerweise vergisst eth0 fast sofort den Promiscious Mode – so dass der Betrieb einer Softwarebridge für xen unmöglich wird, weil die Pakete an die virtuellen Maschinen auf Grund der anderen MAC-Adresse sofort gefiltert werden. Und nein, die Hardware meldet nicht, dass sie den Promiscious Mode verlassen hat. Mit der zweiten On-Board-Karte funktioniert es. Treiber: tg3.

CPU complex error

Diesen hätten wir auch noch anzubieten. Taucht im Log des ILOM im BIOS auf – die Kiste steht danach. Grund unbekannt – man soll mal alle Firmwares des Servers updaten.

Rebooting due to unexpected NMI at B0ED:F000

Der kam bei uns zustande, wenn auf der Festplatte der GRUB vermutlich nicht korrekt installiert war. Szenario: Raid1, eine Platte ist defekt und wird ausgetauscht, der Versuch von der verbliebenen funktionierenden Platte zu booten (Software Raid) scheitert mit dieser Meldung. Der Server steht danach natürlich und rebootet nicht.

Das hat mich heute abend knapp 3 Stunden Lebenszeit im Rechenzentrum gekostet. Das Booten eines grml von einem USB-Stick war dann auch eine Herausforderung – bis sich ein Bootmenü vom Stick zeigte dauerte es 2 Minuten, die geduldig vor einem schwarzen Bildschirm gewartet werden musste – ein zweiter USB-Stick wurde vom Bios falsch erkannt und wollte gar nicht booten, weil angeblich auf dem image Dateien zum boot fehlten.

Finally{}

Finden tut man zu all diesen Problemen im Netz natürlich wenig bis nichts. Daher mal dieser kurze Artikel… Auch wenn die Hardware auf Grund des Alters kaum noch eingesetzt werden sollte – aber wer weiss.

Alles in allem überzeugt der Server mich nicht wirklich – wir haben einen wesentlich älteren Server im Dauerbetrieb der am Anschlag läuft und wesentlich stabiler daherkommt was derartige Zicken angeht: P4SBR supermicro.

 

 

Posted in freitagsrunde, frust, hardware, Kaputt, leid, server, Technik