Welch Ironie! In den letzten Tagen berichtete ich ja mehrfach über die Probleme mit der Seagate-Firmware. Heute früh im Postfach dann die klassische Meldung vom 3Ware-Monitoring-Daemon per Mail und via
dmesg auf der entsprechenden Kiste dann diese Loglines:
3w-9xxx: scsi0: AEN: ERROR (0x04:0x0009): Drive timeout detected:port=1.
3w-9xxx: scsi0: AEN: ERROR (0x04:0x0002): Degraded unit:unit=0, port=1.
3w-9xxx: scsi0: ERROR: (0x03:0x0101): Invalid command opcode:opcode=0x85.
3w-9xxx: scsi0: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
3w-9xxx: scsi0: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
3w-9xxx: scsi0: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Auf gut Deutsch heisst das, die eine Platte im RAID1-Verbund hat sich verabschiedet. Standesgemäß laut Murphy natürlich in einem sehr wichtigen Datenbankserver. Klassiker halt. Ich dachte natürlich sofort an den Firmware-Bug. Da aber der Server nachweislich in den letzten 50 Tagen nicht ge-rebootet wurde, kann es das nicht sein.
Also beim Dealer des Vertrauens schnell eine Ersatz-HDD (Samsung allerdings, Seagate bleibt derzeit wohl eher im Laden liegen) und ins Rechenzentrum geeilt. Die Last auf dem Server ist seitdem Ausfall kurioserweise gut angestiegen. So war die LoadAvg bisher immer deutlich unter 1.0 - nun sind es 3.x. Warum das genau der Fall ist, weiss ich nicht wirklich. Ist mir bei bisherigen Ausfällen auch nicht aufgefallen. Auf jeden Fall machen auf dem Server (MySql-NDB-Node) die schreibenden Zugriffe (Logging) locker 90% der Plattenzugriffe aus. Auf "normalen" Servern ist ja i.d.R. genau das Gegenteil der Fall.
Im Rechenzentrum angekommen packte mich der Wahnsinn - ich zog die defekte Platte während des Betriebes raus und schob die neue Samsung rein. In Erwartung eines Serverabsturzes vergingen bange Sekunden, bis folgende Loglines die Stimmung in Begeisterung umschwenkten:
3w-9xxx: scsi0: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
3w-9xxx: scsi0: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.

Der 3Ware 9650-SE ist also tatsächlich HotSwap-fähig. Sehr nett, schließlich führten solche Aktionen soweit ich weiss bei den 7000ern und 8000ern zu komischen Effekten bis hin zum Absturz. Nun läuft seit 5 Stunden das Rebuild, erreicht sind aber bisher nur magere 14%. Aber wir haben ja Zeit.

Gespannt bin ich nur noch darauf, ob die Last sich dann endlich wieder in normale Regionen orientiert.
Die ausgebaute Seagate-Platte musste sich dann bei uns im "Labor" (siehe Foto) natürlich diversen Tests unterziehen. Während der Short-Test via Seagate's Toolkit "SeaTools" wenigstens noch durchläuft - zwar mit Fehlern - verabschiedet sich die Platte beim Intensivtest direkt und ist erst nach erneuter Stromzufuhr wieder ansprechbar. Klassischer Fall für die Tonne also, in unserem Fall also für die Rekla.