Allegro, Ma Non Troppo
Eén van onze storage-servers is een Sun Oracle X4540. Leuk ding, 48 sata disks verspreid over 7 controllers, Solaris met ZFS erop, vlamt vooruit. Een tijdje terug kregen we melding van het fault management systeem dat er een disk stuk was. Niet zo’n probleem, dat ding is over-redundant en een spare disk had de defecte schijf vervangen. Intussen was Sun Support een disk aan het versturen naar hier voor we “failed disk” konden zeggen aan telefoon.
Vandaag was Bram in het datacenter waar die server staat voor de installatie van een paar andere servers, en zou hij de disk swappen. Nu produceren 48 disks nogal wat warmte en staan er dan ook grote gevarendriehoeken op alle instructie-handleidingen van de server. Je moet de disks binnen de minuut vervangen, anders is de “airflow” te lang verstoord en riskeer je oververhitting. Bram stond dus klaar in Ninja-style: de nieuwe disk in de rechterhand, oude disk losklikken met het linkerhand en zo snel mogelijk wisselen.
Te snel blijkbaar! De storage-node was een beetje in de war door Bram’s moves, en Jan en ik kregen de ene foutboodschap na de andere inconsistente status van het besturingssysteem. Wat blijkt: Bram had de disks te snel gewisseld, waardoor de controller niet genoeg tijd had gehad om te registreren dat de foute disk weggenomen werd.
Pro-tip van de dag: als je disks moet wisselen in een server, doe dat “gezwind, maar niet te snel”!
Member discussion