Allegro, ma non troppo

17/03/2010

Eén van onze storage-servers is een Sun Oracle X4540. Leuk ding, 48 sata disks verspreid over 7 controllers, Solaris met ZFS erop, vlamt vooruit. Een tijdje terug kregen we melding van het fault management systeem dat er een disk stuk was. Niet zo’n probleem, dat ding is over-redundant en een spare disk had de defecte schijf vervangen. Intussen was Sun Support een disk aan het versturen naar hier voor we “failed disk” konden zeggen aan telefoon.

Vandaag was Bram in het datacenter waar die server staat voor de installatie van een paar andere servers, en zou hij de disk swappen. Nu produceren 48 disks nogal wat warmte en staan er dan ook grote gevarendriehoeken op alle instructie-handleidingen van de server. Je moet de disks binnen de minuut vervangen, anders is de “airflow” te lang verstoord en riskeer je oververhitting. Bram stond dus klaar in Ninja-style: de nieuwe disk in de rechterhand, oude disk losklikken met het linkerhand en zo snel mogelijke wisselen.

Te snel blijkbaar! De storage-node was een beetje in de war door Bram’s moves, en Jan en ik kregen de ene foutboodschap na de andere inconsistente status van het besturingssysteem. Wat blijkt: Bram had de disks te snel gewisseld, waardoor de controller niet genoeg tijd had gehad om te registreren dat de foute disk weggenomen werd.

Pro-tip van de dag: als je disks moet wisselen in een server, doe dat “gezwind, maar niet te snel”!


Er zijn 6 reacties op dit artikel:

  1. Serge van Ginderachter says:

    17/03/2010

    Schitterend :)

    (en ook van mij een dikke proficiat btw ;-) )

  2. Paul Cobbaut says:

    17/03/2010

    man man man dat is spijtig zeg. Ik dacht dat iedereen al jaren wist dat ge minstens tien/twintig seconden moet wachten als ge een disk hot swapped.

    Het zal wel iets te maken hebben met de RAID controller die maar om de x seconden polled naar die failed disk...

    goed van u om het te bloggen!

  3. Mike says:

    17/03/2010

    De merknaam Sun blijft, voor zover ik hier begrepen heb, bestaan voor de hardware. En entity merge in België gebeurt niet voor 1 juli, dus tot dan blijft het voor de Belgische klanten Sun Microsystems. ;-)

  4. Ringo De Smet says:

    02/04/2010

    Misschien moet je evalueren of je van die RAID (brol) vanaf wil. Kom eens tot in Lochristi waar we de next-gen storage oplossing gebouwd hebben: Dispersed Storage. Neem eens een kijkje op de website!

  5. Frank says:

    14/04/2010

    @Ringo aan je bijzonder arrogante toon (die nergens op slaat), de nietszeggende website en het feit dat je over Lochristi spreekt, doet me vermoeden dat dit a-server-storage-redux is? Ik hoop dat jullie intussen al verder staan dan 2 jaar terug? Toen had je quasi identieke website, maar bitter weinig werkend!

    Bovendien heeft dit niks met raid, maar wel met hot-swap te maken. Zelfs als ik geen RAID zo draaien op die dozen, heb je dat probleem. Graag beetje genuanceerder met je "brol" commentaar aub.

  6. Filiep says:

    25/04/2010

    Wat een beest van een storage zeg... Ik veronderstel dat m'n VDS der ook op draait :-)

    trouwens, @frank: mooie reply :-)

Reageer op dit artikel: