Nødvendig med error-sjekk av disker?

chessinn · 13. april 2010

I vår bedrift kjører vi Windows 2003 Server med svært driftskritiske systemer, noe som gjør at vi nær sagt ikke kan ha noe nedetid i det hele tatt. I rutinene for vedlikehold av serverne står det at det skal kjøres diskkontroll/error-checking av disker en gang i kvartalet. Men dette tar jo da ca 1t til sammen på begge diskene, og så lenge kan ikke serverne ligge nede.

Lurte derfor på om det er nødvendig å kjøre denne sjekken? Har den noen viktig funksjon i det hele tatt så lenge det ikke er noen feil på server som vi vet om, det er kun for vedlikehold?

Pleier dere å kjøre denne rutinen på deres servere? Evt. hvilke andre vedlikeholdsrutiner har dere for serverparken deres?

Chessin

xcomiii · 13. april 2010

Løsningen som de fleste bruker, er jo cluster av flere servere, da får du bare et ørlite brudd når du switcher over. Men avhenger av hva slags applikasjon som kjører da, SQL, Exchange, web eller?

chessinn · 14. april 2010

Vi kommer til å sette opp cluster etterhvert, men vi har ikke mulighet til å gjøre dette foreløpig.. Bruker i hovedsak SQL, web og en egenutviklet applikasjon. Forandringene i data er ikke ekstremt store gjennom en dag..

**aklla** · 14. april 2010

Jeg har aldri sett nytten i det.

Sett opp skikkelig hardware-overvåking og du kan ofte bytte diskene før de ryker.

f.eks HP SIM eller Fujitsu Siemens ServerView funker godt til slikt.

Jeg har lite/ingen vedlikeholdsrutiner på hardware på servere, de sier ifra selv når noe er feil eller på vei til å bli feil.

Regner med at du har raid?

Da er det jo ikke noe problem om 1 disk ryker.

Endret 14. april 2010 av aklla

conundrum · 14. april 2010

I vår bedrift kjører vi Windows 2003 Server med svært driftskritiske systemer, noe som gjør at vi nær sagt ikke kan ha noe nedetid i det hele tatt. I rutinene for vedlikehold av serverne står det at det skal kjøres diskkontroll/error-checking av disker en gang i kvartalet. Men dette tar jo da ca 1t til sammen på begge diskene, og så lenge kan ikke serverne ligge nede.

Lurte derfor på om det er nødvendig å kjøre denne sjekken? Har den noen viktig funksjon i det hele tatt så lenge det ikke er noen feil på server som vi vet om, det er kun for vedlikehold?

Det kan oppstå to forskjellige typer dataødeleggende feil på disksystemer over tid: Feil på selve diskoverflaten (mediet), og feil i det overliggende logiske filsystemet. (I tillegg kommer selvsagt total hardwaresvikt, men det er en enten/eller-problemstilling, og ikke noe man kan avdekke ved å kjøre tester.)

Filsystemer akkumulerer feil over tid. Hva som er årsakene til dette, skal jeg ikke forsøke å teoretisere omkring, men det er et faktum at så skjer. I noen tilfeller oppdager man slike feil ved at en server ikke booter etter en omstart, fordi den ikke klarer å lese kritiske systemfiler, f.eks. en registerfil i Windows. Jeg har sett dette skje med NTFS-volumer i Windows 30-40 ganger i løpet av de siste 10 årene, hvorav kanskje 10-12 tilfeller var på servere.

I sånne tilfeller må filsystemet repareres og evt. skadede filer legges tilbake fra backup. Det kan fort bli mange timers nedetid av slikt. Regelmessig kjøring av chkdsk kan forebygge hele problemstillingen ved at feilene repareres før de blir kritiske.

Den andre feilsituasjonen handler om at det utvikles dårlige sektorer på harddisker over tid. Det er kanskje i enda større grad en snikende trussel, og problemet blir større jo større harddisker man benytter.

Forestill deg følgende: Du lagrer et hundretalls gigabyte på et disksett over en periode på 3-4 år. Mesteparten av disse dataene bruker du ikke til dagen, og hvis du i tillegg bruker et avansert backupsystem med deduplisering og inkrementelle backup'er, oppdager du ikke at noen av sektorene som inneholder dataene, ikke lenger er lesbare. Den dagen du trenger dataene, får du ikke lest dem, og må håpe at du kan få dem tilbake fra backup. Etter å ha fikset disksystemet, selvsagt.

En enda verre variant av ovenstående er denne: Du har en uoppdaget, dårlig sektor på en harddisk. Kanskje er ikke sektoren i bruk en gang. Harddisken er en del av et RAID-sett, og en dag ryker en av diskene. Disken som går i stykker, er ikke den som har den dårlige sektoren. Du bytter disken, og starter rebuild av RAID-settet, noe som går greit helt til systemet oppdager den dårlige sektoren på en av de gjenværende diskene. Du kan da risikere at RAIDet ditt går offline og du må sette alt opp fra bunnen av.

Mine anbefalinger:

1. Kjør RAID 6 i stedet for RAID 5 når det er snakk om RAID-sett på flere terabyte.

2. Kjør alle disksystemer i (hardware-)RAID-systemer som kan foreta verifisering av diskene mens systemet er aktivt. Kjør dette ukentlig. Du oppdager da alle dårlige sektorer før de blir et problem.

3. Partisjoner diskene i flere mindre, hensiktsmessige partisjoner, og bruk oppmonterte partisjoner i mapper for å unngå enorme enkeltpartisjoner. Dette reduserer tiden det tar å kjøre filsystemsjekk, og begrenser konsekvensene av en filsystemfeil på en partisjon.

4. Kjør omstart og chkdsk/fsck i forbindelse med vedlikeholdsprosedyrer. Ta ikke alle partisjonene samtidig, men sørg for at alle blir sjekket innenfor et rimelig tidsrom, f.eks. et halvår.

5. Sett opp redundante systemer der pkt. 3 ikke er en praktisk gjennomførbar løsning.

xcomiii · 14. april 2010

Kjører du VMWare med SAN, er det langt lettere å oppnå høyere oppetid, hvis dere har råd til det. Genialt å kunne foreta oppgraderinger/firmware/BIOS updates på en og en boks av gangen uten at brukerne merker noe, og det på dagtid.

Har du SAN som er satt skikkelig opp av leverandøren, foretar SAN'et som regel selv all feilsjekk kontinuerlig og evt varsler om det skulle være noe fare, dog med unntak av logiske filsystemfeil, noe jeg har sett sjeldent de siste årene. Det var ofte et problem i NT4.0 tiden.

Uansett, eneste måten å sikre seg mot hardware feil, er å kjøre cluster og redunans på alle andre systemer (switcher, UPS, firewall, internettlinjer osv).

chessinn · 16. april 2010

Takk for knallgode svar folkens! Nå vet jeg mer hva jeg skal gjøre, kjekt med folk som kan det

Logg inn

Nødvendig med error-sjekk av disker?

Anbefalte innlegg

chessinn

Lenke til kommentar

Videoannonse

xcomiii

Lenke til kommentar

chessinn

Lenke til kommentar

aklla

Lenke til kommentar

conundrum

Lenke til kommentar

xcomiii

Lenke til kommentar

chessinn

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Bør USA overta gaza?

Hvem er aktive 0 medlemmer