Gå til innhold

esxi: disk henger


Anbefalte innlegg

Jeg har en esxi server hvor det er en single 4TB satadisk hvor vm'er som har behov for å kjøre in-guest backup har sine virtuelle backupdisker. I går kveld begynte imidlertid en merkelig på windows en 2008r2 vm som har to slike virtuelle backupdisker. VMen hang seg helt. Den måtte få en virtuell svenskeknapp - og den hang seg da på boot. Etter mye prøving og feiling kom jeg til at hvis jeg fjernet de virtuelle backupdiskene fra den aktuelle vm'en, kjørte den helt fint igjen (bortsett fra feilmeldinger fra programmer som savner en disk).

 

Jeg tenkte da at denne satadisken måtte være i ferd med å kvelde. Men så slo det meg at linux vm'ene og windows 2003 serverene som også har virtuelle backupdisker på den samme satadisken kjørte helt fint. Jeg kjørte også igang endel skrivejobber fra disse vm'ene til backupdiskene i forsøk på å fremprovosere feil. T.o.m en test2003 server som har hele systemdisken sin på denne satadisken kjører feilfritt.

 

Jeg prøvde da å sette en av disse virtuelle diskene i en virtuell w7. Den bootet da fint, disken kom opp med stasjonsbokstav, men explorer henger som jeg prøver å se på filene som ligger på disken. Også diskmanager gui henger seg på oppstart når denne disken står i.

 

Jeg tenkte da at de to vmdk-filene måtte ha blitt defekte. Jeg lagde da en disk virtuell disk for 2008r2 serveren. Den kom opp i device manager, den klarte å lage partisjon på disken, men hang seg når partisjonen skulle formateres.

 

Hva i all verden kan være feilkilden her? Er det hardwarefeil burde det påvirket flere vm'er. Er det vmdk-feil burde det ikke være problemer når en ny virtuell disk ska formateres. Er det OS-feil burde ikke problemet vises når diskene settes i w7 vm'en. Jeg føler jeg har eliminert alle feilkilder, men feilen står like tydelig foran meg og peker nese!

Lenke til kommentar
Videoannonse
Annonse

Det hørtes rart ut, ville kanskje annbefalt å finne en eller anna bootbar harddisk diagnoseverktøy, det du kjører internt i et VM vil jo ikke kunne avdekke feil på selve disken.

 

Om dem ikke er for store, hva med å prøve å kopiere vmdk-ene til en annen harddisk og åpne dem på en annen fysisk PC.

VMWare har vel noe windows software også tror jeg, virtual machine elns.

Lenke til kommentar

Alle forum jeg har funnet rundt om sier at vmfs tar hånd om eventuelle bad sectors automatisk, og at det ikke finnes noen disksjekkverktøy som vil kunne avsløre noe mer enn vmware selv avslører. Diverse forum forteller at eventuelle hardwarefeil vil vises i vsphere client under config->hardware->health status.

 

Hvor mye dette er å stole på er jeg usikker.på. Jeg har aldri hatt hardware feil i esxi. Og det aner meg at hverken disken eller satakontrolleren på hovedkortet ikke har den mengden sensorer som vmware trenger for å gi rett status.

 

Her er s.m.a.r.t verdiene lest ut fra esxi. Det eneste jeg egentlig forstår her er "Health status OK" og "drive temperature 38"

 

Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count 117 6 88
Power-on Hours 90 0 90
Power Cycle Count 100 20 100
Reallocated Sector Count 100 36 100
Raw Read Error Rate 117 6 88
Drive Temperature 38 0 57
Driver Rated Max Temperature 62 45 43
Write Sectors TOT Count 200 0 200
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count 1 99 1

 

 

Det beste forslaget jeg har i øyeblikket er å kjøpe en ny disk og kopiere over alle .vmdk. Men om dette løser noe aner jeg ikke.

Lenke til kommentar

Jeg blir ikke klok på denne saken, men nå virker den i alle fall.

Det er to sata kontrollere på dette hovedkortet. En har 2 porter, den andre har 5+esata. Disken med problemer sto på kontrolleren med 2 porter. Nå er flyttet jeg kabelen til den andre kontrolleren, og alle problemer forsvant. Så satt jeg en annen sata disk (bare 500GB, mot den feiledes 3TB, begge seagate), og den funker smertefritt.

Dermed har jeg bevist at kontrolleren og porten virker. Kabelen virker. Det var ikke feil på filsystemet. Ikke feil på filene. Ikke feil på disken. Og likevel feilet det oppsettet som kjørte, og det har stått urørt i ca 14 måneder.

Jeg skjønner ikke bæret av dette, og det er ganske foruroligende å ha en potensiell fullstendig ulogisk feil på en vmware server i prod!

Lenke til kommentar

Ja, det hadde vært en mulighet hvis en server med backupdisk hadde fått jobben som backupserver for alle de andre, men det er ikke en gunstig løsning her. Backupdiskens primære oppgave er å lagre daglig snapshots av alle vmdk'er på de andre diskene. Jeg kunne satt i flere disker, men det lager ekstra varme som jeg ikke ønsker. Diskens størrelse, og lave belastning på dagtid har medført at jeg også har noen testmaskiner liggende på den, og enkelte prod vm'er hvor snapshot backup ikke er en gunstig backupform har egne virtuelle backupdiskfiler liggende på den.

 

Jeg tar gjerne imot forslag om hva som kan ha vært årsaken til problemene jeg opplevde. Selv om det for øyeblikket ikke eksisterer noen problem, har jeg en følelse av at dette var et varsel om noe som vil bli et problem.

Lenke til kommentar
  • 3 uker senere...

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...