Gå til innhold

Plutselig fall i skrive/lese-ytelse med raid 0


Anbefalte innlegg

Hepp,

 

sliter med et nokså kjedelig problem her, nemlig at raid-oppsettet mitt plutselig har mistet 95% av ytelsen.

 

Oppsettet er som følger:

 

1x Intel SSD X-25M 80Gb ("RAID READY").

2x WD Caviar Black 1TB (RAID 0). Fordelt på to partisjoner med ca 30/70 forhold.

Raid-kontroller: Innebygd på HK, Asus Forumla IV (JMicron® JMB363 PATA and SATA controller).

OS: Windows 7 x64

 

Oppsettet har fungert glimrende siden innkjøp i juli, men nylig har det som nevnt skjedd noe rart: Både lese- og skriveytelsen har falt ned til ubrukelige 2-300 kb/s, noe som naturligvis merkes markant både ved spilling, filmtitting og musikkavspilling. Det er forøvrig kun WD-diskene som har blitt trege, SSD-en fungerer som før.

 

Feilen oppsto etter at PC-en hadde stått påslått i et veldig kaldt rom (ca -5C), men jeg ser strengt talt ikke hvordan dette kan ha forårsaket feilen. Hadde det vært kondensproblemer ville det vel vært rimelig at andre komponenter også hadde sviktet, harddiskene sist av alle -- eller?

 

Har allerede forsøkt å kjøre diverse diagnoseverktøy, inkludert S.M.A.R.T, alle uten feil. Setter stor pris på forslag til feilsøking, og ikke minst om noen har vært borti lignende problemer før.

Endret av The Stig
Lenke til kommentar
Videoannonse
Annonse

Mmm, er vel nesten den eneste løsningen som gir en god pekepinn på om det er diskene eller kontrolleren. Problemet er bare at jeg har godt over 1TB med data jeg ikke vil miste, og som sagt er lesehastigheten rundt 2-300 kb/s -- ergo vil jeg anta det fort tar noen døgn å kopiere alt inneholdet.

Lenke til kommentar

Hmm, ikke dumt forslag. Det gamle hovedkortet mitt hadde kontroller i samme serie, og det var med det hovedkortet oppsettet opprinnelig ble satt opp på. Ettersom arrayet beholdt seg intakt fra det gamle hovedkortet til det nye, bør det jo funke andre veien også.

 

Skal prøve ila kvelden, så får vi se :)

Lenke til kommentar

Har dessverre ikke fått testet med den andre kontrolleren ennå, men har bitt meg merke i at ytelsen er svært variabel: Nylig ytet raidet som tidligere, fikk omtrent 120 mbps, men nå er ytelsen igjen forferdelig. Kjørte en serie benchmarker med Crystalmark som viste samme tendens: Ytelsen svinger voldsomt, fra omtrent normalt (100 mbps+ lese/skrive) til knappe 0.1 kbps.

 

Er dette noen indikator på hva som er feil? Kan forøvrig legge ved at WD ba meg kjøre deres diagnoseverktøy, som etter 5 timer med sector check rapporterte null feil.

Lenke til kommentar

Da vil jeg tro det kan være noe galt med en av harddiskene, sansynligvis noe mekanisk som ikke er ustabilt hele tiden siden det ikke fanges opp av diagnoseverktøyet. Jeg ville tatt en backup av alt på RAIDet ASAP og startet med det viktigste. Om ytelsen til tide er over 100MB/s kan du få reddet data om du har litt tålmodighet.

Om du kjørte diskene med driftstemperatur under 0C kan det ha gjort noe med bæringer og smøring. Harddisker trives best rundt 30-35C i følge tall fra google (fail rate av HDD fra deres servere), og under 15-20C er omtrent like ille som over 40C slitasjemessig.

Lenke til kommentar

Mmm, var i den retningen jeg også tenkte. Spesielt så fordi andre enheter som er koblet på kontrolleren virker som normalt (SSD + Optisk drev). Får nesten sette i gang med kopiering da, så er jeg føre var.

 

Takk for svar forresten :)

Endret av The Stig
Lenke til kommentar

Jeg hadde samme "symptomer" på et software raid 5 engang. Da viste det seg at den ene SATA kabelen var "litt defekt". Skiftet SATA kabel, og vips så var hastigheten stabil igjen.

 

Sikkert verdt på prøve, i og med at det tar 45 sek og skifte, og de fleste med litt interesse over snittet for data har x antall sata kabler liggende etter gamle HK etc :-)

Lenke til kommentar

Hehe, det har jeg faktisk gjort. Har opplevd noe lignende selv også, dog, ikke med RAID-oppsett. Byttet ut samtlige kabler, dessverre til ingen forskjell. Har tatt sikkerhetskopi av alle viktige filer på raid-et nå, så nå er det vel egentlig bare å ødelegge raidet og teste diskene hver for seg.

Endret av The Stig
Lenke til kommentar

Da har jeg brutt opp raidet og kjørt Crystalmark 10 ganger fordelt likt på de to diskene. Som kan sees er det en nokså tydelig forskjell i ytelsen mellom de to, men syns tallene for begge diskene var noe lave. Noen kommentar? :)

 

Disk 1

post-44194-0-07021700-1292040108_thumb.png

 

 

Disk 2

post-44194-0-24545500-1292040132_thumb.png

Endret av The Stig
Lenke til kommentar

Har du sjekka om du har deaktivert cache for disk 1? Det kan medfære herpa ytelse ala det du ser der. Random går da rett i dass. I tillegg ser det ut som ingen av diskene dine benytter NCQ. Har du satt de i IDE mode?

Prøv å bytte til AHCI og se om det hjelper, og sjekk cache status på de. Det ser ut som disk 1 kanskje har fått seg en smell, 0,1-0,2MB/s for 4KB Random Read vil seriøst herpe ytelsen om bare det er 1% random, og 512KB random støtter dette. Det kan tyde på feil på servo på leserarm eller stabilisering.

Lenke til kommentar

Cache på, hvis ikke ødelegger du random write ytelsen. Det er bare den interne cachen på SSDen (noen få MB) det er snakk om.

EDIT: og NCQ på.

 

Om du har lyst på mer kunnskaper om SSD og får litt fri tid til lesing etter hvert vil jeg anbefale å skumme førstepost i SSD-tråden og følge linker til anbefalte artikler. Jeg vil spesielt anbefale Anandtech's serie med SSD artikler.

Andre post i SSD benchmark tråden inneholder info om tweaking av SSD og OS for å få mest ytelse.

Endret av GullLars
Lenke til kommentar

Da har jeg sjekket den defekte disken; både NCQ og Write cache var aktivert, ytelsen er fortsatt dårlig. Men du mente altså at den andre disken også ikke syntes å virke helt optimalt? Satser på at jeg får RMA-nummer fra WD over helga, men er jo kjedelig om det viser seg at begge diskene er effekte (sannsynligheten for at to disker ryker samtidig er vel brøkdelen av en prosent?).

 

Skal ta en titt på trådene/postene du anbefaler, må innrømme at jeg har hoppet litt uti SSD/RAID-verden uten all verden til forkunnskap :p

Lenke til kommentar

Om ikke NCQ eller cache var deaktivert på disk 1 er det mest sansynlig en servo feil, siden sekvensiell les var høy, men alle random var elendig (random krever at leserhodet flyttes raskt og presist). Det kan også være stabiliseringsproblemer siden sekvensiell ytelse også er lavere.

 

Måten du kan se at NCQ har en virkning er ved at 4KB QD32 er høyere enn 4KB i CDM. Om de er tilnærmet like benytter ikke disken seg av NCQ, selv om den sier at den støtter det.

 

Måten du ser disk cache i praksis er at random write blir høyere enn random read, siden disken kan vente med å skrive de ut til den er idle (om total lengde er under cache størrelse), og/eller ved å lage en intern skrivekø fra cache.

 

Her er et eksempel på NCQ i aksjon på en halvfull velociraptor som hadde vært i bruk en stund og var fragmentert:

post-163450-0-22466000-1292108700_thumb.png

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...