[SOLVED]Finne harddisk som har feilet

siDDis · 8. juli 2008

Ein disk i raid 5 arrayet mitt har feilet, sidan eg ikkje har vært så glup med å skrive fysisk på diskane om kva den disken heiter så må eg prøve og feile meg litt fram for å finne den.

For at eg ikkje skal øydeleggja raid 5 arrayet mitt så bør eg vell unmounte før eg plugger diskene inn og ut. Men kan eg plugge diskene inn og ut mens systemet står på? Samtidig som raidet er unmounta?

Endret 10. juli 2008 av siDDIs

AlecTBM · 10. juli 2008

Før du plugger noe som helst inn og ut så må det unmountes

Samme prosedyre som med minnebrikker og eksternharddisker.

Veit ikke helt hvordan raid er (les har ikke peiling)

men jeg har ikke opplevd noe skade ved å flytte IDE disker mens systemet kjørte, vil ikke anbefale det da. Merk at det var mest diskettstasjoner jeg flytta rundt, men også en harddisk.

Admin'c · 10. juli 2008

er det hotswap da? hvis ikke må maskinen av

disken kan du identifisere med smartctl -a /dev/disk (f.eks. smartctl -a /dev/sda1) kan og være du må lure den med -d ata (må det på mine wd sata)

så er det bare å skru av pcn og titte på serienummeret på diskene. Og så kan det være lurt å klistre på serienummer på siden av harddiskrammen så du vet hvilken disk som heter hva til senere smartmontools overvåker og diskene om du vil og der kan du sjekke for feil som er på vei til å bli kritiske.

Raidet sjekket du vel med cat /proc/mdstat om du har softwareraid eller noe?

siDDis · 10. juli 2008

Fant disken med å sjekke dei etter serienummer

sudo hdparm -i -v /dev/sd[n]

Eg kobla frå disken med straumen på og då gjekk det gale, heile maskina fraus og når eg boota den på nytt så ville ikkje raidet starte.

Får desse feilmeldingane:

olav@olav-linux:~$ cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md0 : inactive sdg1[0](S) sdf1[8](S) sda1[7](S) sdb1[6](S) sde1[5](S) sdd1[4](S) sdj1[3](S) sdi1[2](S) sdh1[1](S)
  4395455424 blocks

unused devices: <none>

olav@olav-linux:~$ sudo mdadm --run /dev/md0
mdadm: failed to run array /dev/md0: Input/output error

olav@olav-linux:~$ sudo mdadm --detail /dev/md0
/dev/md0:
	Version : 00.90.03
 Creation Time : Tue Jan  8 22:38:46 2008
 Raid Level : raid5
 Used Dev Size : 488383936 (465.76 GiB 500.11 GB)
  Raid Devices : 10
 Total Devices : 9
Preferred Minor : 0
Persistence : Superblock is persistent

Update Time : Wed Jul  9 20:48:36 2008
	  State : active, degraded, Not Started
Active Devices : 9
Working Devices : 9
Failed Devices : 0
 Spare Devices : 0

	 Layout : left-symmetric
 Chunk Size : 64K

	   UUID : db3fbd24:5b636f9a:861f6929:f70ab52b (local to host olav-linux)
	 Events : 0.1070901

Number   Major   Minor   RaidDevice State
   0	   8	   97		0	  active sync   /dev/sdg1
   1	   8	  113		1	  active sync   /dev/sdh1
   2	   8	  129		2	  active sync   /dev/sdi1
   3	   8	  145		3	  active sync   /dev/sdj1
   4	   8	   49		4	  active sync   /dev/sdd1
   5	   8	   65		5	  active sync   /dev/sde1
   6	   8	   17		6	  active sync   /dev/sdb1
   7	   8		1		7	  active sync   /dev/sda1
   8	   8	   81		8	  active sync   /dev/sdf1
   9	   0		0		9	  removed

olav@olav-linux:~$ sudo mdadm --assemble --run --force /dev/md0 /dev/sd[abdefghij]
mdadm: no recogniseable superblock on /dev/sda

olav@olav-linux:~$ sudo fdisk -l

Disk /dev/sda: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000ed404

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sda1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdb: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x0005cab7

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdb1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdc: 400.0 GB, 400088457216 bytes
255 heads, 63 sectors/track, 48641 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0xc41ff498

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdc1   *		   1		9327	74919096   83  Linux
/dev/sdc2			9328		9729	 3229065	5  Extended
/dev/sdc3			9730	   48641   312560640   83  Linux
/dev/sdc5			9328		9729	 3229033+  82  Linux swap / Solaris

Disk /dev/sdd: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000da77c

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdd1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sde: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x00024de2

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sde1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdf: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x00003264

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdf1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdg: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x00007de4

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdg1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdh: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000eb13b

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdh1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdi: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000a3c0d

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdi1			   1	   60801   488384001   fd  Linux raid autodetect

Disk /dev/sdj: 500.1 GB, 500107862016 bytes
255 heads, 63 sectors/track, 60801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x00037768

  Device Boot	  Start		 End	  Blocks   Id  System
/dev/sdj1			   1	   60801   488384001   fd  Linux raid autodetect

Har eg krølla det skikkeleg til nå?

Admin'c · 10. juli 2008

hmm tror du må vente på en annen som har fått et degraded array en gang, men tror du burde markert disken som faulty om det ikke allerede var gjort og så stengt av pcn skifta disken og så skal den vel i teorien starte å rebuilde etter du har lagt til den nye disken.

så det var en som herja med noe av det samme her http://www.linuxquestions.org/questions/li...rebuild-505361/ men det lureste er vel å vente på en som kan det. Men denne skal jeg ta vare på, må få testet litt slike ting selv snart tror jeg.

HawP · 10. juli 2008

Du skriver ikke om du stoppa og unmounta raidet før du tok strømmen på disken, men ut i fra hva som skjedde virker det som om du ikke gjorde det.

Det som kan se ut som har skjedd (ut i fra hva jeg kan lese meg fram til) er at raidet har blitt "dirty" siden det ikke fikk gjort en "clean" stop, og i tillegg "degraded" siden det mangler en disk. Og siden det både er dirty og degraded klarer det ikke å kalkulere paritet på nytt. Derfor får du ikke starta det på en enkel måte.

Så det som antakelig må gjøres er å få raidet til å kalkulere ny paritet. Men dette kan bli vanskelig uten disken som feilet...

Edit:

Så nå en liten typo i assemble-kommandoen din:

sudo mdadm --assemble --run --force /dev/md0 /dev/sd[abdefghij]1
mdadm: no recogniseable superblock on /dev/sda

Du glemte partisjonstallet... og du skal normalt heller ikke trenge --run sammen med --assemble siden assemble vil starte raidet hvis den klarer å sette det sammen. Kan kanskje også være greit å først forsøke uten --force for å få med seg evt. feilmeldinger som da kan komme.

Nå er det absolutt en fordel med clean shutdown av raidet inntil du får lagt til en ny partisjon (mdadm /dev/md0 -a /dev/<ny partisjon>)

Edit igjen: Har lest tråden som Admin'c linka til og det de gjør der for å fikse tilsvarende problem er å "lure" arrayet til å tro at det ble gjort en clean shutdown ved å skrive direkte til array status. Dermed blir det ikke lenger ansett som "dirty" og mdadm kan assemble arrayet på vanlig måte. Sålenge pariteten er iorden vil det fungere fint å "lure" arrayet på den måten. Men alternativet til å "lure" arrayet er vel å miste alt, så....

Endret 10. juli 2008 av HawP

siDDis · 10. juli 2008

Takk for solide svar. Eg hadde fjernet disken fra arrayet, men når eg koblet disken ifrå så var som sagt maskina på og fraus sånn at ein hard reboot måtte til.

Den disken som feila har enda data, og eg trur den fungerer delvis enda. Men så er jo faren for at den kræsjer igjen da.

siDDis · 10. juli 2008

Doh, dette funka jo heilt fint

sudo mdadm --assemble --run --force /dev/md0 /dev/sd[abdefghij]1

Takker! Bygger nytt array med ny disk nå med ein gang

HawP · 10. juli 2008

Alltid kjekt når array kan fikses :grin:

En liten tilleggsopplysning bare, hadde du også brukt

mdadm --stop /dev/md0

(og unmounta /dev/md0 for sikkerhetsskyld) før du prøvde å kople fra disken "on-the-fly" så hadde nok ikke raidet blitt "dirty" og da burde den klart å starte raidet uten problemer.

Endret 10. juli 2008 av HawP

Logg inn

[SOLVED]Finne harddisk som har feilet

Anbefalte innlegg

siDDis

Lenke til kommentar

Videoannonse

AlecTBM

Lenke til kommentar

Admin'c

Lenke til kommentar

siDDis

Lenke til kommentar

Admin'c

Lenke til kommentar

HawP

Lenke til kommentar

siDDis

Lenke til kommentar

siDDis

Lenke til kommentar

HawP

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Europa har gjort seg selv irrelevant

Hvem er aktive 0 medlemmer