F@H Team "hardware.no" (lagnr: 37651)

SpecialForce · 18. januar 2010

Hvis du får mange råtne WUer vil du da selvfølgelig spare tid på et mer stabilt system

-alias- · 19. januar 2010

Tror ikke jeg hadde noen råtne WUer, men strømforbruket til CPU skapte varierende spenninger til GPUene. CPU gikk merkelig nok fjellstøtt selv om den som fikk for lite strøm. Ved å klokke ned ser det ut som GPUene får stabil spenning igjen, men CPU på 3.8GHz senker farta på bigadv. Derfor mitt spørsmål til ei57 om hva han mente med "å spare tid", men jeg skjønner nå hva han mente med det.

SpecialForce · 19. januar 2010

Da formulerte jeg meg nok dårlig. Poenget mitt var at høy last generelt på systemet skaper ustabilitet. Det vil derfor være hensiktsmessig å holde klokken sin på et noenlunde normalt nivå for å forebygge ustabilitet som da fører til halvferdige WU's om man er uheldig.

Theo343 · 19. januar 2010

Jeg har ingen ustabilitet på systemet. Det som har vært problemet er å få sendt ferdige WUer.

Endret 19. januar 2010 av Theo343

ei57 · 19. januar 2010

Derfor mitt spørsmål til ei57 om hva han mente med "å spare tid", men jeg skjønner nå hva han mente med det.

100 MHz utgjør vel ca 75 minutter lenger tid, men har du 3 stopp, mister du fort en halvtime uten at sjekkpunktene er spesielt ugunstige. Dersom du ikke passer på akkurat når det skjer, taper du kanskje timer, og skjer krasjen mens sjekkpunkt skrives, kan du miste hele WU'en. Tidsfristen er 96 timer og du har fortsatt god margin.

knopflerbruce · 19. januar 2010

Da har jeg addet et kort til HW.no - fant ut at ene 8800gt'et hadde kjørt som anonymous en GOD stund (noe som forklarer hvorfor jeg aldri nærmet meg 20k, selv med 4 8800gt/9800gt).

Ser ut som EUE-problemet er løst også, var en snodig EUE på et kort, men en enkelthendelse her og der skjer jo (dårlig WU etc). SKjønt, kan jo alltids poste den og se om dere har sett noe sånt før:

[05:55:33] Completed 61%

[06:02:13] Completed 62%

[06:04:38] SEH code: 3221225477

[06:04:38] Run: exception thrown during GuardedRun

[06:04:38] Run: exception thrown in GuardedRun -- Gromacs cannot continue further.

[06:04:38] Going to send back what have done -- stepsTotalG=8000000

[06:04:38] Work fraction=0.6231 steps=8000000.

[06:04:42] logfile size=268040 infoLength=268040 edr=0 trr=23

[06:04:42] - Writing 268576 bytes of core data to disk...

[06:04:42] Done: 268064 -> 6428 (compressed to 2.3 percent)

[06:04:42] ... Done.

[06:04:42]

[06:04:42] Folding@home Core Shutdown: UNSTABLE_MACHINE

[06:04:45] CoreStatus = 7A (122)

[06:04:45] Sending work to server

-alias- · 19. januar 2010

Tidsfristen er 96 timer og du har fortsatt god margin.

Ops, jeg trodde tidsfristen for bigadv var 60 timer. :hm: Da er det jo nesten mulig å klare det uten OC hvis ingen stopp underveis.

Theo343 · 19. januar 2010

4 døgn for bonus og lenger som final deadline

-alias- · 19. januar 2010

Man blir litt forbannet når en eller flere servere er nede i flere timer. Dette har skjedd flere ganger i dag og sist nå i kveld. Hadde 6 GPU-klienter som ble berørt, som bare sto og stanget slik:

[21:48:43] Completed 97%

[21:50:57] Completed 98%

[21:53:11] Completed 99%

[21:55:26] Completed 100%

[21:55:26] Successful run

[21:55:26] DynamicWrapper: Finished Work Unit: sleep=10000

[21:55:36] Reserved 145756 bytes for xtc file; Cosm status=0

[21:55:36] Allocated 145756 bytes for xtc file

[21:55:36] - Reading up to 145756 from "work/wudata_05.xtc": Read 145756

[21:55:36] Read 145756 bytes from xtc file; available packet space=786284708

[21:55:36] xtc file hash check passed.

[21:55:36] Reserved 22200 22200 786284708 bytes for arc file= Cosm status=0

[21:55:36] Allocated 22200 bytes for arc file

[21:55:36] - Reading up to 22200 from "work/wudata_05.trr": Read 22200

[21:55:36] Read 22200 bytes from arc file; available packet space=786262508

[21:55:36] trr file hash check passed.

[21:55:36] Allocated 560 bytes for edr file

[21:55:36] Read bedfile

[21:55:36] edr file hash check passed.

[21:55:36] Logfile not read.

[21:55:36] GuardedRun: success in DynamicWrapper

[21:55:36] GuardedRun: done

[21:55:36] Run: GuardedRun completed.

[21:55:41] + Opened results file

[21:55:41] - Writing 169028 bytes of core data to disk...

[21:55:41] Done: 168516 -> 167018 (compressed to 99.1 percent)

[21:55:41] ... Done.

[21:55:41] DeleteFrameFiles: successfully deleted file=work/wudata_05.ckp

[21:55:41] Shutting down core

[21:55:41]

[21:55:41] Folding@home Core Shutdown: FINISHED_UNIT

[21:55:44] CoreStatus = 64 (100)

[21:55:44] Sending work to server

[21:55:44] Project: 5785 (Run 3, Clone 76, Gen 9)

[21:55:44] + Attempting to send results [January 19 21:55:44 UTC]

[21:55:47] + Results successfully sent

[21:55:47] Thank you for your contribution to Folding@Home.

[21:55:47] + Number of Units Completed: 1514

[21:55:51] - Preparing to get new work unit...

[21:55:51] + Attempting to get work packet

[21:55:51] - Connecting to assignment server

[21:56:03] + Could not connect to Assignment Server

[21:56:15] + Could not connect to Assignment Server 2

[21:56:15] + Couldn't get work instructions.

[21:56:15] - Attempt #1 to get work failed, and no other work to do.

Waiting before retry.

[21:56:29] + Attempting to get work packet

[21:56:29] - Connecting to assignment server

[21:56:41] + Could not connect to Assignment Server

[21:56:53] + Could not connect to Assignment Server 2

[21:56:53] + Couldn't get work instructions.

[21:56:53] - Attempt #2 to get work failed, and no other work to do.

Waiting before retry.

[21:57:15] + Attempting to get work packet

[21:57:15] - Connecting to assignment server

[21:57:27] + Could not connect to Assignment Server

[21:57:39] + Could not connect to Assignment Server 2

[21:57:39] + Couldn't get work instructions.

[21:57:39] - Attempt #3 to get work failed, and no other work to do.

Waiting before retry.

[21:58:08] + Attempting to get work packet

[21:58:08] - Connecting to assignment server

[21:58:20] + Could not connect to Assignment Server

[21:58:32] + Could not connect to Assignment Server 2

[21:58:32] + Couldn't get work instructions.

[21:58:32] - Attempt #4 to get work failed, and no other work to do.

Waiting before retry.

[21:59:22] + Attempting to get work packet

[21:59:22] - Connecting to assignment server

[21:59:34] + Could not connect to Assignment Server

[21:59:46] + Could not connect to Assignment Server 2

[21:59:46] + Couldn't get work instructions.

[21:59:46] - Attempt #5 to get work failed, and no other work to do.

Waiting before retry.

[22:01:07] + Attempting to get work packet

[22:01:07] - Connecting to assignment server

[22:01:19] + Could not connect to Assignment Server

[22:01:31] + Could not connect to Assignment Server 2

[22:01:31] + Couldn't get work instructions.

[22:01:31] - Attempt #6 to get work failed, and no other work to do.

Waiting before retry.

[22:04:19] + Attempting to get work packet

[22:04:19] - Connecting to assignment server

[22:04:31] + Could not connect to Assignment Server

[22:04:43] + Could not connect to Assignment Server 2

[22:04:43] + Couldn't get work instructions.

[22:04:43] - Attempt #7 to get work failed, and no other work to do.

Waiting before retry.

[22:10:06] + Attempting to get work packet

[22:10:06] - Connecting to assignment server

[22:10:18] + Could not connect to Assignment Server

[22:10:30] + Could not connect to Assignment Server 2

[22:10:30] + Couldn't get work instructions.

[22:10:30] - Attempt #8 to get work failed, and no other work to do.

Waiting before retry.

[22:21:23] + Attempting to get work packet

[22:21:23] - Connecting to assignment server

[22:21:35] + Could not connect to Assignment Server

[22:21:47] + Could not connect to Assignment Server 2

[22:21:47] + Couldn't get work instructions.

[22:21:47] - Attempt #9 to get work failed, and no other work to do.

Waiting before retry.

[22:43:18] + Attempting to get work packet

[22:43:18] - Connecting to assignment server

[22:43:30] + Could not connect to Assignment Server

[22:43:42] + Could not connect to Assignment Server 2

[22:43:42] + Couldn't get work instructions.

[22:43:42] - Attempt #10 to get work failed, and no other work to do.

Waiting before retry.

[23:26:35] + Attempting to get work packet

[23:26:35] - Connecting to assignment server

[23:26:40] - Successful: assigned to (171.64.122.70).

[23:26:40] + News From Folding@Home: Welcome to Folding@Home

[23:26:40] Loaded queue successfully.

[23:27:01] - Couldn't send HTTP request to server

[23:27:01] + Could not connect to Work Server

[23:27:01] - Attempt #11 to get work failed, and no other work to do.

Waiting before retry.

Først ved 00.30 tiden begynnte det å løse seg opp.

Xell · 20. januar 2010

Jeg har også hatt mye problemer med tildeling av nytt arbeide i det siste. Det kan hende at serverene rett og slett har for stor pågang, eller at det er noe mellom oss og San Fransisco som gjør at vi ikke får kontakt med serveren. Har sett det samme problemet på alle typer WU nå og jeg har aldir opplevd at det er problemer med alle serverene deres, både assignment og work, noen gang før, så det kan være et problem som PG ikke har kontroll over. Uansett hva det er så håper jeg ikke problemet vedvarer, for det begynner å bli litt frustrerende å ha så mye nedetid.

-alias- · 20. januar 2010

Satt og lekte meg med oversikten i HMF.NET og ser 2 tilfeller der 2 GPU-klienter jobber med nøyaktig samme type WU. Kan dette være mulig? Oversikt, se de som er uthevet med farge orange:

For å være sikker sjekket jeg også "unitinfo.txt" for hver WU.

Eksempel 1 P5915 (forskjellige maskiner)

__________________________________________________

INTi7_GPU1_MSI_GTS250

Current Work Unit

-----------------

Name: Protein

Tag: P5915R13C914G10

Download time: January 20 09:18:34

Due time: January 26 09:18:34

Progress: 31% [|||_______]

_________________________________________________

AmdX4_9350e_GPU1_XFX8800GTS

Current Work Unit

-----------------

Name: Protein

Tag: P5915R13C914G10

Download time: January 20 09:24:34

Due time: January 26 09:24:34

Progress: 23% [||________]

==================================================

Eksempel 2 P5913 (samme maskin)

__________________________________________________

AmdX4_9950_GPU1_MSIGTS250_512M

Current Work Unit

-----------------

Name: Protein

Tag: P5913R5C860G36

Download time: January 20 10:01:47

Due time: January 26 10:01:47

Progress: 20% [||________]

__________________________________________________

AmdX4_9950_GPU3_MSIGTS250_512M

Current Work Unit

-----------------

Name: Protein

Tag: P5913R5C860G36

Download time: January 20 10:01:34

Due time: January 26 10:01:34

Progress: 27% [||________]

==================================================

Nå har de litt forskjellig tid for nedlasting, men tag-ident er nøyaktig lik for hvert par. Er dette tilfeldig eller indikerer det noe feil i oppsettet mitt?

Endret 20. januar 2010 av -alias-

Theo343 · 20. januar 2010

Hvordan lekte du deg med oversikten? Sikker på at du ikke peker feil el.?

Det er mulig hvis de kjører på samme maskin og machineid osv er likt.

Ellers så kjøres vel alle WUer på flere klienter (worldwide) for å sikre et mest mulig riktig resultat, mener å ha lest det før. Så du kan også ha opplevd dette selv om jeg ikke har sett nøye på detaljene dine.

Xell?

Endret 20. januar 2010 av Theo343

-alias- · 20. januar 2010

Hvordan lekte du deg med oversikten? Sikker på at du ikke peker feil el.?

Lekte og lekte, jeg sammenlignet PPD på samme type GPU og kom tilfeldigvis til å føre musepeker over et orange felt i HMF.NET og da poppet meldingen "Client is working on the same unit as andother client" opp. Nei jeg peker ikke feil! I HMF.NET går man rett til riktig mappe over nettet og der sammenlignet jeg unitinfo.txt (lagt ut) og ser at de parvis har like tag-identer. Et tilfelle er på samme maskin, men med ulike maskinidenter. Tilfelle 2 er på forskjellige maskiner. Siden jeg har fysiske korrekte navn (maskin+GPU) klientene er det lett å se hvilket kort som yter hva og sammenligne ellers like kort.

Theo343 · 20. januar 2010

Lekte og lekte, jeg sammenlignet

Jeg bare spurte siden det var slik du ordla deg .

Satt og lekte meg med oversikten i HMF.NET

Endret 20. januar 2010 av Theo343

kjellms · 20. januar 2010

-alias-

En WU er unik og skal egentlig bare kjøres en gang. Men sendes ut til nestemann etter at preferred dealine er passert. Slik at hvis du har to maskiner eller kort som kjører nøyaktig samme er alstå noe feil. Det blir bare rot og forhåpentligvis annulert resultat. Men du må finne feilen i ditt oppsett ellers er jo de foldingene bortkasta jobb.

Eneste måten det kan være rett på hos deg er at en annen maskin har fått samme WU etter at preferred dl er passert på den første. Men jeg ville jo tro de sender den til en annen donator.

Runs Clones and Gens

Endret 20. januar 2010 av kjellms

-alias- · 20. januar 2010

Men du må finne feilen i ditt oppsett ellers er jo de foldingene bortkasta jobb.

Godt svar, det var derfor jeg spurte, men det er temmelig ubegripelig hvordan det er mulig på forskjellige maskiner. Hvis det likevel ikke er som Theo sier at jeg har latt HMF.NET peke feil i nettet mitt. Må nok gå nøye igjennom det. Forhåpentligvis er det der feilen ligger og ikke i virkeligheten.

kjellms · 20. januar 2010

Ja det var rart, men for ordens skyld, er user ID forskjellig på de to maskinene?

Endret 20. januar 2010 av kjellms

Theo343 · 20. januar 2010

UserID strengen må være unik ja eller gjenspeiler den at noe er duplikat på maskinene.

Xell · 20. januar 2010

Jeg vil anta at alle clone/gen/run sendes til flere brukere for redundancy. Hvis man bare gjør en utregning, hvordan kan man da vite at resultatet er riktig og at man kan bruke det til videre WUer? Ved å la flere regne på detn samme oppgaven kan man anta en fasit ut i fra flertallet.

Men det er fult mulig jeg tar feil. Husker ikke helt om jeg har lest dette noe sted, men jeg har en vag hukommelse om at jeg har observert det samme selv og søkt etter årsak på ett eller annet tidspunkt

Edit: har sydd sammen en i7-860 i ettermiddag og driver nå og setter den opp. Dette skal bli gøy .. håper ikke jeg får alt for mye kludder, for da blir det sent i kveld

Endret 20. januar 2010 av Xell

ei57 · 20. januar 2010

Grattis! Det burde jo være relativt enkelt å sette sammen. Det eneste en må passe på er alle småkablene til fronten og en annen (audio) som også skal ut i front. Det er ikke alltid at kabinett og HK snakker samme språk. Tror jeg lot være å sette i audiopluggen, siden det mismatch på signalene der, men til folding betyr jo det ingenting.

F@H Team "hardware.no" (lagnr: 37651)

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer