F@H Team "hardware.no" (lagnr: 37651)

Tore · 4. mai 2009

-alias- det ble mye gresk og lite norsk...

Hvor lang tid bruker dere med nye pcer på en WU.? (quad core ol)

Og hvor lang tid bruker PS3 på en WU.? (google sa 8-10timer)

I denne hastigheten kommer det til å ta 4-5dager pr WU på AMD x2 4200+ (2Gb ram om det betyr noe)...

Når får jeg meg endelig en good grund til å "måtte" kjøpe meg ny PC.! :mrgreen:

Endret 4. mai 2009 av Tore

ei57 · 4. mai 2009

Hvor lang tid bruker dere med nye pcer på en WU.? (quad core ol)
I denne hastigheten kommer det til å ta 4-5dager pr WU på AMD x2 4200+ (2Gb ram om det betyr noe)...

Et stk WU tar fra litt over en time til flere dager dersom du kjører en standard Windows uniprosessor klient. Noen WU kjører raskere på AMD enn Intel og omvendt. Kjører kun en av disse selv, på en [email protected]. Den yter fra 3-400 PPD til godt over 1000 PPD på en kjerne, avhengig av hvilke WU den folder. Den andre kjernen mater 2 stk 8800GTS 512, som hver yter ca 5000 PPD.

Har også en [email protected], der 3 kjerner kjører en SMP klient. Det gir fra 1600-2000 PPD. Den fjerde kjernen mater 2 GPU'er av omtrent samme type og ytelse som over.

Dersom du har planer om å handle ny PC som skal kunne benyttes til F@H, så er det GPU'en(e) som gjør mest arbeid. Sørg også for et kabinett med god lufting, eventuelt kjør uten sidedeksel.

-alias- · 4. mai 2009

Hvor lang tid bruker dere med nye pcer på en WU.? (quad core ol)Og hvor lang tid bruker PS3 på en WU.? (google sa 8-10timer)

Har en Q6600 også men det kommer jo an på hvilken WU. SMP P2653 går unna på ca. 15 timer, men da serves 2 GX2 kort samtidig. PS3 kan jeg ingen ting om. Se uthevet linje:

-alias- · 4. mai 2009

World Of Warcraft

Alt er jo relativt, se på bildet jeg la ut fra min Q6600 så forstår du.

Endret 4. mai 2009 av -alias-

ei57 · 4. mai 2009

Har jeg lav PPD? AMD Phenom 8450 3-kjerne 2.1GHz

Ja, du har lav PPD. Har ikke logg på 2499, men på 2446 (2435 points), som en [email protected] gjør unna på ca 60 timer. Det blir nærmere 1000 PPD eller mer enn dobbelt så mye som dine 3 kjerner tilsammen. Det kan være at AMD yter dårligere enn Intel på gromacs kode. Jeg liker dårlig amber kode, som yter elendig på Intel, men kjører utmerket på AMD. Selv WU'er med amber i navnet som kjører gromacs kode er skikkelige undermålere når det kommer til PPD og Intel CPU.

Med 3 kjerner kan du også vurdere å kjøre SMP.

kjellms · 4. mai 2009

Brukbar produksjon på denne Q6600 med to 250GTS og en SMP, noe må jo gå bra når så mye annet streiker.

kjellms · 4. mai 2009

Ikke så verst på denne Q6600 med 3 8800GS og SMP heller.

-alias- · 4. mai 2009

Brukbar produksjon på denne Q6600 med to 250GTS og en SMP, noe må jo gå bra når så mye annet streiker.

Bra produksjon på begge de maskinene dine. Har sett at du har hatt noen problemer siden døgnproduksjonen din dalte noe. Har du mange maskiner i drift? Selv har jeg nå 3 i produksjon, men håper å redusere det til 2 stykker når nytt hovedkort er i hus. I tillegg jakter jeg på 2 stk. brukte 9800GX2 til, for bruk til høsten så da blir det kanskje 3 maskiner likevel.

Endret 4. mai 2009 av -alias-

kjellms · 4. mai 2009

4 "ordentlige" maskiner for å si det slik pluss ett par-tre eldre kun med SMP og en bærbar med SMP, pluss en enda eldre bærbar (som snart vrakes på jobb) med 5.03 clienten tror jeg det er. Pentiumen på Asus P5B deluxe fikk jeg ikke gang igjen etter eksperimenteringa med GTS-kortene. Den ble ustabil og jeg kunne av og til komme inn i XP men så kollapset den

igjen. Den jeg trodde jeg hadde svidd av PS-2 inngangene på fikk jeg tilbake igjen, men kan ikke kjøre med forlengere på KVM-kablene mer (har ellers ingen betydning), noe med motstander som har endret seg eller for svak spenning kanskje. Home server SMPen ser også ut til å få problemer nå (blir varm), står i et annet hus så jeg får ikke sjekka det ennå.

Så hvis vil legger 2500 PPD for et dårlig 8800 GTS + 250 GTS ca 5k pluss en SMP kunne det vært ca 8,5k mer. Og det er jo ikke så lenge siden et par andre eldre maskiner stoppet.

Edit, har 5 GS kort som fungerer bra, 3 8800 GTS (fungerer ikke så bra), skulle hatt 3 stk 250GTS i drift, men det ene må jeg altså returnere. Hadde forsåvidt hatt plass til det ene 8800GTS (som nå ligger og slenger) i Home server hvor det er to ledige plasser, men der er fysisk for trangt i kabinettet for å få det inn, stappfullt av disker, ledninger og andre kort. ATI 3870 Ultimate (passiv kjøling) fikk jeg heldigvis gitt bort til en som vil ha stille maskin (min datter).

Slik kan det også gå, man har annet å gjøre å glemmer å starte GPUclientene, det stod 8 og 12 p, før jeg hadde fixa screenshotet er den øvre igang igjen, legg merke til at summen blir svært rar!

Endret 5. mai 2009 av kjellms

-alias- · 4. mai 2009

4 "ordentlige" maskiner for å si det slik pluss ett par eldre kun med SMP og en bærbar med SMP, pluss en enda eldre bærbar med 5.03 clienten tror jeg det er. ....legg merke til at summen blir svært rar!

Rar er jo kun forbokstaven :!:

Hvis jeg teller riktig så snakker vi om 7 eller kanskje 8 maskiner i drift? Det må da for det første trekke noe sinnsykt med strøm, og for det andre bli mange enheter å holde styr på, for ikke å snakke om det daglige tilsynet hvor ting (vi snakker beta folding her) ofte gir fra seg uforklarlige feilmeldinger, eller uforklarlige hendelser uten feilmeldinger, og ditto at enkelte klienter bråstopper uten noen nærmere forklaring.

Endret 4. mai 2009 av -alias-

kjellms · 5. mai 2009

Litt tilsyn er det jo, men mange kan gå i mange måneder uten noe trøbbel. En Opteron har faktisk gått sammenhengende med SMP i et par år minst nå, kun avbrudt av strømbrudd en sjelden gang (og før det med 5.04-client og Athlon 64 om jeg husker rett ). Den Opteronen som stoppa for en tid siden har også gått sammenhengende med SMP og lenge blitt brukt som diversemakin (WEB osv), tror det var noe på hovedkortet som takket for seg. SCSI-systemet kan jeg selvfølgelig overføre til en annen PC om jeg vil.

Det med Home server som nå stopper SMP tror jeg er et varmeproblem, skal sjekke vifta i ettermiddag kanskje. Støv og hundehår er et større problem enn beta her. Men akkurat i den kjelleren er det ikke så stor aktivitet, så det burde ikke være støvproblem der.

Men jeg hadde nok noe problem da GPU1 ATI ble kjørt og i travle perioder, kunne jeg overse at grafikken på tre maskiner fikk problemer, særlig en av dem leverte inn tusenvis av halvferdige WU-er og kjørte videre med nye. Det er derfor WU tallet er så høyt på meg. ATIkorta ble rett og slett for varme (uten OC) og begynte å fuske. Mye bedre marginer og temperaturer med cuda og nVidia.

Disse maskinene med GPUene vist til her går også stabilt så lenge jeg lar være å bygge dem om. Enkelte minnebrikker og PSU-er har jeg dog bytta. Tar eldre maskiner ut av drift fordi PSU eller Hk ryker, aldri andre feil. Nå røk jo denne Asus P5B deluxe/wifi (bla-bla) fordi jeg begynte teste den med noe den ikke tålte, ellers ville den sikkert fortsatt lenge den også!

Synes ikke det gir så høyt strømforbruk fordi jeg ellers ikke bruker ovner (kun en liten av og til på badet). Og varmtvannsbereder og stekeovn kan jo ikke maskinene erstatte.

Endret 5. mai 2009 av kjellms

-alias- · 5. mai 2009

Jeg får en del av disse nå:

[12:43:28] mdrun_gpu returned

[12:43:28] NANs detected on GPU

Eller:

[11:15:44] mdrun_gpu returned

[11:15:44] Nonzero force sum on GPU

Og da ender det slik:

[11:15:44] Folding@home Core Shutdown: UNSTABLE_MACHINE

[11:15:48] CoreStatus = 7A (122)

[11:15:48] Sending work to server

[11:15:48] Project: 5779 (Run 6, Clone 273, Gen 4)

[11:15:48] - Error: Could not get length of results file work/wuresults_09.dat

[11:15:48] - Error: Could not read unit 09 file. Removing from queue.

Dette skjer på Project: 5778 eller 5779 som gir 768 PPD. Dette har så langt ikke skjedd på 5775, 5776 og 5777 (samme PPD). Jeg har klokket ned kortene hvor dette har opptrådt, men det blir ikke bedre. Hos opptrer "feilen" på forskjellige kort og forskjellige maskiner. Dette forteller meg at feilen nødvendigvis ikke ligger i min maskinvare.

Er det flere som opplever dette?

Edit: Den samme feilen skjedde nå også med Project: 5774

Endret 5. mai 2009 av -alias-

kjellms · 5. mai 2009

Er nok bare sommervarmen som slår til hos deg, men jeg hadde ett par slike 5778 og 5774 på et kort jeg også, satt det i default nå og satt igang 5774 igjen så får vi se.

Nei, det var neppe det bare. Ble stoppet og returnert etter 2% allerede. Aner ikke hva det betyr.

Fahlog:

[16:04:45] - Connecting to assignment server

[16:04:58] - Successful: assigned to (171.64.65.106).

[16:04:58] + News From Folding@Home: GPU folding beta

[16:04:58] Loaded queue successfully.

[16:05:38] + Closed connections

[16:05:43]

[16:05:43] + Processing work unit

[16:05:43] Core required: FahCore_11.exe

[16:05:43] Core found.

[16:05:43] Working on queue slot 00 [May 5 16:05:43 UTC]

[16:05:43] + Working ...

[16:05:43]

[16:05:43] *------------------------------*

[16:05:43] Folding@Home GPU Core - Beta

[16:05:43] Version 1.19 (Mon Nov 3 09:34:13 PST 2008)

[16:05:43]

[16:05:43] Compiler : Microsoft ® 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86

[16:05:43] Build host: amoeba

[16:05:43] Board Type: Nvidia

[16:05:43] Core :

[16:05:43] Preparing to commence simulation

[16:05:43] - Looking at optimizations...

[16:05:43] - Created dyn

[16:05:43] - Files status OK

[16:05:43] - Expanded 67942 -> 350980 (decompressed 516.5 percent)

[16:05:43] Called DecompressByteArray: compressed_data_size=67942 data_size=350980, decompressed_data_size=350980 diff=0

[16:05:43] - Digital signature verified

[16:05:43]

[16:05:43] Project: 5774 (Run 10, Clone 92, Gen 3)

[16:05:43]

[16:05:43] Assembly optimizations on if available.

[16:05:43] Entering M.D.

[16:05:50] Working on Protein

[16:05:51] Client config found, loading data.

[16:05:51] Starting GUI Server

[16:08:21] Completed 1%

[16:08:21] mdrun_gpu returned

[16:08:21] NANs detected on GPU

[16:08:21]

[16:08:21] Folding@home Core Shutdown: UNSTABLE_MACHINE

[16:08:26] CoreStatus = 7A (122)

[16:08:26] Sending work to server

[16:08:26] Project: 5774 (Run 10, Clone 92, Gen 3)

[16:08:26] - Error: Could not get length of results file work/wuresults_00.dat

[16:08:26] - Error: Could not read unit 00 file. Removing from queue.

[16:08:26] - Preparing to get new work unit...

[16:08:26] + Attempting to get work packet

[16:08:26] - Connecting to assignment server

[16:08:35] - Successful: assigned to (171.64.65.106).

[16:08:35] + News From Folding@Home: GPU folding beta

[16:08:36] Loaded queue successfully.

[16:09:08] + Closed connections

[16:09:13]

[16:09:13] + Processing work unit

[16:09:13] Core required: FahCore_11.exe

[16:09:13] Core found.

[16:09:13] Working on queue slot 01 [May 5 16:09:13 UTC]

[16:09:13] + Working ...

[16:09:14]

[16:09:14] *------------------------------*

[16:09:14] Folding@Home GPU Core - Beta

[16:09:14] Version 1.19 (Mon Nov 3 09:34:13 PST 2008)

[16:09:14]

[16:09:14] Compiler : Microsoft ® 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86

[16:09:14] Build host: amoeba

[16:09:14] Board Type: Nvidia

[16:09:14] Core :

[16:09:14] Preparing to commence simulation

[16:09:14] - Looking at optimizations...

[16:09:14] - Created dyn

[16:09:14] - Files status OK

[16:09:14] - Expanded 67942 -> 350980 (decompressed 516.5 percent)

[16:09:14] Called DecompressByteArray: compressed_data_size=67942 data_size=350980, decompressed_data_size=350980 diff=0

[16:09:14] - Digital signature verified

[16:09:14]

[16:09:14] Project: 5774 (Run 10, Clone 92, Gen 3)

[16:09:14]

[16:09:14] Assembly optimizations on if available.

[16:09:14] Entering M.D.

[16:09:20] Working on Protein

[16:09:22] Client config found, loading data.

[16:09:22] Starting GUI Server

Endret 5. mai 2009 av kjellms

-alias- · 5. mai 2009

Er nok bare sommervarmen som slår til hos deg, men jeg hadde ett par slike 5778 og 5774 på et kort jeg også, satt det i default nå og satt igang 5774 igjen så får vi se.

Nei, tror ikke det har med varmen å gjøre. Den ene maskinen står i garasjen og har det svært kjølig og fin, og det skjer likevel. Søkte på Folding@Home forumet http://foldingforum.org/search.php?keyword...detected+on+GPU og det ser ut som en generell feil over mange forskjellige WUs. Hos meg skjer det kun på 3 forskjellige skjermkort i 2 maskiner. Jeg har klokket ned alle 3 til default, men det hjalp ikke. Her skjedde det nå for 5753 2 ganger i løpet av 10 minutter:

[14:19:39] Completed 15%

[14:22:06] Completed 16%

[14:24:33] Completed 17%

[14:24:33] mdrun_gpu returned

[14:24:33] Nonzero force sum on GPU

[14:24:33]

[14:24:33] Folding@home Core Shutdown: UNSTABLE_MACHINE

[14:24:35] CoreStatus = 7A (122)

[14:24:35] Sending work to server

[14:24:35] Project: 5753 (Run 13, Clone 105, Gen 235)

[14:24:35] - Error: Could not get length of results file work/wuresults_01.dat

[14:24:35] - Error: Could not read unit 01 file. Removing from queue.

klipp

[14:24:44] Project: 5753 (Run 13, Clone 105, Gen 235)

[14:24:44]

[14:24:44] Assembly optimizations on if available.

[14:24:44] Entering M.D.

[14:24:51] Working on Protein

[14:24:54] Client config found, loading data.

[14:24:54] Starting GUI Server

[14:27:21] Completed 1%

[14:29:48] Completed 2%

[14:29:48] mdrun_gpu returned

[14:29:48] Nonzero force sum on GPU

[14:29:48]

[14:29:48] Folding@home Core Shutdown: UNSTABLE_MACHINE

[14:29:52] CoreStatus = 7A (122)

[14:29:52] Sending work to server

[14:29:52] Project: 5753 (Run 13, Clone 105, Gen 235)

[14:29:52] - Error: Could not get length of results file work/wuresults_02.dat

[14:29:52] - Error: Could not read unit 02 file. Removing from queue.

Ser ut som samme prosjektet (5773 (Run 13, Clone 105, Gen 235) startet på nytt 2 ganger før den nå kjørte igang 5900 som ser ut til å gå normalt.

Endret 5. mai 2009 av -alias-

kjellms · 5. mai 2009

Enig det er ikke varmen. Og vi har neppe samme hardware-feil plutselig, så da er det vel noe feil med WUene.

Endret 5. mai 2009 av kjellms

ei57 · 5. mai 2009

Enig det er ikke varmen. Og vi har neppe samme hardware-feil plutselig, så da er det vel noe feil med WUene.

Jeg tror at varmen spiller en rolle. I vinter hadde jeg noen relativt store log-filer, men ikke en eneste unstable_machine på noen av kortene. Da var max temp rundt eller litt i underkant av 70C. Sjekka den maskin jeg sitter på nå uten å finne se noen krasj, men har på de varmeste dagene hatt noen få krasj. Da ligger ofte tempen over 80C, spesielt på 511 poengerne.

-alias- · 5. mai 2009

Enig det er ikke varmen. Og vi har neppe samme hardware-feil plutselig, så da er det vel noe feil med WUene.
Jeg tror at varmen spiller en rolle. I vinter hadde jeg noen relativt store log-filer, men ikke en eneste unstable_machine på noen av kortene. Da var max temp rundt eller litt i underkant av 70C. Sjekka den maskin jeg sitter på nå uten å finne se noen krasj, men har på de varmeste dagene hatt noen få krasj. Da ligger ofte tempen over 80C, spesielt på 511 poengerne.

Min erfaring er ikke at varmen spesielt spiller inn og er grunnen til feilene. At det i noen tilfeller kan være medvirkene kan nok være. Et eksempel her hvor GPU 0 aldri har vært kjøligere enn nå etter at jeg flyttet maskinen i garasjen. Tidligere sto den inne og da lå temperaturen konstant over 85 grader uten at noen unstable_machine forekom. Nå har den nylig hatt tre unstable_machine på rappen.

Endret 5. mai 2009 av -alias-

kjellms · 5. mai 2009

Jeg var nok litt kjapp med mine replikker. Jo, som så mange ganger før, iallfall her ble det nok litt varmt for en av GPUene. Vinduet var kanskje ikke på vanlig åpning og det ble litt varmt. Men at jeg ikke skjønnte det skyldtes at jeg hadde glemt at på noen hovedkort skifter prioriteten på PCI-e GPUene. Når jeg har sendt den øvre, normalt til -gpu 0 så regner man som regel med at den er øverst, men i dette tilfellet har det skifta og GPU 0 er nå det NEDRE KORTET, det jeg har kallt Gpu 2. Jeg vet jo egentlig ikke om dette er rett. I rivatuner står GPU 0 øverst, men den jeg har kalt gpu 0 og henvist til gpu 0 folder allikevel på gpu 2. Nå har jeg klokket tilbake (opp) det jeg klokket ned isted, det funker som bare det. Og så har jeg klokket ned det som egentlig er Gpu 0 nå som i lista min står som Gpu 2, og vips det funker. Så er det vel slik at noen prosjekter belaster Gpu mer enn andre og da går man over grensene for hva Gpu klarer og får UM.

Er det kanskje noen som vet hvorfor gpu 0 tilsynelatende skifter til nedre, og hvorfor skulle da rivatuner tolke feil. Den bør jo lese prioriteringa og ikke hva jeg har kalt mappene jeg folder fra.

-alias-

Den som står nederst i CPUID på 49 grader må vel ha stoppa selv om FahMon viser grønnt??

Endret 5. mai 2009 av kjellms

ei57 · 5. mai 2009

Min erfaring er ikke at varmen spesielt spiller inn og er grunnen til feilene. At det i noen tilfeller kan være medvirkene kan nok være. Et eksempel her hvor GPU 0 aldri har vært kjøligere enn nå etter at jeg flyttet maskinen i garasjen. Tidligere sto den inne og da lå temperaturen konstant over 85 grader uten at noen unstable_machine forekom.

Noen WU's vil alltid feile, men i de fleste tilfeller der loggen viser:

UNSTABLE_MACHINE

CoreStatus = 7A (122)

er det en viss sannsynlighet for en eller annen HW relatert feil. Du kan kanskje finne noe av interesse her:

http://fahwiki.net/index.php/CoreStatus_codes

Det går også an å se om andre har hatt problem med de aktuelle WU'ene eller rapportere om feil her:

http://foldingforum.org/viewforum.php?f=19...224c03234f0a197

Dersom du klokker kortene dine, har du sikkert forlengst funnet ut hvor grensen går. Mine 8800gts 512 tåler 710/1018/1870. Jeg kan øke GPU og memory, men det har null effekt. Shader over 1870 gir stort sett unstable machine.

-alias- · 5. mai 2009

Dersom du klokker kortene dine, har du sikkert forlengst funnet ut hvor grensen går. Mine 8800gts 512 tåler 710/1018/1870. Jeg kan øke GPU og memory, men det har null effekt. Shader over 1870 gir stort sett unstable machine.

Feilmeldingen synes for meg svært usikker og det like gjerne skyldes en feil i WU. Sitat "This appears in various forms but appears to be directly related to calculation errors detected by a GPU. Whether the errors are GPU hardware errors or are inherent in the WU is currently unknown." sitat slutt.

Dette støtter også det faktum at svært mange plutselig og nærmest samtidig får unstable machine og CoreStatus = 7A (122). Samme feilmelding på alle krasj hos meg på kort og maskiner som lenge har vært stabile. Jeg har nå klokket ned og vil følge med hvordan det utvikler seg. Men feil i WU skaper jo gjerne tilfeller av hardwarefeil så det er ganske usikkert det hele synes det som.

Takk for link til CoreStatus_codes Den tar jeg vare på så slipper jeg kanskje å spørre så mye.

Jeg har normalt kortene overklokket, men har opplevd at enkelte kort ikke takler dette like bra selv om kortene ellers er identiske. Det samme gjelder varme som enkelte kort produserer for mye av, og det henger gjerne sammen med dårlige klokke-egenskaper.

F@H Team "hardware.no" (lagnr: 37651)

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer