Gå til innhold

Anbefalte innlegg

UM og EUE kommer vanligvis grunnet litt vel optimistisk OC. Det behøver ikke skyldes GPU, men kan like gjerne relateres til CPU eller minne.
Som jeg erfarte kan man også få UM og EUE hvis skjermkortet får for dårlig/eller feil spenning fra PSU. GPU vil (som hos meg) også få alt for høy temperatur av dette. Etter at jeg flyttet kortet til en annen maskin kan jeg igjen overklokke det max uten at jeg får UM og EUE og temperaturen er nå aldri over 75 grader. Kortet var tidligere oppe i temperaturer på 104 - 105 grader. Det ser likevel ikke ut til at det har tatt skade av det selv om dette pågikk i flere uker. Endret av -alias-
Lenke til kommentar
Videoannonse
Annonse
Derimot har jeg sett i den ene loggen at jeg har hatt 2 UNSTABLE_MACHINE og en END_UNIT_EARLY i løpet av halvannet døgn. Den andre loggen er prikkfri. Kan det tyde på at det ene kortet begynner å merke kjøret allerede? Det er varmt, 95 i snitt under foldinga med vofta på solid turtall.

Ja med vofter på må det jo bli varmt. Spøk til side.. enig med ei57. EUE og UM kommer gjerne med OC og temperatur. På den annen side, feilen trenger nødvendigvis ikke være i GPU som også -alias- påpeker. 95 grader er jo ingen problem for nVidiakort når de ellers er iorden, får riktig spenning osv. Altså hvis det er slik at du har overklokket ned det kortet så kjør det en stund på default, funker det da så funker det jo iallfall. Men som ei57 sier det kan også være CPU, igjen klokk ned så finner du ut det (rart med CPU siden begge GPUene er på samme CPU, men det er kanskje en multicore-CPU, og da er det kanskje slik at de forskjellige clientene og prosessene bruker forskjellige deler av minnet (cache og RAM) og da kan også feilen være i en av minnebrikkene og kun (iallfall i perioder) gå utover den ene GPUen. Kjør Memtest.

 

PS Er ikke sikker på dette, men synes å huske at hvis EUE og UM fulgte meldinga nans detected hos meg så var det gjerne bare å klokke ned GPUene.

Endret av kjellms
Lenke til kommentar
UM og EUE kommer vanligvis grunnet litt vel optimistisk OC. Det behøver ikke skyldes GPU, men kan like gjerne relateres til CPU eller minne. Jeg vil helst ikke la tempen på GPU'ene overstige 80C, men ser at det skjer fra tid til annen. De eldste kortene jeg har, har stort sett gått 24-7 i over ett år og viser ingen tegn til å merke kjøret.

 

Kortet kjører stock-frekvenser. Var heller dårlig ift overklokking, så jeg så ikke noe poeng i å tyne ut siste rest der.

 

 

UM og EUE kommer vanligvis grunnet litt vel optimistisk OC. Det behøver ikke skyldes GPU, men kan like gjerne relateres til CPU eller minne.
Som jeg erfarte kan man også få UM og EUE hvis skjermkortet får for dårlig/eller feil spenning fra PSU. GPU vil (som hos meg) også få alt for høy temperatur av dette. Etter at jeg flyttet kortet til en annen maskin kan jeg igjen overklokke det max uten at jeg får UM og EUE og temperaturen er nå aldri over 75 grader. Kortet var tidligere oppe i temperaturer på 104 - 105 grader. Det ser likevel ikke ut til at det har tatt skade av det selv om dette pågikk i flere uker.

 

Nå skal jeg ikke si 100% at PSUen min er feilfri på alle måter, men det er en PC Power Cooling 610w silencer, som såvidt meg bekjent skal være noe av det ypperste i kvalitet man kan få kjøpt.

 

Det står en raidkontroller i slotten foran kortet, den er også hot as hell, så tipper den bidrar med noen grader ekstra. Dessuten dekker den vifta bittelitt (tenker ca 10% av viftearealet).

Lenke til kommentar

kjellms

Ser ut til at jeg opplever det samme som du gjorde med ditt GTS250_1GB, så langt kun på en klient. PPD dropper plutselig fra nesten 7K til 1.4K uten at jeg kan finne noen årsak. Kortet har fungert helt optimalt uten feil inntil dette skjer med en 353p:

post-53451-1251022508_thumb.jpg

Endret av -alias-
Lenke til kommentar

Sjekk loggen din og se om kortet har hatt en EUE. Har den det, kan du prøve en restart av maskinen. Har et GTS250 på den PC'en jeg sitter på nå, og det har vist slike symptomer etter en EUE. I natt fikk den en WU, som gav så mange EUE'er at det gikk i dvale, men merkelig nok fungerte det normalt ved restart av klienten.

Endret av ei57
Lenke til kommentar
Sjekk loggen din og se om kortet har hatt en EUE.
Du hadde rett! Fant EUE i starten an loggen, restartet maskinen og nå stiger PPD.....og fortsetter å øke. La også merke til at GPU før resett hadde veldig lav temperatur, bare 45C. Etter å ha resatt nærmer temperaturen seg nå det andre GTS250 kortet i samme maskin, 64 - 65C. Etter 21 minutter er PPD oppe i 3.5K og stiger fortsatt. Bruker nå 1mn 54s pr. frame som gir 5964.63 ppd og som er normalt for kortet.

 

Pussige greier, skulle likt å vite hva som forårsaker droppet. Dette var på et 1GB kort. Har ikke sett de samme tendensene på 512MB kortene. Kanskje kjellms har rett i at man bør holde seg unna 1GB kortene i GTS250 serien.

Lenke til kommentar

Det virker som det skjer noe med driveren og kortet oppfører seg som om driver ikke er installert. Jeg har 512mb kort, så det hjelper ikke å holde seg vekk fra 1gb utgavene.

 

1 min 54 s er vel omtrent der gts250 eller ekvivalente kort ligger på disse nye WU'ene, så du er tilbake på normal fart. Kanskje lurt å klokke ned shaderen noe, slik at du unngår EUE på akkurat det kortet.

Lenke til kommentar

Etter at jeg byttet 1Gb fra primærkortplassen, har det ikke hatt slike symptomer og ingen av de to kortene i denne maskina har hatt noen EUE, UM eller nans detected. Da jeg hadde symptomene på 1Gb kortet var det altså primærkortet. Da skulle man tro at når 512Mb utgaven fikk plassen skulle den få like redusert poduksjon, men det har ikke skjedd, kun noe reduksjon når jeg virkelig bruker maskina mye. Så noe rart er det i forholdet mellom kortene og jeg har ikke forandret noen innstillinger.

 

Noe annet rart er jo at jeg ikke finner igjen Windows oppgavebehandling på denne, står på oppgavelinja, men er tydeligvis utenfor gjeldende vinduer.

 

Edit: Som jeg trodde den lå bare utilgjengelig på en del av det utvida skrivebordet, så ikke noe mystisk.

 

Men den Benchmarkinga i Fahmon er jeg ikke sikker jeg skjønner. Hadde pausa en client på primærskjermen i mange timer, allikevel ser man ikke utslag på tallene for den clienten. Effective rate er definert å gjelde siste WU og burde jo da være langt lavere, eller er det kanskje slik at effective rate bare regner med utenforstående (nett-nedlasting, programmer, arbeiskøer osv), men ikke de pausene man selv har bestemt. Uansett må det jo til syvende og sist komme med på ett av tallene, eller gjør det ikke. Eksemplet her er p5794 hvor det gjeldende prosjekt hadde stått hele natta på 512MB -GPUen. Der burde jo tallet på eff vært bare en brøkdel av full score.

post-75424-1251120947_thumb.jpg

Endret av kjellms
Lenke til kommentar

Fikk gjentatte EUE på GPU2 på et av mine 9800GX2. Forsøkte å klokke ned (langt ned) men det samme var det samme. Setter også CPU usage til 25% men ikke liv i GPU med hensyn til folding. Prosjekt er 5789 747p.

Jeg tror dermed at GPU2 på kortet er avgått med døden og tenker at jeg bare disabler den så slipper jeg å irritere meg mer. Er rimelig sikker på at jeg disablet riktig. Maskinen må resettes for at de nye innstillingene skal tre i kraft. Kommer opp igjen med GPU2 på et helt annet kort disablet. Dette er ikke i nærheten engang av der hvor problemkortet sto, men GPU nr. 8 i enhetsbehandling. GPU jeg disablet var på GPU2 kort nr 2, eller GPU4 i enhetsbehandling. Likevel, jeg starter alle klientene og nå starter faktisk den jeg trodde var død uten problemer. Merkelig tenker jeg videre, og enabler den jeg disablet tidligere for å se hva som skjer. Joda, det gårt 20 minutter og jeg begynner å lure på om maskinen har låst seg. Jeg har satt skjerm på den og der er alt svart. Jeg forsøker å nå maskinen via logmein fra en bærbar og det går. Jeg logger på og ser at nå er alle GPUer enablet. Jeg starter siste GPU som er nr. 8. Den starter og nå har jeg plutselig alle igang igjen uten mer tull. Alt er nå normalt med hensyn til produksjon og temperaturer.

 

Noen som klarer å se hva som kan ha forårsaket det midlertidige "dødsfallet" på den ene GPUen?

 

Lagt til i dag 25.08.2009

Det holdt i ett døgn så var det på han igjen.

 

Feilmeldingen er CoreStatus = 7A (122) og jeg finner en diffus forklaring på http://fahwiki.net/index.php/CoreStatus_codes som sier, sitat: "This appears in various forms but appears to be directly related to calculation errors detected by a GPU. Whether the errors are GPU hardware errors or are inherent in the WU is currently unknown" sitat slutt. Feilen forekommer kun på en av åtte GPUer i samme maskin. CPU er AMD 9350e. Det spiller ingen rolle hvilken WU som kjøres. Hvis jeg disabler GPU og enabler igjen oppfører GPU seg normalt ett døgn eller noe mer. Det må jo finnes en fornuftig forklaring eller løsning på dette?

 

Noen flere som får denne feilmeldingen eller er det bare meg?

Endret av -alias-
Lenke til kommentar

Nei, tja, hva vil du at vi skal si? Har du prøvd å flytte korta innbyrdes? ER det da fremdeles det samme kortet som får problemet så er det vel feil på det da. Men jeg kan ikke helt skjønne at det alltid skal være den samme GPUen som blir lidende om feilen er i CPU og RAM. Feilen trenger jo ikke være stor, en liten feil i GPU eller GPUens minne som kun i noen regnesituasjoner gir feil, derfor tar det litt tid før clienten oppdager det. (?).

Lenke til kommentar
Har du prøvd å flytte korta innbyrdes? ER det da fremdeles det samme kortet som får problemet så er det vel feil på det da.

Nei hadde ikke det, men nå har jeg forsøkt det. Feilen følger ikke PCIE-sporet og ikke kortet men flytter helt tilfeldig fra/til kort/spor. Windows gir meldingen om at GPU ikke kan starte, status code 10. Mulig det er en "råtten" windows-installasjon. Får faktisk ikke oppdatert drivere til skjermkortene heller! Forsøkte å foreta ny installasjon av Windows, men da kommer blåskjermen akkurat når "Starting Windows" etter at alle drivere er lastet. Meldingen er kjør chkdsk på HD, noe jeg gjør nå. Er kommet til: CHKDSK is verifying free space (stage 5 of 5)... og det har pågått i 20 minutter. Skal la den få en time til før jeg skifter til ny disk som kan motta ny installasjon.

Lenke til kommentar

Bare en liten påminnelse, ofte når man flytter slik må man passe på å utvide skrivebordet, og kanskje også starte en gang til før alle drivere er på plass igjen og kort og drivere kjenner hverandre igjen. Varierer litt fra gang til gang, hk til hk eller hva det nå måtte være. Men blåskjerm var jo alvorlig. Hvis det ikke er en fysisk feil er det jo noe som ikke er kompatibelt med hverandre, noe som kan ha oppstått etter oppgradering, dessverre.

men jeg heller jo mest til en feil i grafikkkortet, men har jo tatt feil før. Neste er vel en mulig feil i noe minne.

Lenke til kommentar

Ja det skjer mye rart man ikke helt fatter. Jeg hadde maskinen inne på verkstedet og ryddet ut samtlige skjermkort, resatte bios, og satte inn kort for kort med restart mellom hver gang. Dessverre så var det fremdeles en GPU som ikke ville starte riktig. Jeg ble lei, og bar maskinen ut til der den har stått og fyrte opp igjen og gikk. Logget inn fra min bærbare via logmein og der er jaggu samtlige GPUer på plass under enhetsbehandling. Jeg starter opp alle klientene og samtlige går rett i produksjon. Dette var kl. 16.00 og alt ser ennå normalt ut. Nå skal jeg ikke røre den maskinen før den stopper av strømbrudd eller av seg selv :D

 

Som du nevner så kan ting ha skjedd under mitt forsøk på oppgradering av drivere og at dette nå ble rettet på etter gjentatte restarter.

Endret av -alias-
Lenke til kommentar
Jeg vet ikke hvorfor PPD ble så høy i starten, noe som skjedde på flere klienter.

De gangene jeg har sett p5794 på Fahmon har tallene vært ganske jevne, både på 250GTS og 8800 korta mine, så noe er nok galt der. Men helt sikker kan man jo ikke være, kanskje er det et prosjekt der WUene kan variere mye, men da er det jo rart jeg har så jevne tall. At du har stor variasjon på andre WUer (på andre prosjekter regner jeg da med at du mener) kn vel tyde på noe tull med den GPU/driver/?? kombinasjonen din.

 

Noe annet, vi får ikke registert p5794 i scorelista. Noen som vet noe om det?

 

Edit: Eller mener du virkelig 5794 på flere clinenter og flere GPUer? Da er det jo enda rarere at jeg ahr så jevne verdier på samme prosjekt.

Endret av kjellms
Lenke til kommentar
Edit: Eller mener du virkelig 5794 på flere clinenter og flere GPUer? Da er det jo enda rarere at jeg ahr så jevne verdier på samme prosjekt.
Nei jeg tenkte ikke på noen spesielle WUer, men kun at noen klienter helt tilfeldig startet med høy PPD. Jeg har aldri sett det eller lagt merke til det tidligere. Normalt ligger det jevnt over likt på de man kan sammenligne med hverandre.
Lenke til kommentar

Joda der er en del som har veldig varierende hastighet på enkelte trinn. Synes å huske at en av 8800GS korta var oppi 16k på første trinn en gang, men det er jo bare slik noen prosjekt er laget antakelig. Det ble jo også kunngjort om 5912 -5915 at det ville variere fra frame til frame, men du har alstå veldig rare verdier på et prosjekt der jeg har veldig jevne verdier (dog ganske få, 6-8 kanskje).

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...