F@H Team "hardware.no" (lagnr: 37651)

-alias- · 20. januar 2010

Ja det var rart, men for ordens skyld, er user ID forskjellig på de to maskinene?

Er userID linket til GPU? Hvis det er tilfelle så vil jeg tro at feilen kommer av flg.: Jeg lot 2 maskiner med henholdsvis 2 og 3 kort bytte 2 skjermkort. Begge maskiner hadde plass til 3 kort. Det tredje kortet byttet så igjen plass med et kort i en maskin nr. 3. To av kortene har så overtatt tidligere korts jobb, og dermed oppstår en uheldig mix av WUer og userIDer. Det rare er at en fjerde maskin som ikke var involvert i kortbyttene ble en av aktørene med samme WU, så det skal ikke være enkelt. Ingen av de påbegynte WUene byttet maskin, nei jeg stopper der før jeg må legges inn. :eek:

Nå er disse WUene ferdige og det ser ut som at hvert kort igjen har hver sin unike userID. Jeg rakk ikke å sjekke userID på de involverte kortene da det pågikk, men etter sjekk nå har hver GPU/klient unik userID i sin respektive logg. Byttene skyldes problemene med lite strøm jeg hadde til CPU en stund på i7 riggen. Dette gikk ut over GPUene og ga EUE på samtlige til slutt. Jeg burde jo ha tenkt litt mer, men i farten så byttet jeg bare kort. Etter å ha byttet om på kortene går det feilfritt igjen nå, så det virket tross alt. At samme WU oppsto på 1 + 2 maskiner (4 forskjellige GPUer) var heldigvis en midlertidig affære. Jeg trodde kanskje at et nytt kort ville starte sin egen logg med sin egen userID selv om en påbegynt WU ble overtatt.

-alias- · 20. januar 2010

Edit: har sydd sammen en i7-860 i ettermiddag og driver nå og setter den opp.

Dette blir knall, grattis, snakker vi bigadv framover? :thumbs:

Endret 20. januar 2010 av -alias-

kjellms · 20. januar 2010

User ID er resultat av OSinstallasjonen i en maskin slik at alle clienter og hardware installert på den PCen har samme User ID. Det betyr at om man faller for fristelsen til å installere samme image på flere maskiner får de samme User ID. Da har man et problem hvis man ikke gir hver av clientene forskjellig machine ID. Eks. PC 1: Macine ID 1-3, PC 2: Machine ID:4-6. Det trenger nødvendigvis ikke bli rot i alt, noen ganger vil det bare fra Stanford se ut som det er en inn i hampen effektiv maskin enkelte steder.

Joda Xell de sendes forsåvidt til mange, men en WU er en slik utregning, hvordan skal man ellers kunne holde orden på dem. De er altså identifisert med (Run Clone Gen) Run er på en måte hovedproblemstilling, Clones varianter av denne og Gens (generasjoner) hvor mange ganger man gjør påfølgende beregninger. Står det i det siste tallet Gen 1722 betyr det at man har regnet ut et resultat av en clone 1722 ganger slik at hvert regnestykke baserer seg på resultatet foran. Og hver av disse er å regne som en arbeidenhet WU. Slik at når du sender inn resultatet er du kanskje heldig og får neste WU som baserer seg på forrige utregning som du leverte inn.

Det er ikke noe flertallsdemokrati i slike utregninger og hva som eventuelt er riktig kan uansett diskuteres hvis det til syvende og sist viser seg at proteinet aldri er i nærheten av å bruke den beregnede bevegelsen eller konfigurasjonsendringa som man også kan kalle det.

Som jeg har nevnt tidligere, dette er grunnforskning på ting man ikke helt vet hvordan fungerer og kanskje finner man noen fornuftige svar ved en del av beregningene.

Endret 20. januar 2010 av kjellms

Xell · 20. januar 2010

min "logiske" tanke var at hvis en clone/gen/run sendes ut til flere så kan det vel hende at samme bruker får den flere ganger.

Som sagt så har jeg sette dette hos meg selv uten at jeg har gjort noe i nærheten av så komplekst som alias holder på med i forbinnelse med å bytte kort også videre. Jeg har observert at en enkelt CPU-kjerne (på en PC med kun en kjerne) har hatt samme clone/gen/run i løpet av de siste 10 WUene. og for alt jeg vet kan det hende den har hatt den flere ganger også, men siden køen er på 10 WU ser ikke QD på mer enn de 10 siste oppgavene på en CPU.

Så jeg tror ikke alias behøver å bekymre seg og bruke masse tid på dette.

edit: det blir bigadv etter hvert hvert ja, men jeg må kjøre noen standard SMP først (har ikke fullt 10 på passkey enda). Selvsagt fikk jeg ikke WU med en gang jeg hadde satt opp alt, men det tok heldig vis ikke mer enn 5 min.

Endret 20. januar 2010 av Xell

HawP · 20. januar 2010

Man blir litt forbannet når en eller flere servere er nede i flere timer. Dette har skjedd flere ganger i dag og sist nå i kveld. Hadde 6 GPU-klienter som ble berørt, som bare sto og stanget slik:

Først ved 00.30 tiden begynnte det å løse seg opp.

Stanford hadde strømbrudd.

As of 13:20 UTC today (5:20 Stanford time), many of the Folding@Home servers have gone offline, following a major power outage. The power plant that supplies the campus - Stanford Cogen - has failed, leaving the campus on emergency power only.

The backup generators have taken over, but some Folding@Home servers remain unpowered, and others that are still active could be powered down if the server rooms become too hot (the air conditioning systems are not completely powered by the emergency generators).

Xell · 20. januar 2010

jeg liker ikke ACPI. Default i Ubuntu er at CPUscaling står til "OnDemand", men fah er vist ikke kravstor nok til å gire opp CPUen så den gikk på 1.2GHz :grumpy: Bra jeg husket å legge til scaling-monitoren på taskbaren, ellers hadde jeg ikke tenkt over det.

Nå går den på 2.8GHz :thumbs: Jeg drøyer med å klokke noe som helst til jeg har fått sett at jeg har et stabilt system.

-alias- · 20. januar 2010

User ID er resultat av OSinstallasjonen i en maskin slik at alle clienter og hardware installert på den PCen har samme User ID.

Ja, ok, der røk min teori og da har det lite med bytte av kort å gjøre. Har innstallert OS manuelt på hver maskin så feilen kommer ikke derfra. Takk for oppklaringen med hensyn til User ID, som er nyttig å vite. Det kom mer godt ut av kortbyttene enn jeg nevnte i forrige innlegg, kortene går ikke lenger varme som tidligere og klarer selv 548p på 4 kort i samme rigg uten å heve temperaturen nevneverdig. Satte i tillegg ny rekord (i øyeblikket, avlest lokalt) med 146K PPD. Runder jeg 150 så blir det må det bli en feiring i morgen etter at bigadv nr. 3 er i mål vil jeg tro.

kjellms · 20. januar 2010

Jeg synes jo ikke den linkede forklaringa til Dan Ensign: Runs, Clones and Gens er så verst. En viss ide gir det jo om hvordan det fungerer.

Sitat 1: Okay, here it is: The CLONE numbers are labels for each trajectory that we run. Each GENeration is another chunk of time along that trajectory. So, say that I benchmark CLONE0, GEN0 (the first 4 ns). That WU is then done, and the FAH software builds a new WU with starting coordinates (and velocities and stuff) where mine left off. Then the new WU -- GEN1 of CLONE0 -- gets sent to you, and you simulate the next 4 ns. And so on. So CLONE is a label for an individual trajectory, and GENerations are time steps along that trajectory.

Sitat 2:

So to summarize, when I'm setting up a project, I might do the following:

1. Pick 100 different unfolded or partially unfolded conformations of my protein of interest. These become my RUNs.

2. Then, I set up 100 different CLONEs for each RUN. (Well, I don't actually set them up myself, I just run a program. But I run it really well. And intelligently. And I look good doing it.) Each CLONE contains one WU at this point.

3. Then, I let the (100 RUNs) x (100 CLONEs) = 10,000 WUs loose on the world ("you guys").

4. Then, I go have lunch.

5. I come back weeks later to find WUs crunched and GENerations progressing -- each of the original 10,000 WUs was the beginning of one trajectory, so at the end, I have 10,000 trajectories of 50 or 100 or more ns.

6. Finally, I sift through the data and learn something new about protein folding!

WOW -alias- du begynner jo å bli en internasjonal storfolder, imponerende! :thumbs: Ellers er jeg enig med Xell, når det fungerer er det ikke noe å bekymre seg for. Det kan jo også være HFM som har spilt deg ett puss fordi du bytta kort. Av og til ser vi rare utslag og det er neppe bryet verd å finne ut hvor bitsene er stokket.

Endret 20. januar 2010 av kjellms

Xell · 20. januar 2010

Det er en flott froklaringe, men han sier ingen ting spesifikt om at den blir, eller ikke blir sendt til flere brukere.

Jeg har som sagt opplevd dette og da var det ikke to forskjellige kjerner som jobbet på samme WU, men en kjerne som fikk samme WU etter å ha jobben på anndre WUer mellom første og andre gangen den fikk denne WUen (identisk run/clone/gen)

Fant ut at finstall ikke starter mer enn 4 kjerner fordi den kun legger til -smp som flag selvom den sier under installasjonen at den ser 8 CPU. La først til -smp 8 i filen som legger til flagg, men da startet det opp med både -smp 8 og -smp og fortsatt bare 4 kjerner. Litt google (det må jo være en grunn til at jeg har linken i sig ) litt "hacking" in startupscriptet og vips nå starter den med -smp 8

Men det ser ikke ut til at den klarer å kjøre 100% på alle "kjernene" hele tiden. Det er tross alt juks med 4 CPU og hyperthreading. 6 tråder på 100%, en på rundt 10% og en på 0%, men det ser ut til at den veksler mellom hvem som ligger på lav ytelse. Har hatt litt stopp og start nå så det er litt vanskelig å se akkurat hvor bra ytelsen er etter siste fix, men fant ut at dette med 10 WU med passkey og 80% innen deadline gleder client og ikke bruker så da hjelper det ikke at jeg har hatt passkey på den andre SMP-PCen. Får vel la denne gå 10 WUer før jeg setter på -bigadv. Er det noen instillinger som må endres når man skal kjøre bigadv annet enn å legge til flagg? Jeg mener jeg leste i en forumtråd ett eller annet sted at man skulle slå av advanced, men det virker ikke logisk for meg. Noen tips i fra dere som allerede kjører?

Xell · 20. januar 2010

jeg liker ikke ACPI. Default i Ubuntu er at CPUscaling står til "OnDemand", men fah er vist ikke kravstor nok til å gire opp CPUen så den gikk på 1.2GHz Bra jeg husket å legge til scaling-monitoren på taskbaren, ellers hadde jeg ikke tenkt over det.

Nå går den på 2.8GHz Jeg drøyer med å klokke noe som helst til jeg har fått sett at jeg har et stabilt system.

nevnte jeg at jeg ikke er noe glad i ACPI?

Kjekt å sette alle kjerner på preformance i stede for ondemand. Da fikk den opp farta gitt. Nå må jeg bare være helt sikker på at den ikke smetter tilbake til onDemand ved reboot.

ei57 · 20. januar 2010

Etter å ha fulgt den offisielle installasjonsguiden og modifisert skriptfila for bigadv, endte jeg opp med dette:

./fah6 -smp 8 -bigadv -verbosity 9 &

Det fungerer fint. Du må i tillegg skifte ut fah6 med en variant for bigadv. Du finner link nederst på siden under.

http://foldingforum.org/viewtopic.php?t=10697

Når den er lastet ned, gjenstår bare å gjøre den kjørbar:

chmod +x fah6

Xell · 20. januar 2010

eh..... jeg bruker Ivo Saraks' finstall-script fordi det er latterlig enkelt og har alltid funket for meg (det som tar lengst tid ved installeringen er configen). I tillegg legger det til nødvendige scripts for å installere/avinstallere service og laster ned 3de-parts verktøy for monitorering (QD-tools)

Så langt funker alt veldig greit for standard SMP og hvis jeg skjønner deg rett så må jeg laste ned og erstatte fah6 scriptet. Mest sannsynelig likner de veldig på det jeg allerede har i henhold til flag så jeg får kikke litt på det.

takk for tipset om at jeg må laste ned ny fah6. Det hadde jeg ikke sett noe sted.

ei57 · 20. januar 2010

Du kan jo bare editere skriptet, i praksis fjerne advmethods.

fah6 for bigadv er som WU'ene endel større, så du slipper å finmyse for å se at det er forskjell.

kjellms · 20. januar 2010

Jeg har som sagt opplevd dette og da var det ikke to forskjellige kjerner som jobbet på samme WU, men en kjerne som fikk samme WU etter å ha jobben på anndre WUer mellom første og andre gangen den fikk denne WUen (identisk run/clone/gen)

Og det var ikke bare at den startet på nytt på denne WUen fordi noe gikk galt?

Xell · 20. januar 2010

Men det er en ting jeg er litt forrviret over. Man snakker om flagg -adv også har man sptøsmål i config om man skal kjøre advanced methods. jeg har aldri kjørt med -adv (ser det på logen), men jeg har alltid svart ja på spørsmålet i config. Er dette det samme? altså må jeg kjøre config en gang før jeg starter bigadv og svare nei på dette spørsmålet?

Edit: angående oppdatering så ser det ut til at jeg bare trenger å laste ned ny fah6 og legge til -bigadv der jeg la til -smp 8 i start-scriptet. config er jeg fortsatt litt fuzzy på om trenger endringer.

Endret 20. januar 2010 av Xell

ei57 · 20. januar 2010

Slik ser config-fila mi ut (etter user,team og passkey):

asknet=no

bigpackets=big

machineid=1

local=50

[http]

active=no

host=localhost

port=8080

Ser ut til at jeg bare har kjørt "kortversjonen" av config og -adv er ikke å se noe sted. Kan ikke huske at jeg endret config når jeg begynte med bigadv, det var bare å bytte fah6. Alias har noe ferskere erfaringer enn meg og kan korrigere om nødvendig.

Xell · 20. januar 2010

takker. da satser jeg på at det bare er å bytte fah6 og legge til -bigadv i flaggene.

Men først må jeg gjennom 10 vanlige pakker.

-alias- · 20. januar 2010

Edit: angående oppdatering så ser det ut til at jeg bare trenger å laste ned ny fah6 og legge til -bigadv der jeg la til -smp 8 i start-scriptet. config er jeg fortsatt litt fuzzy på om trenger endringer.

Jeg bruker kun denne: ./fah6 -bigadv -smp 8

Evt. så legger du til "-oneunit" bakerst hvis du ønsker å stoppe etter først bigadv. I tillegg må minnet i innstillingen økes til min. 4600MB for VMware. Lærte det av Theo og det virker som han vet hva som skal til. Hos meg kjører det nå 100% stabilt etter at jeg klokket ned fra 4 til 3.9GHz. I config endret jeg kun til "Big". VMware lastet jeg ned fra linken i førsteposten, som er ferdig tilpasset bigadv. Hos meg så kjøres tilnærmet 100% på alle 8 tråder samtidig med at jeg kjører 3 stk. GTS250 på full folding, slik:

Xell · 21. januar 2010

jeg kjører ren ubuntu, ikke wmware. Og siden jeg bruker finstall til å legge de in som service så kjører jeg aldri ./fah6 ...... Den starter av seg selv ved oppstart og hvis jeg skal gjøre noen endringer i instillinger så kjører jeg;

/etc/init.d/folding stop

gjør endringene og starter igjenn med

/etc/init.d/folding start

Dette har fungert knirkefritt så lenge jeg har foldet på linux (omtrent like lenge som jeg har foldet ). Og det er heller ikke dette som er problemet nå, men hvorvidt bigadv krever noen spesielle svar under -configonly. så langt virker det ikke slik, var bare jeg som var litt forvirret over noe jeg hadde lest i en tråd lenge før jeg begynte å tenke på å selv folde bigadv. Nå får den kjøre standard SMP noen dager så får jeg prøve å starte bigadv så får vi se. Kan hende jeg kommer tilbake med noen spørsmål da hvis den ikke vil starte riktig.

Theo343 · 21. januar 2010

Edit: har sydd sammen en i7-860 i ettermiddag og driver nå og setter den opp.

Dette blir knall, grattis, snakker vi bigadv framover?

Grattis

F@H Team "hardware.no" (lagnr: 37651)

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer