Gå til innhold

Verdens raskeste linuxcluster når nesten 20Tflops


Anbefalte innlegg

Ifølge presentasjonen så skalerer programvaren tilnærmet perfekt (~100% effektivitet) med antall prosessorer for hele systemet (se s. 15), og det er en skaleringsanalyse på de påfølgende sidene.

Nå ble jo ikke tallet 100% nevnt noe sted i den presentasjonen i forbindelse med effektivitet, så jeg anntar at det var ren spekulasjon. Ellers tviler jeg ikke på at Cray er istand til å bygge maskiner og nettverk som gjør at effektiviteten "scales nearly perfectly"(~90% tipper jeg). Det er tross alt maskinkonstruksjonen og nettverket som avgjør effektiviteten, ikke cpu, med mindre en har store mengder cache, mulighet til å laste data i god tid før de trengs og "latency hiding" teknikker. Opteron har ingen av disse Itanium mangler foreløpig den siste.

 

I likhet med "Big Mac" kan "Thunder" også bare plukkes ned og selges som enkelt maskiner når den er blitt utrangert. Thunder består av "helt standard" 4U servere. Det er vel og merke noe mer snevert marked for 4-way itanium systemer enn 2-way G5, men så er det da også en god stund til den er avlegs.

 

-NeoRag-: Et "like stort" Opteron cluster yter vel likt? Tflops er vel den mest naturlige størrelsen å måle etter. Så hva er tyngst av 1kg bomull og 1kg bly? ;)

Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368 prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Endret av Knick Knack
Lenke til kommentar
Videoannonse
Annonse

Tror nok Power 5 hadde vært fint å ha. Kjenner en i USA som har fått prøve den, angående DNA stukturering, eller noe sånt. Tror nok en slik hadde vært fint å ha, for å spille kabal, og minesveiper. :p

 

Hørte at IBM skulle bygge en superduper cluster.

IBM has recently said that the Department of Energy will use 12,000 Power 5 CPUs for its ASCI Purple supercomputer which will hardly flop along at 100 teraflops.
:w00t:

 

http://www.theinquirer.net/?article=10225

 

http://www.itweek.co.uk/News/1137113

More powerful

 

The deal also includes an order for a second, more powerful computer cluster called Blue Gene/L, which will be capable of a theoretical peak performance of 363 teraflops per second.

 

This system will include 160,000 CPUs and will run Linux software, will be completed by 2005, Teyssedre said. But IBM would not say whether this system would also use Power 5 chips.

 

Taken together, the two systems indicate the pace of change in the field of high-performance computing. The combined bill for both systems is $290m, and the combined processing power of these two systems will be 50 percent greater than the combined power of the 500 fastest supercomputers currently listed by independent benchmarking group Top500.org.

Endret av Macfan
Lenke til kommentar

Linux Networx Lightning, som ifjor høst ble levert til Los Alamos National Laboratory, er også Opteron-basert og ligger nå på 6. plass på Top500-listen med en ytelse på 11.26 teraflops:

http://www.fcw.com/fcw/articles/2003/0825/...ng-08-25-03.asp

 

"As one of the largest cluster supercomputers ever built, Lightning will consist of 2,816 Advanced Micro Devices Inc. Opteron processors and 1,408 dual-processor nodes, all of which will be interconnected by Myricom Inc.'s Myrinet high-speed network.

 

The project, with a total value of nearly $10 million, will be the first 64-bit Linux supercomputer in the ASC program.

 

Lightning is designed to have a theoretical peak speed of 11.26 trillion calculations per second. This speed will certainly rank Lightning among the top 10 supercomputers in the world and will give researchers at Los Alamos more computing strength, said Dean Hutchings, Linux Networx's chief operating officer."

 

Mer informasjon om Lightning finnes her:

http://www.lnxi.com/news/lightning_info.php

lightning.jpg

Cluster Overview:

  • Theoretical Peak of 11.26 teraflops
  • Supports the ASCI program
  • 2,816 AMD 2.0 GHz Opteron processors
  • Myrinet 2000 Lanai XP interconnect
  • ICE Box 3.0 Cluster management appliance
  • Beowulf Distributed Process Space (BProc) Configuration

 

Ifølge Xbitlabs så er Lightning og Orange (et mindre system også levert av Linux Networx) bygget opp av noder som bruker standard Arima HDAMA-hovedkort:

http://www.xbitlabs.com/news/cpu/display/20030814153104.html

 

"The “Orange” cluster will be part of Los Alamos’ Institutional Computing project that supports scientific, medical and environmental research such as the design of antibiotics and simulations of wildfires and water resources. Orange, a 256-node dual-processor cluster, is expected to be the first large-scale AMD Opteron processor-based cluster using InfiniBand technology for greater interconnect bandwidth and scalability.

 

Both the “Lightning” and “Orange” clusters are being designed, built and integrated for Los Alamos National Laboratory by LinuxNetworx and will be powered by the AMD Opteron processor Model 244. Both clusters will utilize the Arima HDAMA mainboard."

Endret av snorreh
Lenke til kommentar
Ifølge presentasjonen så skalerer programvaren tilnærmet perfekt (~100% effektivitet) med antall prosessorer for hele systemet (se s. 15), og det er en skaleringsanalyse på de påfølgende sidene.

Nå ble jo ikke tallet 100% nevnt noe sted i den presentasjonen i forbindelse med effektivitet, så jeg anntar at det var ren spekulasjon. Ellers tviler jeg ikke på at Cray er istand til å bygge maskiner og nettverk som gjør at effektiviteten "scales nearly perfectly"(~90% tipper jeg). Det er tross alt maskinkonstruksjonen og nettverket som avgjør effektiviteten, ikke cpu, med mindre en har store mengder cache, mulighet til å laste data i god tid før de trengs og "latency hiding" teknikker. Opteron har ingen av disse Itanium mangler foreløpig den siste.

Ja, men ikke glem at EPIC-kode er ca. 2.8 ganger større enn vanlig x86-kode så i den sammenheng så blir ikke Itanium2 sin tilsynelatende store cache så veldig imponerende. Opteron har dessuten flere fordeler som integrert minnekontroller og HyperTransport som langt på vei veier opp for dette. Jeg minner også om at det kommer dobbelt-kjerne Opteron med større cache til neste år :)

 

Du glemmer også et meget viktig poeng, nemlig PRIS og på det området kan ikke Itanium-løsninger konkurrere med Opteron-løsninger som denne historien fra AIP gir en klar indikasjon på:

http://www.supercomputingonline.com/article.php?sid=6203

 

"Until recently, this would have meant investing millions of pounds in an expensive supercomputer and paying the manufacturer 10 to 20 percent of the purchase price each year to maintain it, but now there is a real alternative, offering true return on investment.

 

“The alternative is clusters of computers of standard design which are configured to perform many tasks in parallel, like a true parallel high-performance computer” explains Matthias. “The performance is the same as a traditional supercomputer, but at a tenth of the cost.”

 

“We bought the solution in two stages” explains Matthias. “In 2002 we a small 32bit machine with 72 CPUs and spent almost one year testing the technology to find out what it was we needed to invest in to get the optimum performance. We struggled with the limited 4GB per CPU of memory that 32bit technology offered, but at the time the only alternative was Intel’s 64-bit Itanium processors and they were way out of our budget” he explains.

 

By the time the Institute was ready to go out to tender for stage two, AMD had launched an affordable 64-bit rival to Intel’s Itanium processor, designed to exploit PC technology. “This new technology was of great interest to us” explains Matthias. “It was the first microprocessor on the market to natively support both 32-bit and 64-bit applications and although we hadn’t tested it out, there was data to suggest that this would give us what we needed.

 

Det skulle ikke forundre meg om man kan få minst dobbelt så mange 4-veis Opteron-noder til samme prisen som en enkelt 4-veis Itanium2-node, siden man idag såvidt jeg vet kan få opptil 4 stk. 2-veis Opteron-noder til samme prisen som 1 stk. 2-veis Itanium2-node.

 

Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368  prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Unnskyld meg, men hva er det du prøver å si her? :huh:

 

Husk nå på at hele dette rare teraflops begrepet som Top500-listen bygger på kommer utelukkende fra LINPACK. Selv synes jeg den benchmarken er en helt håpløs indikator på ytelse, men det er nå engang slik at det er målet som brukes for å rangere superdatamaskiner og det må man bare akseptere.

Endret av snorreh
Lenke til kommentar
Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368  prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Unnskyld meg, men hva er det du prøver å si her? :huh:

-NeoRag- lurte på hvor mye ytelse en får ut fra et "like stort" Opteron cluster. Jeg prøvde vel bare å forklare at det var bedre å prøve å finne ut hvor mange prosessorer en behøver for å få tilsvarende ytelse, da størrelse i denne sammenheng er best uttrykt som Tflops. Klart det kan sikkert vurderes annerledes. En kan jo tenke på størrelsen av et system som antall prosessorer også. Jeg fant imidlertid ikke det som mest naturlig i clustersammenheng siden cpu type og antall bare er en del av det totale bildet. SGI har f.eks. bygd en NUMA maskin med 512 Itanium 2 prosessorer. Det ville ikke vært riktig å sammenligne denne med 256 dualnode maskiner koblet sammen med gigabit ethernet selv om en har samme type CPU og (naturlig nok) samme antall. Begge ville nok ha tilsvarende Linpack ytelse, men SGI maskinen ville ha langt bedre ytelse i apps hvor parallellitet ikke er like enkelt å oppnå, slik som værsimulering, siden den er NUMA med høy båndbredde og lav forsinkelse og ikke cluster. 512-way SMP hadde teoretisk sett vært best, men det lar seg ikke bygge uten at en går like ekstremt til verks som Cray tidligere gjorde. Det koster også veldig mye.

Endret av Knick Knack
Lenke til kommentar

Knick Knack: Ja, nettopp :yes:

 

Idag handler det stort sett om pris/ytelse og tradisjonelle superdatamaskiner blir stadig oftere byttet ut med mye rimeligere kluster-løsninger. På dette området så er Opteron-klustere utvilsomt best hva ytelse/pris angår, og derfor satser også flere tradisjonelle aktører på slike løsninger som f.eks. Cray's XD1:

http://www.cray.com/products/systems/xd1/

xd1_sm.jpg

 

Også flere andre av de store aktørerene leverer kluster-løsninger basert på 2-veis Opteron-bokser idag, bl.a. IBM, HP og Sun. HP er allerede ute med 4-veis Opteron-bokser, og iløpet av året så vil nok også 8-veis Opteron-bokser være godt utbredt i markedet tipper jeg. Hverken Power5 eller Itanium2 kan konkurrere med Opteron i slike rimelige kluster-løsninger, men har istedet sin eget nisje i markedet der andre kriterier enn pris er gjeldende og hvor kluster-løsninger ikke er å foretrekke.

Endret av snorreh
Lenke til kommentar

Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått. :hmm:

 

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

 

The machine is the first supercomputer based on Macs; it is one of the few supercomputers built entirely from off-the-shelf components and it cost a bargain-bucket price -- only $5.2 million. By comparison, most of the top 10 supercomputers cost about $40 million and up. The Earth Simulator cost $350 million.

 

"It is impressive, absolutely impressive what they've done," said Dongarra. "($5.2 million is) a very low number for a computer of this size and power."

 

Dongarra said the cost is so low he questioned whether the college got a special discount. Lockhart couldn't be reached for an answer.

 

Dongarra said in terms of the number of processors, Big Mac's closest analog is a cluster of 2,300 2.4 GHz Xeon processors at Lawrence Livermore National Laboratory. Clocked at 7.6 teraflops, the cluster is currently ranked third. "It will be interesting to see where the G5 comes in comparison to this machine," he said.

http://www.wired.com/news/technology/0,1282,60821,00.html

http://www.bayarea.net/~kins/AboutMe/why_G...t_clusters.html

Endret av Macfan
Lenke til kommentar
Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått. :hmm:

 

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

Terrabite, hva er det? :dontgetit:

 

Husk nå på at VirginiaTech's Terascale ikke er særlig representativ for prisen på tilsvarende kluster-løsninger i det åpne markedet siden den er basert på saftige rabatter og godvilje fra samtlige innvolverte leverandører og en god del frivillig arbeid :)

Endret av snorreh
Lenke til kommentar

Snorreh: Om en behøver billige clustre eller må ha dyre er avhengig av hva slags oppgaver det skal løse. Det er også slik at interconnect og maskiner utgjør den største kostnaden ikke selve cpu. De spesialbygde maskinene som brukes til Red Storm vil på ingen måte bli billigere enn cluster bygd med standard Itanium servere, men vil sikkert bli mer effektiv enn Itanium clusteret på oppgaver hvor en må ha rask tilgang til store datamengder. Dette fordi Cray ser ut til å lage et langt mer sofistikert interconnect. Quadrics er bra, men det er fortsatt et rimelig "standard" cluster nettverk. Mer som GbE på steroider i likhet med myrinet og infiniband. Kan ikke sammenlignes med de interconnects som brukes i earth simulator og Cray x1.

 

Cray XD1 leverer sikkert svært høy ytelse i forhold til prisen, men det forutsetter at en kjører apps som enkelt lar seg parallellisere massivt. Apps som ikke tillater det krever dyre systemer uavhengig av CPU type siden cpu kostnaden ikke vil være domminerende.

Lenke til kommentar
Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått. :hmm:

 

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

Mulig det, men husk nå på at VirginiaTech's Terascale ikke er særlig representativ for prisen på tilsvarende kluster-løsninger i det åpne markedet siden den er basert på saftige rabatter og godvilje fra samtlige innvolverte leverandører og en god del frivillig arbeid :)

 

Terrabite? :dontgetit:

Vel sier du at de fikk 5mill$ i støtte?? Det høres utrolig usansynlig ut. Apple er ikke så stor. De har nok fått rabatter, men når du kjøper 2200CPUer får du nok rabatt fra alle.

 

Og en litten glipp der skulle være Tfops.

 

1) Uansett hvordan du snur og venner på det, så er det høyest usansynlig at de totale kostnadene hadde kommet over 7Mill$.

2) Tror nok at de andre super clusterene har fått litt frivelig hjelp. Og de fleste super clusterene (top 5) har nok fått mer rabatt en det dette clusteret har kostet totalt.

Endret av Macfan
Lenke til kommentar
og hvor mye koster en halv megawatt? :ermm:

En kilowattime koster vel 50 øre, så regn ivei =)

 

*går ikke god for strømprisen!*

kan få en halv megawatt gratis av meg, men ikke lenge.

Hvis du tilbyr, så veldig gjerne.!

 

(for , samma å lite du bruker en halv megawatt, så har du alikavel brukt en halv megawatt! , om du fatta det.)

Lenke til kommentar

Tror det begynner å bli noe forvirrig rundt hva som er den viktigste komponenten i et cluster. Det er nemlig nettverket. Klart Japanerne kunne fått høyere teoretisk ytelse ved å kjøpe standart hyllevare som gigabit ethernet og Xeon prosessorer. De hadde vel fått et forferdelig stort cluster for de $350 mill. de svidde av. Problemet var at de skulle bruke systemet til beregning av været her på jorda. Dette lar seg greit bryte opp i mange tråder, men resultatene som beregnes i en tråd vil alltid være avhengig av resultater fra andre tråder, uansett hvordan en bryter opp denne typen programmer i tråder. Derfor er det i dette tilfellet viktig å lage et cluster som effektivt tillater at alle trådene kan aksessere alle data som er generert. Dette oppnås ikke ved å koble 20.000 singelnode maskiner via gigabit Ethernet. Det er faktisk den verst tenkelige konfigurasjonen for et slikt problem. 10.000 dualnoder ville vært dobbelt så bra, men fortsatt ellendig. I følge Cray så kan clustre av denne typen (dualnode + GbE) ligge på ca 1-5% effektivitet på slike typer oppgaver. Tar jeg ikke mye feil så vil SGIs 512-way NUMA maskin yte langt bedre enn "Thunder" med sine 1024 quadnodes og nøyaktig samme CPU, når det kommer til å lage en værmelding. Hadde oppgaven f.eks vært kodeknekking så hadde nok Thunder vært ganske nøyaktig 8 ganger raskere enn SGI maskina, hvilket gjenspeiler den teoretiske regnekapasiteten.

Endret av Knick Knack
Lenke til kommentar
og hvor mye koster en halv megawatt? :ermm:

En kilowattime koster vel 50 øre, så regn ivei =)

 

*går ikke god for strømprisen!*

kan få en halv megawatt gratis av meg, men ikke lenge.

Hvis du tilbyr, så veldig gjerne.!

 

(for , samma å lite du bruker en halv megawatt, så har du alikavel brukt en halv megawatt! , om du fatta det.)

Jeg kan dessverre ikke levere på døra, men om du stikker innom så har jeg liggende noen keramiske kondensatorer her. Jeg kan bare lade opp de og så kortslutter vi dem. ;)

 

kommer vel knapt til å se gnisten, men en kan jo regne på det etterpå. :p

Lenke til kommentar
Det clusteret, og d2ol for alle penga :D

 

Tar vel rotta på hele team anandtech.

Kunne jo bedt på våre knær om de kunne regge d2ol norge sin brukerkonto og kjøre den en liten ettermiddag eller noe, slik at vi fikk et seriøst forsprang på KraftKuene og resten av d2ol eliten. :p

 

DrE

Lenke til kommentar

Knick Knack: Selv om jeg ikke helt kjenner til alle detaljene, så virker det han sier meget interessant:

 

"Cluster vendors would have you believe that their performance is the linear sum of each of their respective GFLOPS [Giga Floating Point Operations Per Second]," he said. "Most cluster [experts] know now that users are fortunate to get more than 8% of the peak performance in sustained performance."

 

Cray XD1 marries the performance of large SMPs with the economics of cluster solutions, according to Terry. It will also pair new interconnect and management technologies with AMD Opteron 64-bit processors in a direct-connected processor (DCP) architecture. Its parallel-processing capabilities will directly link together processors to relieve memory contention and interconnect bottlenecks found in cluster systems.

 

"The Cray XD1 is not a traditional cluster; it does not use I/O interfaces for memory and message passing semantics," said Terry. "For HPC, the most important thing is application performance, and the Cray XD1 is specifically designed to maximize application performance."

 

For mer informasjon om DCP (Direct Connected Processor)-arkitekturen så se her:

http://www.cray.com/products/systems/xd1/dcp.html

XD1_architecture_cray400.jpg

 

Samt dette PDF-dokumentet:

Closing the gap between peak and achievable performance in HPC

 

Den inneholder en interessant sammenligning av ytelsen til forskjellige typer "interconnects" og en analyse av skalering :)

Endret av snorreh
Lenke til kommentar
1kv = 1000w

1mw = 1000000w

 

altså en halv er da

 

500000*50=25000000 øre /100 =250000 kroner i timen

 

 

Er dette riktig? 

 

 

Nei, det er ikke riktig.

 

en halv Megawatt er 500KiloWatt

Hvis prisen på 1 Kilowatt er 50 øre, så blir en halv megawatt 0,5*500 =250 Kroner pr time.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...