Gå til innhold

Opteron akselererer


Anbefalte innlegg

Oi! Spennende. Jeg vet ikke helt hva den Virtex-4-brikken skal gjøre for noe, men får vel lese litt om den først ;)

 

De 3 første treffene på google ser informative ut ved første overblikk:

Xilinx: Virtex-4 Overview

FPGA Journal: Virtex 4 Gets Real - How Does Xilinx's New Flagship Measure Up?

FPGA Journal: Virtex-4 Xilinx Details Its Next Generation

Datablad

 

Edit: En massivt parallell DSP-prosessor kan jo være nyttig til en del HPC. Virtex 4 har vistnok inntil 512 DSP'er på 500MHz med mulighet for inntil 256 G multiplikasjoner per sekund (ca 25 ganger mer enn en high-end Opteron single core og nesten på nivå med high-end GPU'er), 1Gbit/s ethernet, opp til 11Gbit/s annen I/O.

 

Men hvilke bruksområder er denne siktet inn mot? Rendering av hollywood-filmer? Vær og klimasimulering? Knekke kraftige krypteringer? Simulere atomvåpen?

Endret av Simen1
Lenke til kommentar
Videoannonse
Annonse
Interessant. Jeg har mye mer tro på en løsning koblet til HTT enn clearspeed sine innstikkort, både med tanke på latency og båndbredde. Siden nærmest alle nå blir tvunget inn i parallellisering av kode, kan en co-prosessor koblet intravenøst til en Opteron kanskje ha noe for seg på litt bredere basis enn tidligere.

5835472[/snapback]

Ja, det blir interessant å se hvordan utviklingsmiljøet fra Celoxica blir samt hvilken maskinvare-løsning som velges for å koble disse Virtex-4 ko-prosessorene sammen. Bruk av HyperTransport-linker virker mest fornuftig, men det krever i såfall at fremtidige Opteron for sokkel F (sokkel AM3?) faktisk vil ha flere linker tilgjengelig enn dagens Opteron for sokkel 940. Det er uansett meget spennende :)

 

Morsomt at Cray nå får levere et system i øverste sjikt basert på Opteron. HTT teknologien åpner også for effektive måter å bygge større maskiner med delt minne basert på Opteron.

5835472[/snapback]

Ja, Oak Ridge National Laboratory sin Baker vil sette Sandia Labs Red Storm helt i skyggen. 24000 quad-kjerne Opteron-prosessorer er ikke akkurat hverdagskost :cool:

 

The Inquirer skriver også om dette her:

http://www.theinquirer.net/?article=30646

 

Her er forøvrig en annen interessant nyhet/spekulasjon vedrørende neste-generasjon Opteron som Hardware.no heller ikke har nevnt:

http://www.theinquirer.net/?article=29890

The first of these that we have heard about is the server variant, and it will be a killer. It has 2x the floating point units, and sources tell us that it will push about 1.5x the floating point performance of the current chips in the real world.

 

Woodcrest is going to be an Int monster, but slightly weaker on the FP side. This chip, be it K8L or a new code name, should blow Woody out of the FP waters.

50% økning i flytetallsytelse lover absolutt meget bra :)

Endret av snorreh
Lenke til kommentar
Men hvilke bruksområder er denne siktet inn mot? Rendering av hollywood-filmer? Vær og klimasimulering? Knekke kraftige krypteringer? Simulere atomvåpen?

5836027[/snapback]

Bare fantasien setter grensene :) Jeg vil regne med at en slik løsning i første omgang vil rette seg til HPC-industrien, ettersom man her har mye kode som lett kan portes og hvor man aldri vil få nok ytelse. Hvis en slik løsning kan mangedoble flytetallsytelsen til kritiske applikasjoner, så ser jeg ikke bort i fra at en slik Opteron-basert løsning med Virtex-4 ko-prosessorer kan bli svært kostnadseffektivt sammenliget med Power-løsninger fra IBM og Itanium-løsninger fra SGI.

Lenke til kommentar
Jeg vil nå heller si at penis forlengelse er å kjøre noe mer enn p4 2ghz på kontor PC'r.

 

Jeg sitter med en P4 1,5 ghz, 1 gb ram og XP på jobben. Det er som å jobbe i en smørje. Treig og jævlig.

Hjemme har jeg derimot en overklokket Opty :love: 144, 1 gb ram og XP som går som racerbil i forhold.

 

Forskjellen merkes brutalt i alle type programmer.

Endret av Spartan
Lenke til kommentar
Bruk av HyperTransport-linker virker mest fornuftig, men det krever i såfall at fremtidige Opteron for sokkel F (sokkel AM3?) faktisk vil ha flere linker tilgjengelig enn dagens Opteron for sokkel 940.  Det er uansett meget spennende :)

5838217[/snapback]

For 200 serien så vil flere linker være glimrende, men for 800 serien, som tross alt brukes hovedsaklig i 4-sokkel løsninger, er det jo allerede ledige HTT linker, det er jo dette Horus benytter seg av. Men slik massiv FP ytelse kan fort få minnebussen sprengt, så DDR2 er nok kjærkomment for en slik løsning, kanskje flere minnekanaler også. Flere HHT linker på 200-serien kan åpne opp for vanvittig float ytelse på en standard arbeidsstasjon, så dette kan bli spennende tider.

Lenke til kommentar
Jeg vil nå heller si at penis forlengelse er å kjøre noe mer enn p4 2ghz på kontor PC'r.
Jeg sitter med en P4 1,5 ghz, 1 gb ram og XP på jobben. Det er som å jobbe i en smørje. Treig og jævlig. Hjemme har jeg derimot en overklokket Opty :love: 144, 1 gb ram og XP som går som racerbil i forhold.

 

Forskjellen merkes brutalt i alle type programmer.

5838251[/snapback]

En kamerat av meg har en lignende situasjon: Den gamle traveren av en arbeidsmaskin han har på kontoret (P4 2,8GHz 2GiB ram ++) som jeg satt opp for han for 3 år siden går som ei kule ennå, mens den nye PCen han har fått på jobben (til noe annet arbeid i et annet rom) basert på P4 3,2GHz, 1GiB ram ++, går som ei smørje. Han trodde først at han hadde fått en 5400rpm harddisk i den, men det stemte ikke. Den var 7200rpm. Poenget mitt er at hvordan man setter opp maskina virker veldig inn på ytelsen. Dersom man nøyer seg med et image av NTNU's standardoppsett så går det som en smørje, samme hvilken hardware den kjører på, men dersom man setter maskinen opp selv og gjør det riktig så kan det gå som ei kule i mange år.

Lenke til kommentar
  • 4 uker senere...

The Register har nå laget en sak om dette her:

http://www.theregister.co.uk/2006/04/21/drc_fpga_module/

"DRC's flagship product is the DRC Coprocessor Module that plugs directly into an open processor socket in a multi-way Opteron system," the company notes on its web site. "This provides direct access to DDR memory and any adjacent Opteron processor at full Hypertransport bandwidth [12.8 GBps] and ±75 nanosecond latency."

 

AMD's decision to open Hypertransport could end up being a key factor in Opteron's future success. Intel looks set to compete better with AMD later this year when it releases a revamped line of Xeon processors. AMD, however, can now turn to third parties such as DRC for performance boosts unavailable with Intel's chip line.

 

drcinhand.jpg

 

DRC appears to be making the most of its AMD ties by sliding right into Opteron sockets. That means that customers can outfit an Opteron motherboard with any combination of Opteron chips and DRC modules. Illuminata's Haff sees the DRC implementation as one way of overcoming past aversions to accelerators.

 

"It is true that one of the issues around PCI-based FPGA products and really anything specialized is that by the time you transfer the calculation over the special purpose board, you have often lost much of the benefit you had," Haff said. "So, putting the product within the CPU fabric certainly does help address this particular problem."

 

The notion of offloading certain routines to an FPGA should prove attractive to a wide variety of industries, stretching from the oil and gas sector to high performance computing buffs and possibly even mainstream server customers.

 

Today, for example, companies like Boeing that need specialized, embedded devices will buy a PCI board with an FPGA and do custom work designing software and a hardware unit for their system. "Those products could end up in something the size of a telephone or a bread box," said Laurich. "It may take them about six months to lay out that type of custom design."

 

With the DRC module, customers can pick from standard hardware ranging from blade servers on up to Opteron-based SMPs instead of building their own breadboxes.

 

Each DRC module will cost around $4,500 this year and likely drop to around $3,000 next year, Laurich said. That compares to products from companies such as SGI that cost well over $10,000.

 

So far, DRC has seen the most interest from oil and gas companies looking to put specific algorithms on the FPGAs. Manufacturing firms and financial services companies have also looked at the DRC products for help with their own routines. It's not hard to imagine companies such as Linux Networx, Cray or SGI (when it does the inevitable and backs Opteron) wanting to move away from more expensive FPGA products as well in order to service the high-performance computing market.

[...]

The DRC products also come with potential energy cost savings that could be a plus for end users and server vendors that have started hawking "green computing." Power has become the most expensive item for many large data centers.

 

The first set of DRC modules will consume about 10 - 20 watts versus close to 80 watts for an Opteron chip. An upcoming larger DRC module will consume twice the power and be able to handle larger algorithms.

 

"We believe we will get 10 to 20x application acceleration at 40 per cent of the power," Laurich said. "At the same time, we're looking at a 2 to 3x price performance advantage."

 

A motherboard with DRC and Opteron chip It will, of course, take some time to build out the software for the DRC modules. The company has started shipping its first machines to channel partners that specialize in developing applications for FPGAs. An oil and gas company wanting to move its code to the product could expect the process to take about 6 months.

 

If DRC takes off, the company plans to bulk up from its current 13-person operation and to tap partners in different verticals to help out with the software work.

 

DRC also thinks it can maintain a competitive advantage over potential rivals via its patent portfolio. The modules result from work done by FPGA pioneer Steve Casselman, who is a co-founder and CTO of the company. Casselman told us that he had been waiting for something like Hypertransport to come along for years and that AMD's opening up of the specification almost brought tears to his eyes.

For flere detaljer om DRCs koprosessor-modul så se her:

http://www.drccomputer.com/pages/products.html

 

:thumbup:

Lenke til kommentar

Takk for den! :)

 

HT 3.0 ser ut til å være en fin-fin forbedring:

- HTX er nå en del av standarden

- Femdobling av båndbredden (8GB/s->41.6GB/s)

- Dobbelt så bred buss (16-bit->32-bit)

- HT-linkene kan konfigureres etter bruk (enkle eller doble)

- HT-linkene kan dynamisk klokkes etter belastning a'la Cool'n'Quiet (strømsparing)

- Hot-swap støtte

- m.v.

post-31901-1145883255_thumb.jpg

Endret av snorreh
Lenke til kommentar

Steike, både HT 3.0 og DRC-implementasjonen ser knallbra ut.

 

Jeg trodde DRC skulle få en egen tilpasset HT-link med en egen sokkel, men det er selvfølgelig langt mer fleksibelt og enkelt å ha dette i en vanlig Opteron-sokkel (Sokkel F1?). Virtex 4 er ut til å bli mange ganger dyrere enn en Opteron ut fra beskrivelsen av en ytelsegevinst på 20-30x og en pris/ytelse-gevinst på 2-3x, men så er det jo ikke pris alene som teller heller ;) Det blir spennende å se om det dukker opp noen tester av systemer med Virtex 4 i etter hvert.

 

Det er kanskje et litt dumt spørsmål men kanskje vi får se en variant av Virtex 4 som gjør fysikk i spill eller en variant av Phys X som kan brukes i stedet for Virtex 4 i samme sokkel?

 

HT 3.0 ser ut til også å gjøre større servere (8P+) enklere å bygge effektive (bedre skalering). Snorre: Hotswap på HT-bussen høres nesten for godt ut til å være sant. Da kan man jo bytte en hel node i en cluster som er tilkoblet med HT 3.0 uten å få nedetid. Eller oppgradere prosessorer uten nedetid. Men hvordan funker dette? Man må jo slå av prosessoren før man fjerner kjøleren..

 

Litt OT men kommer de nye Opteron med sokkel F1 til å støtte DDR2-800 ECC/REG?

Lenke til kommentar

Jer er ikke helt overbevist om at HT 3.0 er så mye å hoppe i taket for. 32bit bredde har vel vært en del av standarden helt fra begynnelsen av. Det er bare ikke blitt benyttet i særlig stor utstrekning. (les ikke benyttet av AMD)

 

De har også valgt å drasse med seg det samme gamle parallelle PHY laget fra tidligere versjoner (jada 1 clk per 8 bit). Greit nok dette er fortsatt et lite lysår forran de gamle parallelle multidrop bussene som brukes i PCI, PCI-X, Intels FSB osv., men det er fremdeles en slags "generasjon 1.5". Det er ikke samme potensialet som i de virkelig serielle PHY lagene som FB-DIMM, PCIe, SATA linken eller SAS linken (og sannsynligvis CSI). I det heletatt bærer dette preg av å ha fokus på bakoverkompatibilitet heller enn å henge med på utviklingen. Men sånn har det alltid vært med standard grensesnitt for kommunikasjon. En velger det som er best på det tidspunktet en må velge og så bruker en det så lenge en kan og litt til. Det er vel omtrent på det siste stadiet der Intel er nå og AMD kommer vel i tilsvarende situasjon med HT rundt om den tiden HT 3.0 er godt etablert.

Endret av Anders Jensen
Lenke til kommentar
Snorre: Hotswap på HT-bussen høres nesten for godt ut til å være sant. Da kan man jo bytte en hel node i en cluster som er tilkoblet med HT 3.0 uten å få nedetid. Eller oppgradere prosessorer uten nedetid. Men hvordan funker dette? Man må jo slå av prosessoren før man fjerner kjøleren..

5978688[/snapback]

Tenk på redundante blad som i bladtjenere, genialt ikke sant? :)

 

Litt OT men kommer de nye Opteron med sokkel F1 til å støtte DDR2-800 ECC/REG?

5978688[/snapback]

Stemmer det, iallefall ifølge dette:

http://www.theinquirer.net/?article=30146

Endret av snorreh
Lenke til kommentar
Edit: En massivt parallell DSP-prosessor kan jo være nyttig til en del HPC. Virtex 4 har vistnok inntil 512 DSP'er på 500MHz med mulighet for inntil 256 G multiplikasjoner per sekund (ca 25 ganger mer enn en high-end Opteron single core og nesten på nivå med high-end GPU'er), 1Gbit/s ethernet, opp til 11Gbit/s annen I/O.

 

Men hvilke bruksområder er denne siktet inn mot? Rendering av hollywood-filmer? Vær og klimasimulering? Knekke kraftige krypteringer? Simulere atomvåpen?

5836027[/snapback]

Kan brukes til alt det der, og også som fysikkprosessor a'la Ageia og PhysX. Men det er pr. i dag klare begrensninger. Applikasjoner må kunne parallelliseres massivt, og med dagens Opteron løsninger tror jeg minnebussen blir den store flaskehalsen. Med litt sving på DDR2 og noen flere minnekanaler, kan vi få helt vanvittig ytelse på en vanlig arbeidsstasjon. Denne løsningen er også mye mer fleksibel enn å utnytte GPU, siden man kan sette opp minnestørrelse etter behov på HK. Fordelen med GPU er den enorme båndbredden (og lave latency) med grafikkminne. PCI grensesnitt slik som i clearspeed tror jeg var et håpløst prosjekt, 100MB båndbredde, og høy latency, lurer på hvordan de fikk sine høye Gflops tall (kanskje kode som hadde plass på internt minne på brikken).

Jer er ikke helt overbevist om at HT 3.0 er så mye å hoppe i taket for.

Enig i ankepunktet med pakking av data, hadde vært mye bedre om de kvittet seg med dette, litt usikker på hvor mye latency-hit det gir, men i denne sammenhengen er vi ned i så lav latency at jeg finner det sannsynlig at hit'en er forholdsvis stor. Ellers må jeg si at jeg synes den økte båndbredden er meget interessant, hadde det bare vært hardware som kunne utnytte det.

Lenke til kommentar

DRC får konkurranse fra XtremeData med sin XD1000 koprosessor-modul:

http://www.xtremedatainc.com/Products.html

XD1000 - FPGA Coprocessor Module for Socket 940

 

The XD1000 allows the user to integrate Altera's leading edge Stratix II Field Programmable Gate Array (FPGA) technology into a multi-Opteron based system. The XD1000 can be inserted directly into an Opteron 940 socket and uses the motherboard's existing CPU infrastructure to create a full featured environment for FPGA coprocessor functions. The module connects to the CPU's HyperTransport bus and motherboard DIMMs while utilizing the existing power supply and heat sink solution for the CPU. The XD1000 provides a cost-effective platform for FPGA acceleration that is deployable in the densest blade systems.

 

Til forskjell fra DRC som bruker Xilinx Virtex-4 så benytter XtremeData altså Altera Stratix II som man kan lese mer om her:

http://www.altera.com/products/devices/str...2/st2-index.jsp

 

:thumbup:

Endret av snorreh
Lenke til kommentar

Og om ikke det var nok så har også NetLogic Microsystems kastet seg på bølgen med sin NETL7-baserte løsning:

http://www.netlogicmicro.com/4-news/pr/2006/06-04-24.htm

NetLogic Microsystems, Inc., the leader in the design and development of knowledge-based processors, today announced the availability of the NLS1000HDK reference platform which delivers the industry’s best-in-class Layer 7 content processing solution in collaboration with Advanced Micro Devices, Inc.  By adopting a highly optimized architecture that allows NetLogic Microsystems’ NETL7™ knowledge-based processor to connect directly to the AMD Opteron™ processor through a HyperTransport™ link, the NLS1000HDK platform enables customers to develop cost-effective, leading-edge systems with enhanced functionality, proven interoperability and improved time-to-market.

 

The tight coupling between the NETL7 knowledge-based processor and the AMD Opteron processor allows the NETL7 processor to efficiently perform comprehensive Layer 7 deep-packet content inspection and complex signature recognition at 10 Gigabits per second (Gbps) while minimizing system bottlenecks and resource utilization.  The use of HyperTransport technology, with its minimized packet overhead and zero clock recovery, provides a high bandwidth, low latency point-to-point interconnect between the NETL7 knowledge-based processor and the AMD Opteron processor at transfer rates of over 50 Gbps.

 

“Through our combined innovation in performance, integration, power and scalability, the Layer 7 content processing solution from NetLogic Microsystems in collaboration with AMD raises the bar for the industry,” said Kelvin Khoo, director of strategic marketing at NetLogic Microsystems.  “Our ability to accelerate intensive content processing for the AMD Opteron is an important development that enables customers to significantly enhance the functionality of x86-based systems, and at the same time allows us to expand its market footprint beyond the current networking and communications sectors into the computing and security markets.”

 

The NLS1000HDK hardware development platform allows original equipment manufacturers (OEMs) to deliver unparalleled performance and functionality that enables content awareness and unified network security for next-generation enterprise and service provider networks.  This in turn allows network managers to perform full content inspection on every bit of data, voice and video traffic traversing the network at wire speeds.  Moreover, the NETL7 knowledge-based processor’s proven interoperability with the AMD64 architecture allows OEMs to leverage significant industry investments in, and a broad technology infrastructure for, x86-based systems to deliver scalable platforms for datacenter servers, security appliances and networking equipment.

 

The NETL7 knowledge-based processor utilizes an advanced superscalar architecture with deep pipelining that is optimized for high-performance content processing, and is the industry’s first content processor that is capable of achieving 10 Gbps performance with a single engine.  The feature-rich NETL7 knowledge-based processor is capable of supporting over 16 million simultaneous sessions and performing content inspection across packet boundaries, which is a critical requirement in today’s multi-gigabit networks.  The unique silicon architecture for the NETL7 processor allows it to execute both string-based recognition and Perl-Compatible Regular Expression (PCRE) processing efficiently while optimizing solution cost and minimizing power consumption.

 

NetLogic Microsystems’ NETL7 family of knowledge-based processors also features the ability to concurrently support several hundreds of thousands of complex signatures – such as virus, intrusion and application signatures – as well as thousands of signature groups while sustaining 10 Gbps line rate.  The NLS1000HDK reference platform includes device drivers and a high-speed signature compiler that is compatible with open-source as well as customer-proprietary signature databases.

En slik løsning burde vel være midt i blinken for Hardware.no-nettverket? :thumbup:

 

Mer om dette her:

http://www.theregister.co.uk/2006/04/24/am...tlogic_partner/

Endret av snorreh
Lenke til kommentar
Jer er ikke helt overbevist om at HT 3.0 er så mye å hoppe i taket for. 32bit bredde har vel vært en del av standarden helt fra begynnelsen av. Det er bare ikke blitt benyttet i særlig stor utstrekning. (les ikke benyttet av AMD)

 

De har også valgt å drasse med seg det samme gamle parallelle PHY laget fra tidligere versjoner (jada 1 clk per 8 bit). Greit nok dette er fortsatt et lite lysår forran de gamle parallelle multidrop bussene som brukes i PCI, PCI-X, Intels FSB osv., men det er fremdeles en slags "generasjon 1.5". Det er ikke samme potensialet som i de virkelig serielle PHY lagene som FB-DIMM, PCIe, SATA linken eller SAS linken (og sannsynligvis CSI). I det heletatt bærer dette preg av å ha fokus på bakoverkompatibilitet heller enn å henge med på utviklingen. Men sånn har det alltid vært med standard grensesnitt for kommunikasjon. En velger  det som er best på det tidspunktet en må velge og så bruker en det så lenge en kan og litt til. Det er vel omtrent på det siste stadiet der Intel er nå og AMD kommer vel i tilsvarende situasjon med HT rundt om den tiden HT 3.0 er godt etablert.

5978734[/snapback]

Forsåvidt enig, bortsett fra det du skriver om PCI-Express der jeg mener HTX som nå er en del av HyperTransport 3.0-standarden har en klar fordel med lavere tilgangstider og mindre overhead enn PCI-Express. For generell bruk så er PCI-Express greit nok, men når det kommer til HPC så er HyperTransport klart å foretrekke etter min mening. Ellers ser jeg ingen direkte motsetninger mellom videreutviklingen av HyperTransport og andre serielle protokoller, de er jo alle til hvert sitt bruk :)

Endret av snorreh
Lenke til kommentar

Nå snakket jeg om the fysiske laget ikke protokollene. PCIe protokollen er ikke lagd for å være effektiv den er lagd for å være anvendbar på et veldig bredt spekter av I/O enheter. Det jeg snakker om er muligheten til å skalere disse fysiske lagene. De serielle linkene vil skalere til 5-10 GT/s mens den parallelle HT linken ser ut til å gi seg rundt 3 GT/s. Ikke så rart egentlig. Det er veldig vanskelig å synkronisere 8 data/komando -linjer med kun ei klokke. De nye serielle linkene bruker selvklokkende linjer altså, scrambling av signalet for å kunne utvinne klokka i andre enden. 8b/10b for PCIe.

 

Del: Joda enig, men igjen jeg snakket ikke om protokollen. Klart det ville vært fordelaktig med out-of-band signalering fremfor pakke basert link hvis en ønsker lavest mulig forsinkelse, men det vil igjen koste mange pinner som igjen øker variable kostnader. Noe som selvfølgelig er fyfy i denne bransjen og med den allerede nokså pin ineffektive DDR grensesnittet on-die så ble det vel rett og slett for trangt i sokkelen. Får bare håpe CSI ikke har som designparameter å være pin effektiv fremfor lav forsinkelse.

Endret av Anders Jensen
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...