Gå til innhold

Itanium 2 vinner terreng


Anbefalte innlegg

Masse teknisk info om Montecito (neste gen. Itanium 2? 3?) har lekket ut:

http://www.realworldtech.com/forums/index....42339&roomID=11

The Implementation of a 2-core Multi-Threaded Itanium Family Processor

 

"The next generation in the Itanium processor family, code named Montecito, is introduced. Implemented in a 90nm 7M process, the processor has two dual-threaded cores integrated with 26.5MB of cache. Of the total of 1.72B transistors, 64M are dedicated to logic and the rest to cache. With both cores operating at full speed, the chip consumes 100W."

 

Clock Distribution on a Dual-core Multi-threaded Itanium-Family Processor

 

"Clock distribution on the 90nm Itanium processor is detailed. A region-based active de-skew system reduces the PVT sources of skew across the entire die during normal operation. Clock vernier devices inserted at each local clock buffer allow up to a 10% clock-cycle adjustment via firmware or scan. The system supports a constantly varying frequency and consumes < 25W from PLL to latch while providing < 10ps of skew across PVT."

 

A 90nm Variable-Frequency Clock System for a Power-Managed Itanium-Family Processor

 

"A clock-generation system delivers fixed- and variable-frequency clocks for adaptive power control on a 1.7B-transistor dual-core CPU. Frequency synthesizers digitally divide a fixed-frequency PLL clock in 1/64th cycle steps using programmable voltage-frequency-converter loops. 1-cycle loop response tracks supply transients with adaptive modulation, improving CPU performance by over 10% compared to a fixed-frequency design."

 

Power and Temperature Control on a 90nm Itanium-Family Processor

 

"This paper describes the embedded feedback and control system on a 90nm Itanium-family processor, code-named Montecito, that maximizes performance while staying within a target power and temperature (PT) envelope. This system utilizes on-chip sensors and an embedded micro-controller to measure PT and modulate voltage and frequency to meet PT constraints."

 

The Multi-threaded Parity-Protected 128-Word Register Files on a Dual-Core Itanium-Family Processor

 

"The dual-thread 18-port 128w x 82b FPU register file, and the 22-port 128w x 65b integer register file of the microprocessor is described. Parity embedded into each register provides soft error detection. The design integrates a charge-compensated thread switch and power-saving features to operate at 1.1V consuming 400mW at maximum frequency."

 

 

The Asynchronous 24MB On-Chip Level-3 Cache for a Dual-Core Itanium-Family Processor

 

"The 24MB level-3 cache on a dual-core Itanium processor has more than 1.47G transistors. The cache uses an asynchronous design to reduce latency and power, and it includes other power saving and reliability improvement features. The 5-cycle array operates above 2GHz at 0.8V and 85°C while consuming less than 4.2W."

Litt tidlig for meg å si hva en skal lese inn i dette, men det er i allefall helt klart at effektforbruk har vært svært sentralt i utviklingen av Montecito. Det spekuleres i 2+GHz ved 100W TDP ("max"). Det er også klart at den vil yte en del bedre enn dagens Itanium prosessorer på samme frekvens. Særlig på integer og multi trådede applikasjoner. FP ytelsen vil i hovedsak bare øke med økt FSB (400->667) men noen programmer tjener jo mye på større cache også, så der blir det i allefall en endring for de.

 

BTW alt stammer herfra: http://www.isscc.org/isscc/2005/ap/ISSCC20...anceProgram.pdf

 

Slik ser det vel ut:

  • Montecito 1.72 mrd. transistorer, dual core, 7 metallag, 90nm, 100W
  • 64 mill. logikk transistorer fordelt på to kjerner, arbiter, osv. (Prescott har 70mill. til sammenligning)
  • 16k L1 I-cache + 16k L1 D-cache per core (L1 D-cache brukes ikke til flyttall)
  • 1M L2 I-cache + 256k D-cache per core
  • 24MB L3 cache, 1.47 mrd. transistorer 2+GHz ved 0.8V, 4.2W
  • Switch on Event Mutlithreading, to tråder per core, fire tråder per chip.
  • Klokke krets >10ps, >25W (dårligere skew enn på Madison (7ps) men lavere effektforbruk (30-40W))
  • 400 FSB (6.4GB/s) og 667 FSB (10.6GB/s)
  • Pelleston
  • Foxton

Også verdt å merke seg at integer register-file har fått to ekstra porter (opp fra 20) hvilket antyder at det kan være noen (antagelig 1) ekstra integer relatert ressurs inne i bildet. Veldig lite kjent om dette.

sorry for massiv quoting men dette er visst oversett:

Lenke til kommentar
Videoannonse
Annonse

Når det gjelder frekvensen til Montecito så tror jeg den kommer til å bli lansert på 1.7GHz eller 1.8GHz og da bruke samtlige 100W. Trikset er at det kun er ved svært CPU intensiv FP tallknusing at en kommer i nærheten av 100% "Execution Unit Utilization"(.. et begrep jeg nettopp fant på selv.. finnes sikkert bedre der ute.) og dermed 100W effektforbruk.

 

Ved kjøring av databaser eller typiske integer programmer så vil nok frekvensen skyte opp i 2GHz - 2.5GHz og en vil fortsatt ligge innenfor 100W. Altså vil Integer og FP ytelsen til Montecito gjevnes ut en god del.

 

Så har du soe-MT da som kommer til å gjøre enorm forskjell på transaksjons servere. Bare se på Power 5. Den "eier" konkurrentene nå. Mye pga. SMT.

Endret av Knick Knack
Lenke til kommentar
Vel, mesteparten av Montecito jo rein cache:

http://www.isscc.org/isscc/2005/ap/ISSCC20...anceProgram.pdf

 

Mener du at de 64 millioner transistorene forbruker brorparten av de 100W?

Jepp, det stemmer. Cache bruker nesten ingen strøm så lenge de bare står i "dvale". Cache bruker typisk 1-3% av effekten på moderne CPU'er.

 

Edit: Sistat fra nederst på side 73 på linken din:

"The 24MB level-3 cache on a dual-core Itanium processor has more than 1.47G transistors. The cache uses an asynchronous design to reduce latency and power, and it includes other power saving and reliability improvement features. The 5-cycle array operates above 2GHz at 0.8V and 85°C while consuming less than 4.2W."

Ok, så de øvrige 64 millioner transistorene forbruker da altså 95.8W hvis jeg forstår deg rett? Det er isåfall ikke så imponerende, spesielt ikke sammenlignet med AMDs "Oakville" som forbruker maks 35W fordelt på 68.5 millioner transistorer inklusive 640KB cache.

Endret av snorreh
Lenke til kommentar
Vel, mesteparten av Montecito jo rein cache:

http://www.isscc.org/isscc/2005/ap/ISSCC20...anceProgram.pdf

 

Mener du at de 64 millioner transistorene forbruker brorparten av de 100W?

Jepp, det stemmer. Cache bruker nesten ingen strøm så lenge de bare står i "dvale". Cache bruker typisk 1-3% av effekten på moderne CPU'er.

 

Edit: Sistat fra nederst på side 73 på linken din:

"The 24MB level-3 cache on a dual-core Itanium processor has more than 1.47G transistors. The cache uses an asynchronous design to reduce latency and power, and it includes other power saving and reliability improvement features. The 5-cycle array operates above 2GHz at 0.8V and 85°C while consuming less than 4.2W."

Ok, så de øvrige 64 millioner transistorene forbruker da altså 95.8W hvis jeg forstår deg rett? Det er isåfall ikke så imponerende, spesielt ikke sammenlignet med AMDs "Oakville" som forbruker maks 35W fordelt på 68.5 millioner transistorer inklusive 640KB cache.

Det er vel med rett og melde en sammenligning som ikke betyr noe som helst. Effektforbruk per transistor uten å se på hva de gjør er jo ikke noe poeng.

 

btw klokkekretsen, som antagelig består av noen tusen (kanskje bare noen hundre) transistorer, bruker ca 25W i Montecito, ned fra ca 39,noe Watt i enkelte Madison design.

Endret av Knick Knack
Lenke til kommentar
Ok, så de øvrige 64 millioner transistorene forbruker da altså 95.8W hvis jeg forstår deg rett? Det er isåfall ikke så imponerende, spesielt ikke sammenlignet med AMDs "Oakville" som forbruker maks 35W fordelt på 68.5 millioner transistorer inklusive 640KB cache.

Men nå snakker du om en helt annen arkitektur, et helt annet ytelsenivå og en low-power-utgave. Noe som over holdet ikke er sammenlignbart med Montecito.

Lenke til kommentar
Ok, så de øvrige 64 millioner transistorene forbruker da altså 95.8W hvis jeg forstår deg rett?  Det er isåfall ikke så imponerende, spesielt ikke sammenlignet med AMDs "Oakville" som forbruker maks 35W fordelt på 68.5 millioner transistorer inklusive 640KB cache.

Men nå snakker du om en helt annen arkitektur, et helt annet ytelsenivå og en low-power-utgave. Noe som over holdet ikke er sammenlignbart med Montecito.

Jeg snakker om watt/transistor brukt til logikk, og hva annet skulle jeg sammenligne med om jeg tør spørre? Det er jo ventet at dual-kjerne Opteron som kommer til neste år skal være basert på "low-power" kjerner og først ut der er jo "Lancaster" som skal ha et maks effektforbruk på 25W inklusive 1152KB cache (les: en reduksjon på 10W sammenlignet med "Oakville" samtidig som de har doblet L2 cachen). Dette legger igjen grunnlaget for dual-kjerne (Mobile) Athlon 64 eller dual-kjerne Opteron HE på maks 50-55W.

Endret av snorreh
Lenke til kommentar
Ok, så de øvrige 64 millioner transistorene forbruker da altså 95.8W hvis jeg forstår deg rett?  Det er isåfall ikke så imponerende, spesielt ikke sammenlignet med AMDs "Oakville" som forbruker maks 35W fordelt på 68.5 millioner transistorer inklusive 640KB cache.

Men nå snakker du om en helt annen arkitektur, et helt annet ytelsenivå og en low-power-utgave. Noe som over holdet ikke er sammenlignbart med Montecito.

Jeg snakker om watt/transistor brukt til logikk, og hva annet skulle jeg sammenligne med om jeg tør spørre? Det er jo ventet at dual-kjerne Opteron som kommer til neste år skal være basert på "low-power" kjerner og først ut der er jo "Lancaster" som skal ha et maks effektforbruk på 25W inklusive 1152KB cache. Dette legger grunnlaget for dual-kjerne Mobile Athlon 64 eller dual-kjerne Opteron HE på maks 50-55W.

Spørsmålet er vel først og fremst på hvilket grunnlag du mener det ikke er "imponerende" i forhold til noe annet. Watt per transistor er jo et av de minst relavante tallene for en forbruker som hverken bryr seg om antall transistorer i chipen eller hvor mye ytelse får for hver transistor.

 

Det er jo for eksempel ikke helt uvesentlig at Montecito får trykt inn 2 kjerner på 64M transistorer ikke 1. Og at ytelsen til selv en slik kjerne ofte går tykt utenpå Oakville.

Lenke til kommentar
Spørsmålet er vel først og fremst på hvilket grunnlag du mener det ikke er "imponerende" i forhold til noe annet. Watt per transistor er jo et av de minst relavante tallene for en forbruker som hverken bryr seg om antall transistorer i chipen eller hvor mye ytelse får for hver transistor.

Enig i det, men poenget mitt var at mens cachen til Montecito ser ut til å bli svært energieffektiv så kan det samme ikke sies om logikken og det lover ikke så bra med tanke på "low-end"-design med mindre cache.

 

Det er jo for eksempel ikke helt uvesentlig at Montecito får trykt inn 2 kjerner på 64M transistorer ikke 1. Og at ytelsen til selv en slik kjerne ofte går tykt utenpå Oakville.

Ja, men så er en god del av transistorene på "Oakville" cache også da. "Lancaster" representerer neste steg i utviklingen og man regner med at det er nettopp dette designet dual-kjerne Opteron vil basere seg på, og det synes jeg lover meget bra. Når det gjelder ytelse på dual-kjerne Opteron vs. Montecito så gjenstår det å se, selv om det er pris/ytelse som vil være avgjørende til syvende og sist og jeg frykter at sistnevnte vil bli skrekkelig kostbar.

Endret av snorreh
Lenke til kommentar
Spørsmålet er vel først og fremst på hvilket grunnlag du mener det ikke er "imponerende" i forhold til noe annet. Watt per transistor er jo et av de minst relavante tallene for en forbruker som hverken bryr seg om antall transistorer i chipen eller hvor mye ytelse får for hver transistor.

Enig i det, poenget mitt var at mens cachen til Montecito blir svært energieffektiv så kan det samme ikke sies om logikken.

I henhold til hvilket regnestykke? Charlie kom til 2.25 ganger mer effektiv enn Madison 9M, hvilket etter mine forventninger er ekstremt imponerende. Madison 9M er riktignok ikke veldig effektiv på integer loads i dag, men det ser det ut til at Montecito blir.

 

For andre benchmarks så er Madison 9M på linje med Operon selv i dag. Det kan med andre ord bli tøfft å henge med:

http://www.aceshardware.com/forum?read=115115390

1) 4P TpmC per 4x per CPU TDP W

 

I2/1.6/9.0 - 330

Optern/2.4 - 323

XeonMP/3.0 - 302

 

2) SPECfp_base2k per TDP W

 

I2/1.3/3.0 - 31*

I2/1.6/9.0 - 22

Optern/2.4 - 18

P4 E/3.8 - 16

 

*will be higher with the latest version of ICC.

 

3) TPP Linpack MFLOPs per TDP W

 

I2/1.3/3.0 - 74

I2/1.5/6.0 - 51

Optern/2.2 - 35

P4 E/3.6 - 29

Lenke til kommentar

Jeg gidder ikke kaste bort tiden min på å diskutere med folk som tar slike benchmarks seriøst, enkelt og greit. Vi kan ta denne diskusjonen igjen når du har fått testet en Itanium-boks selv og har egne erfaringer å basere deg på slik som jeg. Min erfaring med Itanium er at den yter svært variabelt på reelle problemer, mens Opteron jevnt over yter bra på det aller meste.

Endret av snorreh
Lenke til kommentar

Hvor i granskogen blir det av postene mine? Har JEG gått over noen som helst strek nå eller er det de som trekker person inn i bildet: "folk som tar slike benchmarks seriøst" dette burde være rettet mot? Veldig synd å se hw.no moderatorer opptre slik! Hvor var posten til DG om moderator klaging igjen?

 

WILCO er tydeligvis et bannet begrep :w00t: stå på!

Endret av Knick Knack
Lenke til kommentar
Hvor i granskogen blir det av postene mine? Har JEG gått over noen som helst strek nå eller er det de som trekker person inn i bildet: "folk som tar slike benchmarks seriøst" dette burde være rettet mot? Veldig synd å se hw.no moderatorer opptre slik! Hvor var posten til DG om moderator klaging igjen?

 

WILCO er tydeligvis et bannet begrep :w00t: stå på!

Wilco er ikke det gammel radiosleng for å si at man er enig/skal utfore ordre "Will Comply"? Eller er det jeg som er alt for gammelmodig på min sleng?

 

AtW

Lenke til kommentar

Går med glede tilbake til topic. Det er nemlig blitt diskutert noen detaljer rundt Foxton teknologien på RWT nå i dag:

http://www.realworldtech.com/forums/index....42626&roomID=11

Montecito consumes a maximum of 100W, in both fixed-frequency (FFM) and variable-frequency modes (VFM). The 100W limit was a design decision at the start of the project, though it doesn't necessarily change the 130W limit for future IPF products.

 

Foxton provides a performance boost over FFM because setting a design target to operate under a power limit at a 100% activity factor is overly conservative. In the McKinley microarchitecture, TPC-C runs at around 60% activity factor, while Linpack runs at around 80%, representing low and high activity factors. That represents a significant amount of headroom that is being left on the table, since previous products have traditionally set the timing target to fit under the power envelope while running the power-virus code.

 

Foxton also has significant benefits over discrete, coarse voltage/frequency pairs for low-power modes, and also improves robustness and yield...all will be discussed in the ISSCC paper, it goes into quite a bit of detail. :-)

 

* not speaking for Intel Corp. *

Det er altså slik at når CPU ikke utnytter 100W TDP men likevell går på full load så vil den "overklokke" seg selv (den blir selvsagt kvalifisert for max "OC" hastighet) til den kommer opp under 100W TDP. Smart!

 

Det ble også nevnt at Montecito kan ta instruksjoner fra OS om å legge seg på langt lavere effektforbruk (50W ble nevnt) når OS hadde en oppfattelse av at CPU var idle. Det siste virker litt søkt, men kan kanskje være greit hvis OS utfører vedlikeholdsoppgaver og ikke har det travelt. En kan sikkert forlenge livet til PSU og vifter på det viset.

Endret av Knick Knack
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...