Anders Jensen Skrevet 27. august 2010 Del Skrevet 27. august 2010 (endret) Nå er du litt vrang synes jeg, men ok. HyperThreading er Intels merkenavn på metoder som tillater flere logiske kjerner. Den klassiske implementasjonen er en vel en SMT-sak, som egentlig ikke er veldig bra. Poenget mitt er at det virker som AMD prøver å rette på noen av svakhetene til denne ved å planlegge instruksjoner fra ulike tråder på separate pipelines. I motsetning til å planlegge instruksjoner fra ulike tråder på en enkelt pipeline i samme tidssteg. Men det virker egentlig ganske håpløst å duplikere store deler av en kjerne uten å ta steget helt ut og lage rene integerkjerner. Joda jeg ser den siden av saken. Poenget er at mange server workloads jobber med store datasett som vil gi mange cache miss og da trenger du flere tråder per int-pipe for å holde den med travel jobb. Nå oppnår de bare en travel og kompleks fetch/decode enhet, mens int-pipen blir dårligere utnyttet enn før pga deling av fetch og decode. For workstation vil dette være bra pga god ytelse/tråd, for server blir det vesentlig dårligere enn SMT alternativet. IBM Power7 har til eksempel 4-weis SMT mot Intel sine 2-veis implementasjoner. Antagelig kommer Intel med 4-veis senere. Så både IBM og Intel går for økt bruk av MT mens AMD fortsatt sitter på gjerdet. Som sagt før; Bulldozer gjør mye riktig, men en eller annen form for MT i tillegg slik at en fikk minst to kontekster per int-pipe ville vært en klar fordel for servere. Mao. Jeg mener de burde kun delt FP enheten og ikke fetch/decode, pluss at en behøver en form for MT. SUN Niagara har akkurat denne løsningen, men de har en veldig naiv in-order pipeline og naiv MT implementasjon samt veldig lite effektbudsjett per kjerne. Resultatet ble ekstremt bra throughput, men så dårlig ytelse/tråd at knapt noen gidder bry seg med produktet. Endret 27. august 2010 av Anders Jensen Lenke til kommentar
Harkonnen Skrevet 27. august 2010 Del Skrevet 27. august 2010 Problemet med RISC har vel stort sett vært pris. Og Intel har klart å produsere store kvanta av billige x86 prosessorer og dermed utkonkurrert RISC i desktopmarkedet, dessverre. Jeg har da fått med meg at x86 og CISC generelt yter bedre til veldig komplekse oppgaver. CISC yter generelt sett dårligere enn RISC, da moderne x86-prosessorer er RISC-prosessorer med en CISC->RISC oversetter. Du kan jo se hvordan det gikk med de ekte CISC-monsterene som motorola 68000 og VAX. Lenke til kommentar
Anders Jensen Skrevet 28. august 2010 Del Skrevet 28. august 2010 Vel her er sanddungen Bulldozer skal hamle opp med: http://www.anandtech.com/show/3871/the-sandy-bridge-preview-three-wins-in-a-row Kan lett utnevne en vinner på FP nå. Integer ytelsen er eneste usikkerhetsmoment her. Lenke til kommentar
bOMS Skrevet 28. august 2010 Del Skrevet 28. august 2010 jeg mener jeg leste noe tilbake i tid om at man spekulerte på om man ikke kunne bruke GPU til å avlaste prosessoren med tunge FP oppgaver, og at det var en av grunnene til at man hadde halvert antall FP enheter i forhold til integer enheter. Om det har noe for seg vet jeg ingenting om, men om det stemmer høres det jo fornuftig ut. Lenke til kommentar
Simen1 Skrevet 28. august 2010 Del Skrevet 28. august 2010 (endret) BoMS: Det er mitt inntrykk også. AMD har også pratet mye pent om modulær oppbygning av prosessorene, noe jeg regner med kommer til å gjelde etterfølgere av Bulldozer også. Ikke nødvendigvis som innebygget GPU som akselerator til skjermbilder men muligens som "GPU" til akselerasjon av FP. Noe lignende Ageia PhysX PPU. Harkonnen: Rene integerkjerner tror jeg ville blitt litt høy gambling av AMD. En gradvis nedprioritering av FP i CPU-delen av "APU" er nok mye lavere risiko. En lønsning med FP tett tilkoblet + modulært tilkoblet er at den ene gir lav latency og den andre gir høy throughput. AJ: Jeg skjønner ikke konsekvensen av å dele fetch/decode kontra separat fetch/decode. Kan du forklare litt rundt dette? Endret 28. august 2010 av Simen1 Lenke til kommentar
Anders Jensen Skrevet 28. august 2010 Del Skrevet 28. august 2010 (endret) AJ: Jeg skjønner ikke konsekvensen av å dele fetch/decode kontra separat fetch/decode. Kan du forklare litt rundt dette? Vel det er egentlig ikke så vanskelig om en ser stort på det. Enhver ressurs som deles vil få mer belastning hvilket medfører to ting. For det første blir den mer effektiv fordi den skjeldnere er ledig for det andre vil konsumentene (2 Int + 1 FP pipe) måtte vente mer siden det blir kø. Å legge inn ekstra forsinkelse mellom kjernen og i-cache er ikke nødvendigvis så bra for ytelsen. Typisk blir det vel en avveiing mellom ytelse per tråd og ytelse/watt. Det ser ut som om AMD går etter virtualiserings markedet med Bulldozer, noe de kan lykkes med om ikke Intel er serdeles gode til å slå av effekten til sine massive FP og SIMD ressurser i Sandy bridge. Virtualiserings markedet er vel også snart ensbetydende med servermarkedet. I allefall den største delen av det. boms: Tror nok du er inne på noe viktig der. Algoritmer med tung bruk av FP er ofte veldig parallelle. Det gjør GPU-lignende enheter dvs. mange små non-SMP kjerner langt mer egnet enn fete SMP CPU kjerner fordi førstnevnte har overlegen throughpu/watt pga. mindre effekt sløst bort på "bookkeeping" i forhold til execution. Sånn sett er det ikke nødvendigvis noen fordel å ha den CPU kjernen med mest FP ytelse på lang sikt. På kort sikt vil det nok lønne seg. Endret 28. august 2010 av Anders Jensen Lenke til kommentar
bOMS Skrevet 28. august 2010 Del Skrevet 28. august 2010 (...) boms: Tror nok du er inne på noe viktig der. Algoritmer med tung bruk av FP er ofte veldig parallelle. Det gjør GPU-lignende enheter dvs. mange små non-SMP kjerner langt mer egnet enn fete SMP CPU kjerner fordi førstnevnte har overlegen throughpu/watt pga. mindre effekt sløst bort på "bookkeeping" i forhold til execution. Sånn sett er det ikke nødvendigvis noen fordel å ha den CPU kjernen med mest FP ytelse på lang sikt. På kort sikt vil det nok lønne seg. Det er vel kanskje der forskjellen mellom AMD og Intel er størst også. AMD må prøve å drive mye mer fremtidsrettet utvikling enn Intel siden de har mindre resurser til utvikling og mye lengre tidsperiode mellom når de gjør utskiftninger i arkitekturen til kjernene sine. Intel har jo hanglet etter noen ganger, men har i hovedsak mye større mulighet til å rette på sine feil enn det AMD har. En annen ting jeg har lagt merke til, og sikkert de fleste andre er at utviklingen har ført til at nye arkitekturer ikke betyr på langt nær så mye for hjemmebrukere som de betyr for arbeidsstasjoner og servere. Hvis man leser tester ser man at Core2 og PhenomII er nesten like raske some i7 i f.eks spill, mens f.eks photoshop drar mye større nytte av nyere generasjoner prosessorer. Lenke til kommentar
Anders Jensen Skrevet 28. august 2010 Del Skrevet 28. august 2010 (endret) AMD er fremstått som noe mer visjonære med Bulldozer enn Intel har gjort siden de brente seg litt med Prescott og Itanium for en del år tilbake. Siden da har Intel kjørt veldig safe med Conroe, Nehalem og Tukwilla som alle er veldig konservative CPU design. De to siste fikk riktignok nytt minnehierarki, men det var en typisk trend i tiden som var naturlig for alle aktører. De skal ha pluss i margen for nyvinninger inne cache coherency, men ellers har de stort sett bare gjort som alle andre samt lempet på mer av det som tradisjonelt har fungert. Stemmer nok også at servere har tjent mest i det siste. Særlig på Intel plattformer. Vil si årsaken er tredelt; Større fokus på ytelse/watt og dermed multicore, fokus på virtualisering, nytt minnehierarki (Intel). Lite av dette har mye for seg på workstation. Bulldozer ser ut til å fortsette denne trenden, men med Sandy Bridge vil kanskje dette snu seg litt. Det er en CPU som ser ut til å øke typisk workstation og spill ytelse godt (høy (fp)ytelse/tråd), men jeg er mer skeptisk til server ytelsen. Ser ut som største fordel vs. Westmere er en ekstra minnekanal per sokkel. Intel kommer imidlertid med Poulson snart. Lov å håpe at de har vært litt mer dristige enn normen siste 5 år med den. Håper vel mest på høye frekvenser og avansert run-ahead execution. Noe vi så en forsmak på i Power 6, men så langt har de mest fokusert på ekstrem parallellitet i sin Poulson slideware. Endret 28. august 2010 av Anders Jensen Lenke til kommentar
Buzz76 Skrevet 29. august 2010 Del Skrevet 29. august 2010 Jeg for min del tror AMD har såpass peiling på hva dem holderpå med at dem har vurdert de mulighetene som foreligger og gjort det beste ut av det. Hvis ikke hadde dem kanskje utlyst ledige rådgiver stillinger Lenke til kommentar
Anders Jensen Skrevet 29. august 2010 Del Skrevet 29. august 2010 Det stemmer nok. Historien viser jo også tydelig at alle CPU design har vært perfekte og særlig om du måler de opp mot en preferanse som f.eks responstid fremfor throughput. Lenke til kommentar
Anders Jensen Skrevet 30. august 2010 Del Skrevet 30. august 2010 (endret) Tok meg endelig tid til å pløye gjennom Anandtech sin ekstremt interessante artikkel om bob og bull: http://www.anandtech.com/show/3863/amd-discloses-bobcat-bulldozer-architectures-at-hot-chips-2010/1 To ting som slo meg øyeblikkelig; For det første er ufattelig mange teite problemer med x86 (treeeeg 6 stegs fetch/decode i bobcat og Intel Atom, masse styr med alt for få registre og at noe slikt som AGU i det heletatt finnes osv.) Det finnes arkitekturer som løser alt dette... Det andre er at bobcat ser ut til å bli en veldig interessant konkurrent til Atom på Netbooks av akkurat den samme årsaken som gjør Bulldozer lite interessant på workstation i forhold til Sandy Bridge; Single thread performance. Blir nok bobcat basert netbook med tiden. Endret 30. august 2010 av Anders Jensen Lenke til kommentar
friskies Skrevet 30. august 2010 Del Skrevet 30. august 2010 Når lanseres budsjettversjonen, kodenavn "trillebår"? Lenke til kommentar
Anders Jensen Skrevet 31. august 2010 Del Skrevet 31. august 2010 Mer info om bulldozer: http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333 Lenke til kommentar
Anbefalte innlegg
Opprett en konto eller logg inn for å kommentere
Du må være et medlem for å kunne skrive en kommentar
Opprett konto
Det er enkelt å melde seg inn for å starte en ny konto!
Start en kontoLogg inn
Har du allerede en konto? Logg inn her.
Logg inn nå