Agrophel Skrevet 13. november 2009 Del Skrevet 13. november 2009 Håpe virkelig får det til. Men AMD gjor det fremdels bra på server makrede. The end result is that servers based on a quad hex-core Opteron are about 20% to 50% faster, and at the same time consume 20% less than Intel hex-core. The E7450 has a slightly better performance/watt ratio, but simple mathematics show that no matter which hex-core Xeon you chose, it is going to look bad for the Intel six-core. The X7460 and its brothers are toast. The Intel quad platform will not be attractive until the Nehalem EX arrives. Dette er fra anandtech.com Lenke til kommentar
Anders Jensen Skrevet 13. november 2009 Del Skrevet 13. november 2009 Osse: Det som redder I7 på desktopen er turbomode. Penryn med integrert DDR3 minnekontroller hadde banka i7 uten turbomodus så det synger i veggene. Klokk pr klokk ytelsen vel litt avhengig av hvilke instruksjoner som utføres, i7 treffer jo bedre på L1 cache. Men ikke for det, i7 på flatt på samme frekvens som en Penryn med 3 kanals DDR3 kunne vært en artig test. Klokkenormalisert ytelse er for tullinger og akademikere. Det har ingen praktisk nytte. Hadde det hatt det så hadde vi alle brukt Itanium for lenge siden da den er 2-3 ganger kraftiegere enn det meste der ute på klokkenormalisert ytelse. Nehalem ble designet for å gi Intel en god low-end server CPU, noe de manglet, og de har ikke kapasitet til å holde seg med separate design for desktop og low-end server i dag så dermed har vi fått en desktop CPU som er throughput optimalisert, mens en desktop CPU for de fleste brukere helst burde vært respons tid optimalisert. Intel lyktes svært godt i å nå sitt mål, men det kan lett bestrides om det er for det beste for den gjengse desktop bruker. For tyngre brukere er imidlertid throughput viktig. Derfor tror "alle" at Nehalem er så bra fordi den er perfekt for de tyngste brukerne. Lenke til kommentar
Gjest Slettet+9018234 Skrevet 14. november 2009 Del Skrevet 14. november 2009 ønsker AMD alt godt, de har bl.a. veldig gode effektgjerrige skjermkort til en svært god penge. Lenke til kommentar
Del Skrevet 14. november 2009 Del Skrevet 14. november 2009 (endret) Morsomt å se at AMD kopierer jumbotaktikken Intel har brukt hele veien. Jeg tror det er fornuftig. Jeg tenker her på å smekke sammen kjerner uten å fokusere på at det skal være "ekte" sekskjerne (Istanbul) eller åttekjerne eller hva det skal være. Smekk sammen to til tre Shanghai CPU'er, så har du fire minnekanaler og 8/12 kjerner. Det burde være tilstrekkelig til å banke dagens Nehalem på to-sokkel med god margin i de fleste benker. Det blir interessant å se hvor viktig de ekstra minnekanalene blir. Endret 14. november 2009 av Del Lenke til kommentar
wiak Skrevet 15. november 2009 Del Skrevet 15. november 2009 Sikkert til det beste for både AMD og Intel den avtalen der. Største taper blir advokatene. Så la oss felle noen.. glem det. Det skal bli interessant å se hva som kommer ut av den nye kryss-patent avtalen. Synd at IA64 patentene ikke er eid av Intel! IA64 var jo lattelig, AMD64 tok jo råtta på den Lenke til kommentar
Anders Jensen Skrevet 15. november 2009 Del Skrevet 15. november 2009 wiak: du skal ha kred for dagens dårligste agn. Lenke til kommentar
Del Skrevet 15. november 2009 Del Skrevet 15. november 2009 wiak, du kan jo forsøke noen argumenter. Hvorfor mener du IA64 var latterlig? Mener du at MIPS, ARM og PPC også er latterlig? Lenke til kommentar
Simen1 Skrevet 15. november 2009 Del Skrevet 15. november 2009 Morsomt å se at AMD kopierer jumbotaktikken Intel har brukt hele veien. Jeg tror det er fornuftig. Jeg tenker her på å smekke sammen kjerner uten å fokusere på at det skal være "ekte" sekskjerne (Istanbul) eller åttekjerne eller hva det skal være. Smekk sammen to til tre Shanghai CPU'er, så har du fire minnekanaler og 8/12 kjerner. Det burde være tilstrekkelig til å banke dagens Nehalem på to-sokkel med god margin i de fleste benker. Det blir interessant å se hvor viktig de ekstra minnekanalene blir. Kritikken mot Intels løsning var bruken av den antikvariske FSB-teknologien for kommunikasjon mellom brikkene. AMD bruker nok HyperTransport 3.1 med ~51,2 GB/s (sammenlagt 2-veis) mellom de to brikkene pluss 4 minnekanaler a 10,7 GB/s (enveis) mellom CPU og minne. Totalt ~94 GB/s. Intel brukte FSB med 4,3 - 12,8 GB/s og langt tregere responstider mellom brikkene i Pentium D- og Core 2-seriene. Denne båndbredden skulle også deles med minnet. Nå som Intel kommer diltende etter med integrert minnekontroller 6 år etter AMD så blir saken en annen. Intels QPI-linker + integrert minnekontroller vil trolig være minst like god som AMDs løsning. Men det tok altså 6 år med underlegen kommunikasjon mellom kjerner før at det skjedde. Kritikken mot Intels "jumbotaktikk" blir altså gyldig helt frem til Core 2 Quad fases ut, uten å ha vært gyldig mot AMD noen gang. Ser man bort fra 64bit så virker det som Intels integrering av minnekontroller lovprises like mye i dag som AMDs integrering av minnekontroller ble i 2003. Lenke til kommentar
Anders Jensen Skrevet 15. november 2009 Del Skrevet 15. november 2009 wiak, du kan jo forsøke noen argumenter. Hvorfor mener du IA64 var latterlig? Mener du at MIPS, ARM og PPC også er latterlig? Vi har vel allerede vært gjennom noen hundre meter forumtråd uten noe hell i så måte så det skulle forundre meg stort om noen her plutselig har kompetanse til å sette fingeren på noe. Lenke til kommentar
Del Skrevet 15. november 2009 Del Skrevet 15. november 2009 (endret) Vi har vel allerede vært gjennom noen hundre meter forumtråd uten noe hell i så måte så det skulle forundre meg stort om noen her plutselig har kompetanse til å sette fingeren på noe.Sant nok, men det var litt for fristende å se om det bare var trolling. Hadde vært interessant hvis Intel hadde fulgt modellen til ARM, og bare åpnet opp markedet for IA64. Da kunne vi kanskje fått litt bedre empirisk grunnlag til hva den har å by på. Jeg er imponert over takten ARM har for tiden, Snapdragon blir etterfulgt av en med dobbel frekvens og dobbelt med kjerner. Det er en litt annen takt enn hva x86 har hatt de siste årene. Simen1, klar over FSB begrensningen, men det forhindret ikke Clovertown i å kapre marked. Eksempelvis Universitetet i Tromsø bladde opp så det holdt da de valgte den. Jeg mener altså at det var et smart trekk av Intel, og at AMD kunne fulgt samme taktikk ved et par anledninger for å holde forsprang. Eksempelvis K8 Opteron med 666MHz ECC benket ca. 11GB/s båndbredde på en to sokkel, det var mer en dobling av Clovertown node, så svært mange problemer ville vist en fin boost med å smekke på to kjerner til i påvente av Barcelona. Istanbul er essensielt et slikt grep i forhold til Shangai. Shanghai benker forøvrig borti 15GB/s båndbredde på to sokkelnode med 666MHz ECC (har ikke fått benket den med 800MHz minne ennå, Barcelona benket det samme). Endret 15. november 2009 av Del Lenke til kommentar
Osse Skrevet 20. november 2009 Del Skrevet 20. november 2009 (endret) Jeg leste først hos Fudzilla at Bulldozer kanskje blir å støtte AM3 socket og tok det med et kilo salt, og nå leste jeg litt mer nøye gjennom Anands første artikkel, og der står det at det er gode muligheter for at Bulldozer blir en drop in i AM3 hovedkort. n 2011 we get Bulldozer and it comes in the form of the Zambezi CPU (AMD’s codenames are such fun). You’ll see four and eight core versions of Zambezi. Both will support DDR3 and both will work in Socket-AM3. Obviously guaranteeing motherboard support this early in the game is difficult, but AMD is usually good about maintaining socket compatibility. You may be able to slip a Zambezi into your current day Socket-AM3 motherboards. I såfall er det vel til stor fordel for de som vil kjøpe AMD idag, men ok det er ikke bekreftet hvilke hk det eventuelt gjelder. Endret 20. november 2009 av Osse Lenke til kommentar
Simen1 Skrevet 20. november 2009 Del Skrevet 20. november 2009 Det står faktisk rett ut i presentasjonen fra AMD at entusiastversjonen av bulldozer får AM3 sokkel og mangler GPU. Mest sannsynlig betyr det at alle AM3 hovedkort kan få støtte for Bulldozer med en biosoppdatering. Er vi ekstra heldige så kanskje de ikke fjerner DDR2-kontrolleren slik at de kan brukes i AM2 hovedkort også. Muligheten er i hvert fall til stede. I så fall vil det være enestående god bakoverkompatibilitet (Hovedkort fra 2006 + CPU fra 2011-2013). Mellomversjonen får GPU og mest sannsynlig en annen sokkel. Men det er lov å håpe at sokkelen blir bakoverkompatibel slik som AM3 vs AM2. Jeg ser for meg at det kan løses ved å lage en ekstra rekke med "pads" på oversiden av prosessoren og at man må vippe ned en slags tilkobling for GPU-signalene, før man setter på kjøleren. Mulig det er for mye å håpe på, men i teorien er det mulig. Lenke til kommentar
Osse Skrevet 20. november 2009 Del Skrevet 20. november 2009 :!: er dette tilfellet så blir vel AMD boikotta aav hovedkort produsentene :!: uff ja. Lenke til kommentar
Osse Skrevet 20. november 2009 Del Skrevet 20. november 2009 Nå var det vel slik at det var endel ledige pins i AM3 sokkelen, om det kan ha vært en plan for grafikkbiten er ikke jeg teknisk nok til å svare eller spekulere på, men er jo morsomt å spekulere. Lenke til kommentar
Osse Skrevet 23. november 2009 Del Skrevet 23. november 2009 Kom nå over denne tråden hos amdzone, hvor John Fruehe , ansatt hos AMD forklarer litt om Bulldozer, på en måte som selv jeg forstår ganske bra. Lenke til kommentar
Anders Jensen Skrevet 23. november 2009 Del Skrevet 23. november 2009 Kom nå over denne tråden hos amdzone, hvor John Fruehe , ansatt hos AMD forklarer litt om Bulldozer, på en måte som selv jeg forstår ganske bra. Det er på en måte en hybridløsning mellom SMT og dual core. Det hele koker ned til hvor mange og hvilke ressurser som er delt. Bulldozer deler frontend. Dvs. den delen som henter instruksjoner og data samt dekoder instruksjoer. Videre deler den FPU pipelline mellom sine to "kjerner". Kjerner i denne sammenhengen er de to integer pipelinene i hver modul som blir representert som separate kjerner i OS. Jeg regner med det vil komme prosessorer med varierende antall moduler. Videre deles det nødvendigvis en del ressurser i minnehierarkiet. Den høyeste ressursen som deles er vel L2 cache. Det finnes også en rekke tradisjonelle dualcore implementasjoner som deler fra L2 cache og nedover i minnehierarkiet. Fordelen med Bulldozer løsningen fremfor SMT er at færre ressurser er delt og dermed får en høyere ytelse. Det er også mulig å få bedre ytelse per tråd så lenge en ikke bruker for mye FP kapasitet. Jeg tror Bulldozer vil vise seg sterk på workloads som skalerer dårlig sammenlignet med løsninger som har veldig aggressive SMT implementasjoner. Den vil antagelig score dårligere der hvor skalering er trivielt, men alt dette er kun basert på selve kjernen. Skalering avgjøres som regel mest av det som ligger rundt kjernen. FP ytelsen kan bli en utfordring siden det er kun 1/2 per "kjerne". Lenke til kommentar
Osse Skrevet 23. november 2009 Del Skrevet 23. november 2009 (endret) Forsto jeg det galt da jeg forsto det slik at en kjerne kan få hele fpu enheten og ikke bare 1/2 ? , selv om den deles av de 3 kjernene. One 256-bit shared FPU (that can be addressed as a single 256-bit unit or 2 128-bit units per cycle). Er litt nytt, altså en bulldoser modul er altså 2 integer kjerner + 1 fpu. Huff er glad jeg snart er friskmeldt så jeg kan gjøre annet enn å lese tekniske data og tester Edit Og en litt morsom ting dersom jeg forstår det riktig. En bullozer 8 core er 4 moduler, hele kjernebegrepet blir snudd her, for eh, der er 8 integer som blir oppfattet som kjerner av os, mens det er 4 fpu, så det er altså ikke en "ekte" 8 kjerner, :!: Så bulldozer 8 core er altså ikke en ekte 8 kjerner. Huff jeg ler. Endret 23. november 2009 av Osse Lenke til kommentar
Simen1 Skrevet 23. november 2009 Del Skrevet 23. november 2009 Det er på en måte en hybridløsning mellom SMT og dual core. Det hele koker ned til hvor mange og hvilke ressurser som er delt. Bulldozer deler frontend. Dvs. den delen som henter instruksjoner og data samt dekoder instruksjoer. Videre deler den FPU pipelline mellom sine to "kjerner". Kjerner i denne sammenhengen er de to integer pipelinene i hver modul som blir representert som separate kjerner i OS. Jeg regner med det vil komme prosessorer med varierende antall moduler. Videre deles det nødvendigvis en del ressurser i minnehierarkiet. Den høyeste ressursen som deles er vel L2 cache. Det finnes også en rekke tradisjonelle dualcore implementasjoner som deler fra L2 cache og nedover i minnehierarkiet. Bulldozer har separat L1D cache, men L1I finner jeg ikke i diagrammene. Anand skriver en litt uforståelig setning: The single FP cluster shares the L1 cache of the two integer clusters. Det kan altså virke som noe L1 cache er delt på en eller annen måte. FP ytelsen kan bli en utfordring siden det er kun 1/2 per "kjerne". Tja. Det er i verste fall 1/2 per kjerne. Dvs. kun når begge kjernene har like mye FP-last. Hvis FP-lasten er usymetrisk så kan FP betraktes som opp til 1/1 avhengig av hvor lite FP den andre kjernen trenger. Forsto jeg det galt da jeg forsto det slik at en kjerne kan få hele fpu enheten og ikke bare 1/2 ? , selv om den deles av de 3 kjernene. <..> Er litt nytt, altså en bulldoser modul er altså 2 integer kjerner + 1 fpu. Bulldozer gjør det i hvert fall vanskeligere å definere hva en kjerne er for noe. Tradisjonelt har en kjerne hatt sine egne Int-enheter og FP-enheter. Faktisk flere av hver. Intels HyperThreading innførte et nytt triks: To kjerner deler på disse ressursene, mens sceduler-enheten holder styr på hva som hører til hvilken kjerne. Man kan godt si at instruksjonene delte det samme samlebåndet gjennom den sorte boksen kalt kjernen. Den sorte boksen inneholder som nevnt flere int og fp-enheter. Altså en oppdeling til flere samlebånd inni "den sorte boksen", kjernen. Intels dobbeltkjerner med HT består av to separate "sorte bokser", kjerner. De er sammenkoblet med delt L2 cache, samme FSB, samme minne osv. Sammenkoblingen skjer mellom de sorte boksene og L2 cachen. Det nye med Bulldozer er at to "sorte bokser" er bygd sammen. Hvis vi kaller hver kjerne for enebolig nå så kan vi si at et kjernepar er som en vertikaldelt bolig med felles inngang, felles trapp, felles bad og dusj, felles kjøkken men separate stuer og soverom. Deler av de to kjernene "sorte boksene" eller "boligene" er altså slått sammen og delt som en felles ressurs, mens andre deler av de ikke er delt. Bulldozer består altså av separate int-enheter og delte fp-enheter. Dette er altså en slags hybrid-hyperthreading der FP-enhetene er delt på samme måte som i HyperThreading, mens int-enhetene er separate som tradisjonelle dobbeltkjerner uten HT. Denne "vertikaldelte" løsningen er en Bulldozer-modul som OSet ser som to kjerner. Bulldozer-modulene kan neppe splittes. Det vil si at Bulldozer trolig aldri vil komme som 1-kjerne, 3-kjerne, 5-kjerne osv oddetall. Men jeg tror vi vil se både 2, 4, 6 og 8 kjerner (= 1, 2, 3 og 4 Bulldozer-moduler). Kanskje flere også. Lenke til kommentar
Osse Skrevet 23. november 2009 Del Skrevet 23. november 2009 Nå demrer det litt her, selv gamle hunder lærer, er iallefall morsomt, har lest tråder ang bulldozer i hele helga, av en eller annen grunn har jeg ikke vært øltørst, morsomt er det iallefall å prøve å sette seg litt inn i dette. Jeg har også forstått det slik at blant annet den inegrerte gpu skal gi bedre fpu ytelse, men det er vel mange ting som kun er spekulasjoner. Anders, er det singel trådet programmer du mener bullodzer kan få problem med ?, er usikker på hva dum mener med triviel last. Lenke til kommentar
Simen1 Skrevet 23. november 2009 Del Skrevet 23. november 2009 Jepp, morsomt å lese om ny, spennende prosessor-utvikling. Jeg har også forstått det slik at blant annet den inegrerte gpu skal gi bedre fpu ytelse, men det er vel mange ting som kun er spekulasjoner. Integrert GPU gjelder vist ikke high end bulldozer. I det segmentet regner AMD med at man har separate GPUer. I midtsjiketet "Liano" får man integrert GPU. Men ikke regn med at FP enkelt kan flyttes fra CPU- til GPU-delen. Det må nok være spesielt skrevet for en av delene. PS. Husk at man trolig vil få 100% FP-ytelse i mange situasjoner. Det er kun når FP-lasten er jevnt høy at det kommer helt ned til 50%. Hvis vi ser for oss en prosessor med 4 Bulldozer-moduler (A-D) og dermed 8 kjerner (0-7) og kjernene i modul A numereres 0 og 4, i modul B 1 og 5, modul C 2 og 6 og modul D 3 og 7 så vil sannsynligvis OSet fordele flertrådprogrammer i sekvensiell rekkefølge dersom det er lite last ellers. De fleste programmer skalerer avtagende med antall kjerner. Det vil si at programmet skalerer svært godt med de 4 første trådene og dårlig med de 4 siste (dersom det er høy FP-last). For spillere vil nok en slik fordeling fungere svært bra. Spill utnytter trolig bare et fåtall tråder på en god måte i 2011 også. For litt tyngre parallell regning regner jeg med at GPU begynner å bli vanlig i 2011. Det vil si at manglende skalering av FP-ytelse fra de 4 siste kjernene trolig vil ha størst betydning for programmer som henger litt etter i utvikling. Etter hvert blir det stadig færre programmer. For meg virker det som AMD har timet dette godt. Bulldozer vil sikkert yte glimrende i single-tråd programmer og programmer med antall tråder opp til det antall Bulldozer-moduler man har (4 i mitt regnestykke). Lenke til kommentar
Anbefalte innlegg
Opprett en konto eller logg inn for å kommentere
Du må være et medlem for å kunne skrive en kommentar
Opprett konto
Det er enkelt å melde seg inn for å starte en ny konto!
Start en kontoLogg inn
Har du allerede en konto? Logg inn her.
Logg inn nå