AMD Bulldozer er den siste generasjonen AMD-prosessorer. Hvem er systemadministrator?

AMD bestemte seg for å ta en helt annen tilnærming for den nye Bulldozer-arkitekturen. Det ble besluttet å lage dual-core moduler som deler noen ressurser (L2 cache, flyttallsmodul), men som ikke er helt uavhengige av hverandre. (se bildet under)
Ifølge AMD ble dette gjort for å optimalisere prosessoren og samtidig redusere prisen på prosessoren. Optimaliseringen er at på konvensjonelle flerkjerneprosessorer kan noen moduler være inaktive, og slike moduler kan kombineres i Bulldozer-arkitekturen. Og hvis det er færre moduler, betyr det at mindre materiale går til spille, og dette vil igjen ha en positiv effekt på kostnader, energisparing og varmereduksjon.
Derfor, selv om AMD vil kalle sine nye Bulldozer-prosessorer dual-core, vil de i realiteten ikke være virkelig dual-core, siden de ikke vil ha helt uavhengige kjerner. Og navnet " dual core prosessor» vil bli brukt til markedsføringsformål.

For å lage " quad core prosessorer", AMD bruker to av disse enhetene, så prosessoren har faktisk to "prosessorer" inne (de to byggesteinene er vist på bildet nedenfor), i stedet for fire. AMD vil fortsette å kalle de nye prosessorene quad-core.


Åtte-kjerners prosessor basert på Bulldozer-arkitektur.

La oss nå se nærmere på Fetch and Decode-modulene som brukes i Bulldozer-arkitekturen.

Hent og dekode moduler

Fetch-modulen er ansvarlig for å hente instruksjoner for dekoding fra cachen eller tilfeldig tilgangsminne.

Hent og dekode moduler.

Som allerede nevnt, bruker prøvetakingsmoduler to "kjerner" samtidig. L1-instruksjonsbufferen brukes også av to kjerner samtidig, men hver prosessorkjerne har sin egen L1-databuffer.
AMD har allerede annonsert at L1-instruksjonsbufferen som brukes i Bulldozer-arkitekturen består av en 64 KB toveis sett-assosiativ cache. Den samme konfigurasjonen brukes i prosessorer med AMD64-arkitekturen, men forskjellen er at AMD64-prosessorer har en L1-cache per kjerne, mens Bulldozer-prosessorer vil ha en L1-cache per par kjerner. Databufferen vil imidlertid kun ha 16 KB, som er betydelig mindre enn de 64 KB per kjerne som brukes i prosessorer basert på AMD64-arkitekturen.

TLB-er (Oversettelse Se-side-buffer- ultrarask minnebuffer). Størrelsene på TLB-er er avslørt. Dette er buffere med en liten mengde minne, designet for å konvertere virtuelle minneadresser til fysiske adresser.
Virtuelt minne, bedre kjent som en sidefil, er en teknologi der mengden RAM «økes» av en spesiell fil på harddisken.

Dataprogrammer er skrevet ved hjelp av x86-instruksjoner, men for øyeblikket forstår prosessorer bare opprinnelige RISC-instruksjoner. Dekodingsmodulen er ansvarlig for å konvertere x86-programinstruksjoner til RISC-mikroinstruksjoner. Bulldozer-arkitekturen har fire dekodere, men dette øyeblikket AMD avslører ikke hvilke instruksjoner hver dekoder utfører. Vanligvis utfører en av disse dekoderne komplekse, komplekse instruksjoner ved å bruke den medfølgende ROM-mikrokoden ("µkode" eller "mikrokode"). Dekoding av komplekse instruksjoner fullføres etter noen få klokkesykluser, hvoretter de konverteres til flere mikroinstruksjoner. Vanligvis optimaliserer produsenter prosessorene sine på en slik måte at når de dekoder de vanligste instruksjonene, blir de utført i bare én klokkesyklus.

Introduksjon Det er ingen tvil om at AMDs nye prosessorer, basert på Bulldozer-mikroarkitekturen, er blant de mest etterlengtede produktene ikke bare i år, men i det minste for de nåværende fem årene. Det er flere grunner til dette, så vel som for eksistensen av en enorm hær av fans for AMD-produkter. Noen mennesker har friske minner fra tiden da prosessorene til dette selskapet var bedre enn Intels på alle måter. Noen mennesker elsker AMD-produkter for deres balanserte kombinasjon av pris og ytelse. Og noen ble imponert over AMDs emosjonelle historier om fordelene med mikroarkitekturen som utvikles i selskapet. Alt dette ga opp til mange år med kjedelig venting på utgivelsen av Bulldozer-generasjonsprosessorer, og her er resultatet - du leser denne artikkelen med stor oppmerksomhet og utilslørt interesse.

Imidlertid er det helt klart verdt det. Situasjonen på prosessormarkedet de neste årene avhenger av hvor vellykket Bulldozer-mikroarkitekturen viser seg å være. Tross alt er det bare Intel som har ingeniør- og produksjonsressursene til å rulle ut nye mikroarkitektoniske løsninger hvert annet til tredje år. AMD er tvunget til å følge et mye mer målt tempo i utviklingen. Det er skummelt å huske, men mikroarkitekturen som brukes i dagens Phenom II- og Athlon II-prosessorer går tilbake til 1999, og siden den gang har AMD kun gjort kosmetiske endringer på den. Derfor har vi ingen spesielle illusjoner om at utviklingssyklusen plutselig vil bli mer aktiv med lanseringen av Bulldozer. Det er åpenbart at Bulldozer vil være kjernen i AMDs ytelsestilbud de neste årene.

gjeldende versjon Selskapets planer for utviklingen av denne mikroarkitekturen er trukket frem til 2014, men det vil nesten helt sikkert fortsette videre.

Det faktum at AMD lover en 10-15 prosent økning i ytelse hvert år er mer et alarmerende symptom enn et oppmuntrende. Mest sannsynlig vil en slik økning først og fremst gis av en økning i klokkefrekvenser, og først da av noen nye mikroarkitektoniske forbedringer.

Med andre ord vil suksessen til Bulldozer-mikroarkitekturen i sin nåværende form ha en avgjørende innvirkning på AMDs fremtidige posisjon, på konkurranseevnen til produktene, og til slutt på den generelle situasjonen i prosessormarkedet.

Selvfølgelig kan det ikke benektes at Bulldozer for AMD ikke er det eneste nøkkelproduktet. Denne mikroarkitekturen er rettet mot høyytelses desktop- og serversegmentet i dag. Samtidig har AMD andre forslag til andre markedssegmenter. For eksempel er billige, kostnadseffektive prosessorer med Bobcat-mikroarkitekturen eller APU-er fra Llano-familien, utgitt av selskapet tidligere i år, ikke mindre viktige områder for selskapet. Og disse forslagene, som vi så fra testresultatene, er vellykkede løsninger som tilstrekkelig kan fungere både som løsninger for netbooks og nettops, og som grunnlag for integrerte plattformer i mellomprisklasser.

Suksessen eller fiaskoen til Bulldozer har imidlertid mye mer betydelige implikasjoner. For det første retter denne mikroarkitekturen seg mot markedssegmenter med mye høyere fortjenestemarginer – servere og stasjonære produktivitetssystemer. Derfor er det i stand til å ha en mye sterkere innvirkning på AMDs økonomiske tilstand. For det andre suksess AMD-prosessorer serie C, E og A - dette er, ærlig talt, ikke i det hele tatt fortjenesten til ingeniørene som er involvert i utviklingen av mikroprosessordesign. Markedssuksessen til disse CPUene (eller APUene, hvis vi holder oss til AMD-terminologien) stammer fra tilstedeværelsen i dem av grafikkjerner fra Radeon HD-familien, som fant veien inn i AMD-prosessorer takket være det rettidige kjøpet av ATI. Bulldozer er en slags kvalifiserende eksamen for et ingeniørteam som jobber spesifikt med mikroarkitekturen til datakjerner. Og for det tredje vil Bulldozer til slutt bli grunnlaget for hele linjen av AMD-prosessorer, med unntak av kun løsninger for energieffektive plattformer. Så til syvende og sist er det denne mikroarkitekturen som vil komme til lavere markedssegmenter, og fortrenge K10 nesten overalt, inkludert Llano-prosessorer.



Kort sagt er det knapt mulig å overvurdere viktigheten av en vellykket lansering av prosessorer med Bulldozer-mikroarkitekturen. Dette er et ikonisk produkt på både et følelsesmessig og materialistisk nivå. Og derfor ønsker jeg virkelig at vi skal se, billedlig talt, en ny K7 eller K8 i virkeligheten.

Men allerede før testing kan vi si at sjansene for en gjentakelse av et slikt fenomen er små. Intel selv hjalp AMD med å gripe håndflaten forrige gang, og prøvde å fremme den langt fra ideelle NetBurst-mikroarkitekturen. Deretter fokuserte Intel-ingeniører på å øke klokkehastighetene, som til slutt havnet i hindringer i form av gigantiske lekkasjestrømmer, mens AMD tilbød en mer balansert mikroarkitektur rettet mot å utføre flere instruksjoner per klokkesyklus. Men etter at Intel reviderte sin doktrine og introduserte en ny Core-mikroarkitektur, også rettet mot å utføre maksimalt antall instruksjoner per klokkesyklus, falt AMD tilbake til posisjonen som en etternøler, der den hadde vært til nå.

Det er åpenbart at det er veldig vanskelig å overgå moderne Intel-prosessorer når det gjelder antall instruksjoner som utføres per klokkesyklus. Dagens Sandy Bridge-mikroarkitektur er resultatet av minst tre optimaliseringssykluser med en iboende effektiv design, så vi kan ikke forvente enda høyere spesifikk kjerneeffektivitet fra AMD. Dessuten satte AMD-ingeniører ikke engang et slikt mål for seg selv.

Hovedideen til Bulldozer ligger et annet sted. Ifølge utviklerne skal prosessorer bygget på denne mikroarkitekturen vise god ytelse på grunn av høye klokkehastigheter og et større antall datakjerner enn deres konkurrenter og forgjengere. Samtidig bør de forbli ganske lønnsomme i produksjon, det vil si at de ikke skal ha for stor halvlederkrystall, og ikke demonstrere for høy varmespredning i form av en individuell kjerne.

AMD Multi-Core Design Secrets

Det er helt klart at en økning i antall prosessorkjerner uunngåelig innebærer en økning i området til prosessorbrikken. Som et resultat øker både kompleksiteten i produksjonen og kostnadene for sluttprodukter. Derfor brukes for eksempel prosessorer med maksimalt antall datakjerner i dag kun i servermarkedssegmentet - bedriftskunder er mye mer villige til å betale ut penger enn enkeltbrukere. Kurset valgt av AMD for å øke antall kjerner og samtidig opprettholde en akseptabel kostnad for de resulterende prosessorene, må kombineres med en forenkling av selve kjernene. Men på den annen side innebærer forenkling av kjerner en uønsket effekt - et fall i ytelse i applikasjoner med svakt parallelliserte belastninger, som det fortsatt er tilstrekkelig antall av for øyeblikket.

Derfor gikk AMD-ingeniørene sine egne veier. Mikroarkitekturen til individuelle kjerner har blitt mer kompleks, og øker antallet instruksjoner som utføres per klokke når det er mulig.



Men det ble besluttet å dele en del av ressursene som vanligvis er tilstede i hver kjerne, men samtidig overdrevent effektive, mellom par av datakjerner.



Den resulterende dual-core-enheten ble den grunnleggende byggesteinen for Bulldozer-prosessorer. En slik node, kalt en modul i AMD-terminologi, har to komplette sett med heltallsaktuatorer. Men samtidig eksisterer flytepunktsenheten, instruksjonsforhåndshenting og dekodingsenheter, samt cache på andre nivå i en enkelt kopi for et par kjerner og deler ressursene sine mellom dem. I følge utviklernes estimater er kraften til disse elementene ganske nok for to kjerner, siden når de betjener en enkelt kjerne i det virkelige liv, er de ofte inaktive. I tillegg har forsinkelser i deres uavbrutt drift ingen alvorlig innvirkning på den resulterende ytelsen.

I følge AMD selv er én dual-core modul designet på den beskrevne måten i stand til å levere opptil 80 % av ytelsen til en fullverdig dual-core prosessor. Samtidig når besparelser i transistorbudsjettet (og følgelig i området til halvlederkrystallen) 44%.

Takket være denne geniale kjernekomprimeringen, var AMD i stand til å inkorporere en åtte-kjerners (eller quad-modul) design i den grunnleggende utformingen av Bulldozer-halvledermatrisen.



Dessuten blir en ganske betydelig del av krystallen overgitt til cache-minne. Cachene på andre nivå, delt mellom par med kjerner i hver prosessormodul, har en kapasitet på 2 MB, og det totale L3-hurtigbufferminnet for hele prosessoren er 8 MB. Når vi tar i betraktning den tradisjonelle AMD-eksklusive organiseringen av cacher, kan vi si at deres totale volum er 16 MB per åtte-kjerners prosessor. Samtidig forblir området til Bulldozer-halvlederkrystallen innenfor akseptable grenser, så AMD-utviklerne har fullt ut oppnådd målet sitt.



I absolutte tall betyr dette at åttekjernes Bulldozere vil ha en mindre halvlederform enn for eksempel sekskjerners Thuban-prosessorer (Phenom II X6), bygget på K10-mikroarkitekturen. Det bør imidlertid tas i betraktning at Bulldozer vil bli produsert ved hjelp av en mer avansert teknisk prosess med 32 nm-standarder. Sammenlignet med moderne firekjerners Intel Sandy Bridges, vil AMDs nye åtte-kjerners prosessorer ha bare 45 % større dyseareal.

Imidlertid kan firekjerners Sandy Bridge-prosessorer, takket være støtten til Hyper-Threading-teknologi, akkurat som Bulldozer, presenteres for operativsystemet som åtte-kjerners prosessorer. Dette vil absolutt gi opphav til kontroverser om lovligheten av å kalle Bulldozer fullverdige åttekjerneprosessorer. Det skal imidlertid forstås at AMD og Intel har kommet til tillatelsen av samtidig utførelse av åtte datatråder på forskjellige måter. Intel-utviklere har skrudd inn mikroarkitekturen deres tilleggsfunksjoner, slik at to tråder kan løpe inne i én kjerne, på ett sett med utførelsesenheter. AMD, tvert imot, kuttet ut "ekstra" deler fra to fullverdige kjerner, men det var bare to sett med aktuatorer inne i hver modul.



Som et resultat øker Intels Hyper-Threading-teknologi multi-threaded ytelse med kun 15-20 %, mens AMDs løsning gir en 80 % økning i ytelsen når man flytter fra 4 til 8 tråder.

Selv om, selvfølgelig, halvlederkrystallen til den åtte-kjerners Bulldozer, på grunn av sin modulære struktur, er veldig lik den firekjernede.


Flere instruksjoner per syklus?

Å øke antall prosessorkjerner alene vil ikke komme deg langt. Dette ble klart selv etter utgivelsen av sekskjerners Phenom II X6-prosessorer, som generelt er dårligere i ytelse enn firekjerners Sandy Bridge. Derfor begrenset AMD-utviklerne seg ikke til bare omfattende designendringer. Den grunnleggende mikroarkitekturen til Bulldozer, sammenlignet med K10, har blitt redesignet litt mindre enn fullstendig, noe som gir håp om å akselerere driften av systemer på AMD-prosessorer, ikke bare i flertrådede oppgaver, men også i applikasjoner med et lavt nivå av parallellitet. Dessuten er disse forhåpningene basert på helt objektive omstendigheter. Mens tidligere AMD-mikroarkitekturer ble designet for å utføre tre instruksjoner per klokke (på én kjerne), antar Bulldozer-mikroarkitekturen utførelse av fire instruksjoner per klokke og er nærmere i denne egenskapen konkurrentprosessorer med Core-mikroarkitektur.

Kvalitative endringer kan spores fra de aller første stadiene av utførelsesrørledningen - fra stadiet med forhåndshenting og dekodingsinstruksjoner. Disse stadiene er felles for par av kjerner i en enkelt modul, så AMD passet spesielt på å sikre at de ikke blir en mikroarkitektonisk flaskehals. Instruksjoner hentes fra L1I-cachen for dekoding i blokker på 32 byte – dobbelt så store som i prosessorer med Core-mikroarkitektur (andre generasjon). Selve instruksjonsbufferen på første nivå har en kapasitet på 64 KB og to-kanals assosiativitet. Instruksjoner beregnet for dekoding lastes inn i den fra cache på andre nivå på forhånd.

Grenprediksjonsblokken, som er mest direkte involvert i prøvetakingsprosessen, inneholder to sett med buffere som uavhengig overvåker aktiviteten til forskjellige kjerner. Når du forutsier resultatene av logiske grener, blir Bulldozer derfor ikke forvirret mellom trådene. Siden den nye mikroarkitekturen tar sikte på å operere med høye klokkehastigheter, er kvaliteten på grenprediksjonsenheten av største betydning. Derfor har algoritmene som brukes i den blitt fullstendig redesignet, og AMD håper at effektiviteten til Bulldozers grenprediksjon vil forbedres.



Bulldozers x86 instruksjonsdekoder deler også ressursene sine over to kjerner og er i stand til å dekode opptil 4 innkommende instruksjoner per klokkesyklus. Ytelsen er imidlertid begrenset til å gi bare fire makroinstruksjoner (som følge av dekoding i AMD-termer), mens x86-instruksjoner kan deles inn i 1-2 eller enda flere makroinstruksjoner. Selv om dekoderen har økt ytelsen med en tredjedel sammenlignet med forrige generasjon mikroarkitektur, kan det hende at hastigheten ikke er nok, gitt at den har i oppgave å støtte to heltalls- og en reeltallsdataklynger.

Det skal bemerkes at en viss analog av makrofusjoogså har blitt brukt i Bulldozer. Noen grupper av x86-instruksjoner kan kombineres til en enkelt helhet og sendes gjennom dekoderen som én instruksjon – AMD kaller dette Branch Fusion.

De dekodede makroinstruksjonene er fordelt på tre dataklynger, hvorav to er restene av fullverdige datakjerner og én er reelt nummerert, delt mellom kjernene. Hver av disse klyngene har sin egen instruksjonsomstillingslogikk og sin egen planlegger. Dette betyr åpenbart at AMD beholder muligheten til å fullstendig erstatte eller supplere noen av disse klyngene i fremtidige produkter.

Omorganisering av instruksjoner i hver av klyngene er basert på bruk av en fysisk registerfil, som lagrer referanser til innholdet i registrene og eliminerer behovet for konstante dataoverføringer i prosessoren ved omorganisering av instruksjonsrekkefølgen. Denne tilnærmingen har erstattet ombestillingsbufferen i stedet, da den fysiske registerfilen ikke bare er mer effektiv når det gjelder strømforbruk, men også mer gunstig for å øke prosessorens klokkehastighet.

Heltallsklynger inneholder to aritmetiske utførelsesenheter (ALU) og to minneadresseenheter (AGU). Sammenlignet med K10-mikroarkitekturen har antall enheter gått ned med én ALU og én AGU, men AMD forsikrer at dette ikke vil redusere ytelsen vesentlig, men kjerneområdet vil spare betydelig. Vi tror lett at det å ha mer enn to ALUer og AGUer i hver heltallsklynge egentlig ikke gir praktisk mening, fordi ikke mer enn fire makroinstruksjoner per klokkesyklus kan komme fra dekoderen for utførelse av begge klynger.



Samtidig har aktuatorer blitt mer universelle, de skiller seg praktisk talt ikke ut i sine funksjoner.

Organiseringen av cache-minneundersystemet har alvorlig endret seg. L1D-hurtigbufferen ble redusert fra 64 til 16 KB og ble inkludert gjennomskriving. Samtidig økte assosiativiteten til 4 kanaler, i tillegg til at en "baneprediktor" ble lagt til. Reduksjonen i størrelsen på databufferen på første nivå kompenseres av en betydelig økning i dens gjennomstrømning nå kan den betjene opptil tre 128-biters operasjoner samtidig: to lesinger og én skriving.

Åpenbart er endringer i L1D-hurtigbufferbåndbredden i stor grad relatert til behovet for å implementere 256-bit AVX-instruksjoner i mikroarkitekturen, støtte for dette dukket opp i FPU-enheten delt mellom kjernene. Dette betyr imidlertid ikke at reelle aktuatorer har blitt 256-bit. Faktisk har Bulldozer-modulen to 128-bits enheter, og AVX-instruksjoner dekodes som koblede par med 128-biters instruksjoner. Følgelig, for å utføre dem, kombineres FMAC-enheter (flytepunkt multiplisere-akkumulere) og ytelsen til en reelt nummerert klynge reduseres til én AVX-kommando per prosessormodul per klokkesyklus.



FPU-en har ikke sin egen cache på første nivå, så denne klyngen fungerer med data gjennom heltallsenheter.

Siden AMD-ingeniører allerede har tatt opp oppgaven med å implementere støtte for AVX-instruksjonene foreslått av Intel, har andre relevante sett blitt lagt til Bulldozer-prosessorene: SSE4.2 og AESNI-instruksjoner rettet mot å akselerere krypteringsoperasjoner. I tillegg introduserte AMD noen få av sine egne kommandoer: treoperand multiplikasjonstillegg FMA4 og sin egen visjon om videreutviklingen av AVX - XOP.



L2-cachen i Bulldozer deles i prosessormodulen og deles mellom kjerner. Kapasiteten er imponerende 2 MB, og assosiativiteten er 16 kanaler. Imidlertid økte latensen til hurtigbufferen som opererer i henhold til dette skjemaet til 18-20 sykluser, til tross for at bussbredden forble den samme som før - 128-bit. Dette betyr at L2-cachen i Bulldozer, selv om den er stor, ikke er veldig rask konkurrerende og tidligere prosessorer tilbyr L2-cache med omtrent halvparten av ventetiden. Sammen med en liten L1D-cache med en latens på 4 sykluser (som også er mer enn i K10-mikroarkitekturen), ser ikke alt dette særlig oppmuntrende ut. AMD hevder imidlertid at cache-latensen er økt utelukkende for å gi Bulldozer muligheten til å operere med høye klokkehastigheter.



I tillegg har AMD-ingeniører implementert en effektiv forhåndshentingsenhet, som er designet for å laste de nødvendige dataene inn i cachen på første og andre nivå på forhånd. Ytelsen til disse blokkene sies å ha blitt forbedret, og de er nå til og med i stand til å gjenkjenne uregelmessige datastrukturer.

I teorien gjør Bulldozer et godt inntrykk. AMD har fullstendig revidert sin gamle tilnærming til prosessormikroarkitektur og implementert et fullstendig redesignet design. Noe som ved første øyekast ser veldig lovende ut, fordi den nye mikroarkitekturen er optimalisert for utførelse av fire, i stedet for tre, instruksjoner per klokkesyklus på én prosessorkjerne. I tillegg støtter den makrosammenslåing av instruksjoner under dekodingsprosessen, noe som ytterligere øker spesifikk ytelse.

Men alt ser så bra ut bare så lenge vi ser på bare en kjerne og ikke tenker på det faktum at slike kjerner i virkeligheten er kombinert i par. Og dual-core Bulldozer-modulen har for mange felles deler for et par kjerner. Spesielt, på grunn av det faktum at en slik modul har bare én instruksjonshentingsenhet og én dekoder, forblir det maksimale antall instruksjoner utført per klokkesyklus lik fire for hele dual-core-sammenstillingen. Dette betyr at den logiske ekvivalenten for en enkelt Sandy Bridge-kjerne når det gjelder teoretisk ytelse er modulen, og ikke Bulldozer-kjernen. Modulens evne til å kjøre to tråder i dette tilfellet ser ut som en helt logisk respons fra AMD til Hyper-Threading-teknologi.

Selvfølgelig vil vår testing av ekte prosessorer sette alt på sin plass, men allerede på stadiet med å vurdere mikroarkitekturen er vi tvunget til å tenke at det å posisjonere Bulldozer som fullverdige åttekjerneprosessorer er et markedsføringsknep. En mer pålitelig vurdering av databehandlingsevnene til disse prosessorene bør baseres på antall moduler, som fra et synspunkt av teoretisk ytelse er perfekt sammenlignbare med kjerner bygget på andre generasjons Intel Core-mikroarkitektur.

I denne forbindelse oppstår et helt logisk spørsmål - hvorfor brydde AMD seg til og med med implementeringen av dual-threaded prosessering i en enkelt prosessormodul? Hvorfor kunne det ikke være mulig å kombinere aktuatorer fordelt over to kjerner til en enkelt klynge? Det er flere grunner til dette.

For det første, for å belaste et stort antall aktuatorer med arbeid samtidig, kreves det i det generelle tilfellet avansert intra-prosessorlogikk. AMD var åpenbart ikke i stand til å implementere svært effektive grenprediksjons- og instruksjons- og dataforhåndshentingsenheter i Bulldozer-mikroarkitekturen. Derfor flyttes oppgaven med å parallellisere arbeid og mer optimal bruk av utførelsesenheter til programvareprodusenter, som må levere produkter med multi-threading-støtte for Bulldozer.

For det andre er det ikke så ille å øke antall samtidig utførte tråder. Hvis for stasjonære brukere, og spesielt spillere, åtte ganske enkle Bulldozer-kjerner ikke lover noen spesielle fordeler, bør en slik mikroarkitektur i serverapplikasjoner møtes veldig gunstig. Så det er ganske mulig at hovedmålet med å utvikle Bulldozer ikke var å tilfredsstille ambisjonene til entusiaster, men å gjenopprette AMDs posisjon i servermarkedet.

Turbo Core enda mer Turbo

Energieffektivitet er en av de de viktigste egenskapene moderne prosessorer. For eksempel i deres fremtidige mikroarkitekturer Intel legger vekt på å redusere energiforbruket nesten i utgangspunktet. AMD har ennå ikke nådd dette punktet. Ingeniørene i dette selskapet kjemper først og fremst om ytelsen. Men dette betyr ikke at utviklerne ikke brydde seg om de termiske og energimessige egenskapene til Bulldozer. Tvert imot, etter Llano, har fundamentalt nye tilnærminger for å øke energieffektiviteten funnet veien inn i Bulldozer-prosessorer. Men i dette tilfellet brukte ingeniører det frigjorte potensialet ikke så mye for å spare penger, men for å presse ut ytterligere ytelse ved å øke klokkefrekvensene.

Selvfølgelig har ny produksjonsteknologi gitt visse forbedringer når det gjelder energiforbruk og varmeavledning. Bulldozer bruker en 32nm prosessteknologi som bruker høydielektrisk materiale, metallporttransistorer og SOI-teknologi. Med andre ord, dette er den samme GlobalFoundries tekniske prosess som produserer Llano-prosessorer. Takk til ny teknologi Med 32 nm-standarder overstiger ikke driftsspenningene til serielle åttekjerners Bulldozer-prosessorer 1,4 V.

Den viktigste nyvinningen som gikk fra Llano til Bulldozer er imidlertid strømporttransistorer, designet for å kutte strømmen fra visse deler av prosessoren. I Bulldozer lar de deg uavhengig avlaste spenningen fra individuelle dual-core moduler og fra cache-minne.



Når begge datakjernene i modulen går inn i strømsparingstilstand C6, blir modulen strømløs. Dessverre kan ikke denne teknologien brukes på prosessorkjerner, siden det rett og slett ikke er noen dedikerte kjerner inne i Bulldozer - de deler noen av ressursene med modulnaboene sine.

De energibesparende tilstandene til C6-kjernene styres med Bulldozer- og Turbo Core-teknologi. I de øyeblikkene når minst halvparten av Bulldozer-prosessormodulene er i en strømsparende av-tilstand, øker den forsyningsspenningen og klokkefrekvensen. Denne tvungne driftsmodusen kalles Max Turbo Boost.

Max Turbo Boost er imidlertid ikke noe nytt slik auto-overklokking ble introdusert av AMD i Thuban-prosessorer bygget på K10-mikroarkitekturen. Det som virkelig er nytt er All Core Boost-modusen, der klokkehastigheten kan øke over den nominelle verdien selv når alle prosessorkjerner er aktive. Den forbedrede versjonen av Turbo Core introdusert i Bulldozer lar prosessoren med god nøyaktighet bedømme dets praktiske strømforbruk og varmespredning, basert på informasjon om arbeidsmengden til visse blokker. Følgelig, hvis, ifølge denne vurderingen, gjeldende varmespredning og strømforbruk er betydelig under grensen, kan prosessoren øke forsyningsspenningen og klokkefrekvensen selv om ikke en eneste kjerne er i passiv tilstand.



Dermed er driftsfrekvensen til prosessorer med Bulldozer-mikroarkitekturen en ekstremt variabel verdi. Avhengig av "alvorlighetsgraden" til algoritmene som utføres og antall involverte kjerner, kan den dynamisk endre seg over et veldig bredt område, og nå 900 MHz.

Oppdatert skrivebordsplattform

Med introduksjonen av den nye mikroarkitekturen endret ikke AMD bare utformingen av plattformen, men opprettholdt til og med kompatibiliteten til Bulldozer-prosessorer med den eksisterende infrastrukturen. Følgelig, akkurat som forgjengerne, inneholder de nye prosessorene en integrert nordbro, inkludert en cache på tredje nivå, en minnekontroller og en Hyper-Transport-busskontroller. Samtidig, til tross for at alle nyutgitte AMD- og Intel-prosessorer også har en PCI Express-grafikkbusskontroller innebygd, har ikke Bulldozer dette.



Akkurat som i prosessorer bygget på K10-mikroarkitekturen, bruker den innebygde nordbroen i Bulldozer sin egen klokkefrekvens, som er satt til 2,0-2,2 GHz for ulike modeller. Merk at denne frekvensen har en viss innvirkning på ytelsen, siden den direkte påvirker hastigheten til L3-cachen. Som i dagens versjon av prosessorer har et volum økt til 8 MB og har 64-kanals assosiativitet. Dataene som er lagret i denne hurtigbufferen imøtekommer ønsker fra bedriftsbrukere, er beskyttet av ECC feilrettingskode.

Minnekontrolleren innebygd i Bulldozer har ingen fundamentalt nye funksjoner. Som før støtter den DDR3 SDRAM, bruker en dual-channel design og består faktisk av to uavhengige en-kanals kontrollere som kan fungere i enten paret eller frakoblet modus. AMD la kun til støtte for minnetyper med høyere hastighet, og erklærte kompatibilitet med DDR3-1867, og sørget for kompatibilitet med energieffektive moduler med driftsspenninger på 1,25 og 1,35 V.

Når vi snakker om skrivebordsmodifikasjonen Bulldozer, som har sitt eget kodenavn Zambezi, skal det bemerkes at den er rettet mot en ny Socket plattform AM3+, også kjent under kodenavnet Scorpius. Prosessor stikkontakt AM3+ har 942 pinner, én pinne mer enn Socket AM3. Men til tross for dette forblir Zambezi kompatibel med eldre Socket AM3-kort. Når du installerer nye prosessorer på gamle hovedkort, går faktisk bare visse strømstyringsfunksjoner tapt. Dermed reduseres frekvensbyttehastigheten når Turbo Core og Cool"n"Quiet-teknologiene kjører og Vdrop ikke fungerer.

Men da Zambezi ble utgitt, AMD og produsenter hovedkort har forberedt en galakse av nye produkter basert på de nye 900-seriens logikksett. Strukturen til et typisk system basert på Zambezi-prosessoren og bygget på det nye brikkesettet er vist i blokkdiagrammet nedenfor.


Forskjellene mellom det nye AMD 990FX-brikkesettet (og dets forenklede versjoner AMD 990X og AMD 970) ligger utelukkende i støtte for de spesifikke elektriske egenskapene til Socket AM3+, og de fører ikke med seg noen nye grensesnitt. I likhet med 800-seriens brikkesett har den nye sørbroen seks SATA 6 Gbps-porter og fjorten USB 2.0-porter. Uansett hvor mye vi ønsker å se støtte for PCI Express 3.0-spesifikasjonen eller i verste fall USB 3.0-porter i de nye systemlogikksettene, er det ikke noe slikt i dem denne gangen heller. Dette er forresten veldig merkelig, fordi USB 3.0-støtte ble introdusert i brikkesett for Socket FM1-plattformen på lavere nivå.

Forskjellene mellom modifikasjonene til den nye serien med systemlogikksett består utelukkende i støtte for ulike multi-GPU-konfigurasjoner.


Zambezi prosessor utvalg

Utgivelsen av Zambezi-prosessorer fullfører oppdateringen modellutvalg, tilbudt av AMD. Desktop-prosessorer basert på Bulldozer-mikroarkitekturen vil bli det nye flaggskipet til denne produsenten og vil raskt fortrenge alle slags Phenom II-modifikasjoner fra markedet.

Med vekt på innovasjonen av den nye mikroarkitekturen, vil AMD bruke et nytt markedsføringsnavn for Zambezi-stasjonære prosessorer - FX. På den ene siden passer den perfekt inn i den nye nomenklaturen, som går ut på å merke prosessorer med bokstaver, og på den andre siden er den en referanse til de legendariske Athlon 64 FX-prosessorene, som for seks-sju år siden var de raskeste stasjonære CPU-ene. Imidlertid er disse dagene ugjenkallelig borte, så la oss se hva AMD er klar til å tilby oss nå.

I nær fremtid vil utvalget av prosessorer i FX-serien omfatte fire modeller.



Til tross for at forskjellen mellom Zambezi-prosessormodeller ikke bare er i klokkehastigheter, men også i antall aktive datakjerner, vil de alle være basert på den samme enhetlige halvlederbrikken. Her er det:



For å få prosessorer med færre enn åtte kjerner, vil AMD deaktivere noen av dem på halvlederbrikken. Muligheten for å låse dem opp igjen, slik det var mulig med prosessorer med K10 mikroarkitektur, er fortsatt i tvil. Imidlertid, i BIOS til hovedkort basert på 900-seriens logikksett som har gått gjennom laboratoriet vårt, er de tilsvarende alternativene til stede, så det er håp om en gunstig løsning på dette problemet.

Deaktivering av kjerner for å oppnå seks- og firekjerners prosessormodifikasjoner vil skje "modul for modul". Det vil si at det vil være hele dual-core modulene som vil bli blokkert, og ikke de "andre" kjernene inne i dem, selv om en slik taktikk ville være mye mer fordelaktig med tanke på ytelse. Utgivelsen av sekskjerners og firekjerners prosessorer bygget på Bulldozer-mikroarkitekturen forklares imidlertid ikke så mye av markedsføringshensyn som av behovet for å implementere avvisning, som gitt de ganske store dimensjonene til brikken og den nye teknologiske prosessen, blir ganske mye.

Til tross for at AMD har spisset den nye mikroarkitekturen for å operere ved høye klokkefrekvenser, kan vi ennå ikke kalle de oppnådde verdiene et imponerende gjennombrudd. Fire-gigahertz-barrieren forblir uovervunnet, og den nominelle frekvensen til den eldre FX-prosessoren er enda lavere enn for eksempel Phenom II X4 980. Vi vil gjerne håpe at Zambezi-frekvensene raskt vil gå opp med forbedringen av produksjonsteknologien . Selv om du tror den nåværende versjonen av AMDs planer, vil linjen ikke bli akselerert tidligere enn første kvartal 2012.

Det er ikke noe gjennombrudd når det gjelder varmeavledning og energiforbruk. AMD har lenge snakket om hvordan Bulldozer-mikroarkitekturen vil være mer energieffektiv, men faktisk har de eldre åttekjernemodellene samme TDP-nivå som de eldre Phenom II. Riktignok bør selskapet etter en stund legge til tilbudene sine en 95-watt versjon av FX-8120 og en FX-8100 prosessor med samme beregnede varmespredning.

Men prisene på de nye FX-seriens prosessorer ser mer enn attraktive ut. AMD ønsker ikke å avvike fra sin valgte kurs med å tilby plattformer til en gunstigere pris enn konkurrentene, så de eldre åttekjerners Zambezi-modellene er i motsetning til de eldre Intel Core i5-prosessorene. Generelt planlegger AMD å følge følgende posisjoneringsskjema for produktene sine:



AMD har med andre ord ikke tenkt å konkurrere med Intels sekskjerners prosessorer og den lovende LGA2011-plattformen, men ønsker å fokusere på å erobre mellomprissegmentet.

Gode ​​nyheter for entusiaster vil være det faktum at ingen multiplikatorer vil bli blokkert i alle FX-seriens prosessorer. Alle Zambezi kan ikke bare enkelt overklokkes ved ganske enkelt å endre basismultiplikatoren, men kan også rekonfigureres på samme måte med Turbo Core-teknologi. Også overklokking av minneundersystemet og frekvensen til nordbroen innebygd i prosessoren er tilgjengelig.

Testprosessor: AMD FX-8150

AMD sendte våre redaktører seniorprosessoren til Zambezi-familien, FX-8150.



Den har en nominell klokkehastighet på 3,6 GHz og mer detaljert informasjon Dens egenskaper kan fås fra det gitte skjermbildet av CPU-Z.



Vær oppmerksom på at prosessoren er basert på B2-stepping – og dette er ikke den første versjonen. Tidligere modifikasjoner av halvlederkrystallen ble avvist av produsenten fordi de ikke kunne operere med de opprinnelig planlagte klokkefrekvensene. Det er dette som forårsaket en viss forsinkelse i kunngjøringen, som opprinnelig var planlagt på våren, deretter på sommeren, men som faktisk skjedde i midten av oktober.

3,6 GHz-frekvensen som oppnås i dag ser imidlertid ikke så imponerende ut. Både AMD selv og Intel har produkter som kjører med høyere hastigheter. FX-8150 har imidlertid svært lovende Turbo Core-teknologi, som under lav belastning automatisk kan øke prosessorfrekvensen opp til 4,2 GHz.



Det er bemerkelsesverdig at en frekvens på 3,9 GHz kan oppnås selv om belastningen er på alle datakjerner, men samtidig gir rom for auto-overklokking uten å gå utover grensene for strømforbruk og varmespredning.



Når den er inaktiv, reduserer Cool"n"Quiet-teknologien frekvensen til FX-8150 til 1,4 GHz. Tilførselsspenningen faller til 0,85 V.


Hvordan vi testet

Vi sammenlignet den nye åttekjerners AMD FX-8150-prosessoren, bygget på Bulldozer-mikroarkitekturen, med en av forgjengerne, sekskjerners Phenom II X6, og med konkurrerende (prisede) Intel-tilbud – firekjerner Kjerneprosessorer i5-2500 og Core i7-2600. I tillegg, for større klarhet, er ytelsesindikatorer for sekskjerners Core i7-990X-prosessoren lagt til resultatene.

Som et resultat inkluderte testsystemene følgende programvare- og maskinvarekomponenter:

Prosessorer:

AMD FX-8150 (Zambezi, 8 kjerner, 3,6 GHz, 8 MB L2 + 8 MB L3);
AMD Phenom II X6 1100T (Thuban, 6 kjerner, 3,3 GHz, 3 MB L2 + 6 MB L3);
Intel Core i7-2600K (Sandy Bridge, 4 kjerner, 3,4 GHz, 1 MB L2 + 8 MB L3);
Intel Core i5-2500K (Sandy Bridge, 4 kjerner, 3,3 GHz, 1 MB L2 + 6 MB L3);
Intel Core i7-990X Ekstrem utgave(Gulftown, 6 kjerner, 3,46 GHz, 1,5 MB L2 + 12 MB L3).

CPU-kjøler: NZXT Havik 140;
Hovedkort:

Gigabyte 990FXA-UD5 (Socket AM3+, AMD 990FX + SB950);
ASUS P8Z68-V PRO (LGA1155, Intel Z68 Express);
Gigabyte X58A-UD5 (LGA1366, Intel X58 Express).

Hukommelse:

2 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Kingston KHX1600C8D3K2/4GX);
3 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Crucial BL3KIT25664TG1608).

Grafikkort: AMD Radeon HD 6970.
Harddisk: Kingston SNVP325-S2/128GB.
Strømforsyning: Tagan TG880-U33II (880 W).
Operativsystem: Microsoft Windows 7 SP1 Ultimate x64.
Drivere:

Intel Chipset Driver 9.2.0.1030;
Intel Management Engine Driver 7.1.10.1065;
Intel Rapid Storage Technology 10.6.0.1022;
AMD Catalyst 11.10 skjermdriver.

Vær oppmerksom på at testing ble utført under gjeldende versjon av Windows 7-operativsystemet, men AMD indikerer at oppgavebehandlingen til dette operativsystemet ikke distribuerer datatråder på den mest optimale måten. Windows 7 foretrekker først og fremst å lede tråder til kjerner som ligger i forskjellige moduler. Og dette gir virkelig høyere spesifikk ytelse, siden det reduserer belastningen på blokkene som er delt inne i modulen. Denne strategien forhindrer imidlertid inkludering av turbo-moduser, som kan brukes av prosessoren hvis noen av dual-core-modulene var i strømsparende tilstander.

Lovende operasjonsstue Windows-system 8 vil følge en annen taktikk, og trådene vil først bli tildelt kjerner innenfor samme modul. Som et resultat lover AMD at i en rekke applikasjoner kan ytelsen til Zambezi-baserte systemer øke med opptil 10 %.

Opptreden

Foreløpig evaluering av effektiviteten til Bulldozer-mikroarkitekturen

Før vi startet "ekte" testing av prosessorer, bestemte vi oss for å finne ut hva vi i prinsippet kunne forvente av Bulldozer-mikroarkitekturen. For å gjøre dette, gjennomførte vi en liten sammenligning av en prosessor med denne mikroarkitekturen med andre CPUer med K10 og Sandy Bridge mikroarkitekturer under kunstig skapte like forhold: med samme klokkefrekvens og med samme antall aktiverte kjerner.

Mer spesifikt sammenlignet vi AMD FX-8150, Phenom II X6 1100T og Core i7-2600 på 3,6 GHz med kun to prosesseringskjerner aktivert. Av hensyn til eksperimentets renhet ble all energisparings- og automatisk overklokkingsteknologi naturlig deaktivert. Et sett med enkle syntetiske benchmarks inkludert i verktøyet ble valgt som testverktøy SiSoft Sandra 2011, der vi tvangsdeaktiverte alle instruksjonssett eldre enn SSE3, siden de ikke støttes i K10-mikroarkitekturen.



Tallene i tabellen snakker høyere enn noen ord. Ytelsen til Bulldozer-mikroarkitekturen har blitt mye lavere enn tidligere prosessorer. Kombinasjon av par av kjerner til én modul med delte ressurser og den medfølgende forenklingen av mikroarkitekturen førte til at ved samme frekvens falt den spesifikke ytelsen til Bulldozer per kjerne med 25-40 % sammenlignet med forrige generasjons AMD-mikroarkitektur. Som et resultat er Bulldozer-kjerner nesten halvparten så trege som Sandy Bridge-kjerner. Dessuten er ytelsen til Bulldozer-prosessormodulen, som inkluderer to kjerner, enda lavere enn hastigheten til en enkelt Sandy Bridge-kjerne med Hyper-Threading-teknologi aktivert. Bør vi forvente ytelsesrekorder fra en prosessor bygget på en slik mikroarkitektur? Spørsmålet er retorisk.

La oss underveis ta en titt på praktiske egenskaper cacher og minneundersystemer. For å evaluere driftshastigheten til disse funksjonelle enhetene, utførte vi tester i Cachemem-verktøyet fra Aida64-pakken. I alle tilfeller ble DDR3-1600-minne brukt med ventetider på 9-9-9-27-1T. Akkurat som i det forrige tilfellet forble prosessorfrekvensene på 3,6 GHz.



I Zambezi, sammenlignet med Phenom II-prosessorer, har de praktiske ventetidene for både alle cacher og minneundersystemet økt. Vi snakket om dette da vi vurderte Bulldozer-mikroarkitekturen. Men ved å endre den logiske organiseringen av hurtigbufferminnet, økte gjennomstrømningen i nesten alle tilfeller.

Samtidig er den raskeste dual-channel minnekontrolleren og det raskeste cache-undersystemet implementert i Sandy Bridge. Selv om, selvfølgelig, når det gjelder hurtigbufferkapasitet, er Intel-prosessoren noe dårligere enn Bulldozer-mikroarkitekturmediet.

Samlet ytelse

For å evaluere prosessorytelse i vanlige oppgaver bruker vi tradisjonelt Bapco SYSmark 2012-testen, som simulerer brukerarbeid i vanlig moderne kontorprogrammer og applikasjoner for å lage og behandle digitalt innhold. Ideen med testen er veldig enkel: den produserer en enkelt metrikk som karakteriserer den vektede gjennomsnittshastigheten til datamaskinen i vanlige applikasjoner.

La oss huske at for en tid siden prøvde AMD å trolle SYSmark, og spredte påstander om at det var partisk på grunn av bruken av "feil" sett med ekte applikasjoner. Etter vår mening er imidlertid en slik dom ikke berettiget, siden det er vanlige og virkelig populære programmer som brukes til å evaluere ytelsen, hvor bidraget fra hver av dem til det endelige resultatet vises i følgende diagram:



Derfor har vi ikke forlatt bruken av SYSmark 2012 og fortsetter å bruke beregningene for å evaluere felles ytelse.



Den første testen er en skuffelse. Resultatet av åttekjerners FX-8150 er bare 10 % bedre enn ytelsen til sekskjerners Phenom II X6 1100T, og når naturligvis ikke ytelsen til firekjerners Intel-prosessorer i det hele tatt. Så taktikken valgt av AMD for å implementere et stort antall kjerner med lav spesifikk ytelse i prosessoren i stedet for et moderat antall komplekse, gir generelt ikke et positivt resultat.

En dypere forståelse av SYSmark 2012-resultatene kan gi innsikt i ytelsesskårene oppnådd i ulike systembruksscenarier.

Office Productivity-scenariet simulerer typisk kontorarbeid: forberede tekst, behandle regneark, arbeide med via epost og besøke internettsider. Skriptet bruker følgende sett med programmer: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Spiller 10.1 Microsoft Excel 2010, Microsoft Internet Explorer 9, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 og WinZip Pro 14.5.



Media Creation-scenarioet simulerer opprettelsen av en reklame ved å bruke forhåndsfotograferte digitale bilder og videoer. Til dette formålet brukes populære Adobe-pakker: Photoshop CS5 Extended, Premiere Pro CS5 og After Effects CS5.



Webutvikling er et scenario der etableringen av et nettsted er modellert. Brukte applikasjoner: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, Mozilla Firefox 3.6.8 og Microsoft Internet Explorer 9.



Scenarioet for data/finansiell analyse er dedikert til statistisk analyse og prognoser for markedstrender, som utføres i Microsoft Excel 2010.



3D-modelleringsskriptet er helt viet til å lage tredimensjonale objekter og gjengi statiske og dynamiske scener med bruker Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 og Google SketchUp Pro 8.



Det siste scenariet, System Management, innebærer å lage sikkerhetskopier og installere programvare og oppdateringer. Flere er involvert her forskjellige versjoner Mozilla Firefox Installer og WinZip Pro 14.5.



ulike modellerÅ bruke en prosessor med Bulldozer-mikroarkitekturen viser fundamentalt forskjellige resultater. I noen tilfeller viser det seg å være enda tregere enn Phenom II X6, men det er også motsatte situasjoner. Generelt er den generelle regelen denne: fordelen med FX-8150 blir spesielt merkbar der arbeidsbelastningen er flertrådet og godt parallellisert, men ikke beregningsmessig kompleks.

Men selv i de mest gunstige situasjonene henger FX-8150 etter Core i5-2500. Det eneste scenariet der disse prosessorene er sammenlignbare i hastighet er 3D-gjengivelse. I gjennomsnitt er Intels tilbud foran AMDs nye produkt med imponerende 25 %. Dessverre.

Spillytelse

Som du vet, er ytelsen til plattformer utstyrt med høyytelsesprosessorer i de aller fleste moderne spill bestemt av kraften til grafikkundersystemet. Det er grunnen til at vi, når vi tester prosessorer, prøver å utføre tester på en slik måte at vi fjerner belastningen fra skjermkortet så mye som mulig: de mest prosessoravhengige spillene velges, og tester utføres uten å slå på anti -aliasing og med installasjon av langt fra de fleste høye oppløsninger. Det vil si at de oppnådde resultatene gjør det mulig å evaluere ikke så mye nivået på fps som er oppnåelig i systemer med moderne skjermkort, men hvor godt prosessorer yter med en spillbelastning i prinsippet. Derfor, basert på resultatene som presenteres, er det fullt mulig å spekulere i hvordan prosessorer vil oppføre seg i fremtiden, når raskere alternativer for grafikkakseleratorer dukker opp på markedet.


















Spill tilhører ikke kategorien oppgaver som genererer en parallellisert flertrådsbelastning. Derfor, for dagens spillapplikasjoner, er prosessorer med fire kjerner mer egnet, og ikke de flerkjernemonstrene som AMD tilbyr. Vi ser en tydelig illustrasjon av denne påstanden i diagrammene nedenfor. Den nye åttekjerners FX-8150 er ikke raskere enn sin sekskjerners forgjenger, Phenom II X6.

Når det gjelder forholdet mellom spillytelse mellom Zambezi og Sandy Bridge, er AMD fortsatt mye mer pessimistisk for det nye produktet. Den nåværende Intel-prosessormikroarkitekturen håndterer den typiske arbeidsbelastningen som genereres av 3D-spill mye bedre, og det er ikke noe håp om at AMD noen gang vil kunne hamle opp med konkurrentprosessorer i denne kategorien oppgaver. Med andre ord, bruk av Bulldozer i spillsystemer kan bare gi mening når det er tillit til at ytelsen til en bestemt prosessor er tilstrekkelig for et spesifikt videoundersystem i et spesifikt sett med spill. Men selv i dette tilfellet må du innse at med den neste videoakseleratoroppgraderingen kan du forbli i en alvorlig ulempe sammenlignet med de brukerne som opprinnelig foretrakk plattformen og moderne Intel-prosessorer.

I tillegg til spilltestene vil vi også presentere resultatene av den syntetiske benchmarken Futuremark 3DMark 11, lansert med Extreme-profilen.



Hensikten med å legge til disse resultatene var å vise den helt ideelle situasjonen for FX-8150, når videodelsystemet ikke tillater prosessorkraften å realiseres fullt ut. Her faller hovedbelastningen på skjermkortet, og prosessoren spiller bare en støttende rolle. I slike tilfeller kan vi snakke om lik ytelse til Bulldozer- og Sandy Bridge-prosessorer, selv om dette selvfølgelig ikke er helt sant.



FX-8150 ser imidlertid også bra ut (sammenlignet med tidligere resultater) i den fysiske 3DMark 11-testen. fysisk modell AMDs nye åttekjerners prosessor kjører med hastigheter som kan sammenlignes med firekjerners Core i5-2500.

Tester i applikasjoner

Totalt sett var Bulldozers vektede gjennomsnitt og spillytelse på skrivebordet godt under våre forventninger. La oss imidlertid ikke fortvile og prøve å finne de tilfellene når den nye AMD-mikroarkitekturen er i stand til å vise sin styrker.

For å måle hastigheten til prosessorer ved komprimering av informasjon, bruker vi WinRAR arkiver, ved hjelp av hvilken vi arkiverer en mappe med forskjellige filer med et totalt volum på 1,4 GB med maksimal komprimeringsgrad.



Resultatet av FX-8150 er nær Core i5-2500. WinRAR er ikke en av applikasjonene som kan parallellisere beregningene på tvers av alle de åtte Bulldozer-kjernene, men det gigantiske cache-minnet ser ut til å redde dagen.

Den andre lignende testen for arkiveringshastighet utføres i 7-zip-programmet ved å bruke LZMA2-komprimeringsalgoritmen.



I 7-zip er ytelsen til FX-8150 prisverdig. Denne åttekjerners prosessoren klarer å nærme seg hastigheten til firekjerners Core i7-2600, som inkluderer støtte for Hyper-Threading og som i likhet med Bulldozer kan kjøre åtte tråder samtidig.

Krypteringsytelsen til prosessorer måles av den innebygde benchmarken til det populære kryptografiske verktøyet TrueCrypt. Det skal bemerkes at det ikke bare er i stand til effektivt å laste et hvilket som helst antall kjerner med arbeid, men støtter også et spesialisert sett med AES-instruksjoner.



Godt parallelliserte, enkle heltallsalgoritmer er det Bulldozer-mikroarkitekturen trenger. I slike tilfeller, som vi ser, kan man oppnå meget enestående ytelse. Spesielt når det kommer til kryptering, ligger FX-8150 bare etter sekskjerners Core i7-990X og er foran alle prosessorer for LGA1155-plattformen.

Når du tester lydtranskodingshastighet, bruk verktøyet Apple iTunes, som konverterer innholdet på en CD til AAC-format. Merk at et karakteristisk trekk ved dette programmet er muligheten til å bruke bare et par prosessorkjerner.



Det er bedre å holde programmer som genererer et lite antall beregningstråder borte fra Bulldozer. Noen kjerner i denne CPU er for svake til å vise noen anstendige resultater i slike tilfeller.

Vi måler ytelse i Adobe Photoshop ved hjelp av vår egen test, som er en kreativ omarbeidet Retouch Artists Photoshop Speed ​​​​Test, som innebærer typisk behandling av fire 10 megapikslers bilder tatt med et digitalkamera.



I Photoshop er ytelsen til FX-8150 ikke like katastrofal som for prosessorer med K10-mikroarkitektur, men den kommer fortsatt langt under Core i5-2500. Selvfølgelig er et stort cache-minne en god hjelp for Bulldozer-mikroarkitekturen i dette tilfellet, men dette alene vil ikke komme deg langt. Effektiviteten og den spesifikke ytelsen til datakjerner er fortsatt av største betydning.

Vi har også gjennomført testing i Adobe-programmet Photoshop Lightroom 3. Testscenarioet inkluderer etterbehandling og JPEG-eksport av hundre 12 megapikslers bilder i RAW-format.



Lightroom kan parallellisere fotobehandling på tvers av et hvilket som helst antall kjerner, og derfor viser åttekjerners FX-8150 gode resultater her. Imidlertid er "ikke dårlig" et relativt konsept i dette tilfellet, faktisk er ytelsen sammenlignbar med bare Core i5-2500. Dette betyr at to Bulldozer-kjerner er lik en Sandy Bridge-kjerne uten Hyper-Threading-støtte.

Ytelsen i Adobe Premiere Pro testes ved å måle gjengivelsestiden i H.264 Blu-Ray-format for et prosjekt som inneholder HDV 1080p25-video med ulike effekter brukt.



Tidligere generasjons AMD-prosessorer håndterte også videotranskoding godt. Bulldozer-mikroarkitekturen tillot en liten økning i ytelsen i applikasjoner av denne typen, og som et resultat er FX-8150 enda raskere enn Core i5-2500.

Hastigheten til videoredigering ved bruk av Adobe After Effects ble vurdert ved å måle kjøretiden til et forhåndsdefinert sett med filtre og effekter, inkludert uskarphet, støtoppretting, bildeblanding, glødskaping, legge til bevegelsesdefokus, skyggelegging, 2D- og 3D-manipulering, inversjon, etc.



Til tross for at belastningen er godt parallellisert, henger FX-8150 etter Intel-konkurrentene i After Effects.

For å måle hastigheten på videoomkoding til H.264-formatet brukes x264 HD-testen, basert på måling av behandlingstiden til kildevideo i MPEG-2-format, tatt opp i 720p-oppløsning med en strøm på 4 Mbit/sek. Det skal bemerkes at resultatene av denne testen er av stor praktisk betydning, siden x264-kodeken som brukes i den ligger til grunn for en rekke populære transkodingsverktøy, for eksempel HandBrake, MeGUI, VirtualDub, etc.






Ved transkoding av video med x264-kodeken, viste AMD-prosessorer alltid god ytelse. Med utgivelsen av den åtte-kjerners mikroarkitekturen har resultatene økt ytterligere, og nå overgår FX-8150 til og med Core i7-2600 i det andre, mest ressurskrevende kodingspasset. Så, med betydelige problemer, fant vi endelig en annen applikasjon, i tillegg til TrueCrypt, der ytelsen til en prosessor med Bulldozer-mikroarkitekturen fortjener flatterende anmeldelser.

Vi måler dataytelse og gjengivelseshastighet i Autodesk 3ds max 2011 ved å bruke den spesialiserte SPECapc-testen. Fra og med denne testingen begynner vi å bruke den nye profesjonelle versjonen av SPECapc for 3ds Max 2011.






Gjengivelse er også en av oppgavene som er underlagt optimalisering for multi-core mikroarkitekturer. Men til tross for dette er FX-8150 fortsatt tregere enn Core i5-2500 og Core i7-2600, for ikke å snakke om Core i7-990X. På den annen side er det ingen skammelig situasjon når en ny AMD-prosessor taper mot forgjengeren.

Gjennomsnittlig resultater på tvers av individuelle applikasjoner var FX-8150 omtrent 14 % raskere enn Phenom II X6 1100T på vårt sett med applikasjoner. Og dette gjorde at den ikke presterte dårligere enn Core i5-2500 i litt mindre enn halvparten av tilfellene. Men gapet med den neste Sandy Bridge-modellen, Core i7-2600, er fortsatt betydelig og utgjør mer enn 10 %.

Energiforbruk

Til tross for at vi var i stand til å finne et sett med oppgaver der Bulldozers ytelse kan kalles akseptabel, ser ikke prosessorer basert på den nye mikroarkitekturen ut som revolusjonerende prosessorer i det hele tatt. Det eneste håpet gjenstår for strømforbruk, fordi tidligere AMD-prosessorer var mer enn betydelig dårligere enn sine konkurrenter i denne parameteren. Nå, hvis du tror på løftene til utviklerne, har mikroarkitekturen blitt mer fokusert på energieffektivitet, og den nye 32-nm teknologiske prosessen burde ha bidratt til forbedringen elektriske egenskaper. Så la oss se på FX-8150 gjennom linsen for ytelse per watt.

Følgende grafer, med mindre annet er angitt, viser det totale systemforbruket (uten monitor), målt "etter" strømforsyningen og representerer summen av strømforbruket til alle komponenter som er involvert i systemet. Effektiviteten til selve strømforsyningen tas ikke i betraktning i dette tilfellet. Under målinger ble belastningen på prosessorene skapt av 64-bitsversjonen av LinX 0.6.4-verktøyet. I tillegg, for å estimere inaktivt strømforbruk korrekt, har vi aktivert alle tilgjengelige energisparende teknologier: C1E, C6, AMD Cool"n"Quiet og Enhanced Intel SpeedStep.



Når inaktiv ble forbruket av systemer med prosessorer bygget på Bulldozer-mikroarkitekturen lavere enn for lignende systemer med Phenom II-familiens CPUer. Moderne Intel LGA1155-systemer bruker imidlertid betydelig mindre i hvilemodus.



I tilfellet når databelastningen er entrådet, øker forbruket av Socket AM3+-systemer kraftig, åpenbart på grunn av den høye aggressiviteten til Turbo Core-teknologien. Med systemer bygget på Intel-prosessorer, er dette ikke observert, og de kan igjen skryte av betydelig høyere energieffektivitet.



Med en full flertrådet belastning er ikke situasjonen mye annerledes. Er det bare systemet med LGA1366 Core i7-990X-prosessoren som "kom foran." Ellers er alt som før. Når det gjelder strømforbruk, har ikke FX-8150 noen spesiell suksess. Den begynte å forbruke litt mindre enn Phenom II X6 1100T, men Sandy Bridge-prosessorer er minst halvannen ganger mer økonomiske.

AMD brukte all energieffektiviteten som ble oppnådd gjennom introduksjonen av en ny mikroarkitektur for å øke klokkefrekvensene. Og som et resultat ser vi ingen nytt nivå effektivitet, og heller ikke fundamentalt forbedret ytelse. Følgelig, når det gjelder ytelse per watt, er Bulldozer, som sine forgjengere, seriøst dårligere enn konkurrerende mikroarkitekturer fra Intel.

For referanse presenterer vi forbruket ved full belastning, målt separat i strømforsyningskretsene til prosessoren og hovedkortet.






"Netto" forbruket til åttekjerne FX-8150 overstiger forbruket Sandy prosessorer Bro omtrent to ganger. Med tanke på at begge prosessorene er produsert ved hjelp av samme teknologiske prosess og har lignende kjernespenninger, blir det utrolig interessant hva AMD mente da de snakket om energieffektiviteten til deres Bulldozer-mikroarkitektur.

Overklokking

Socket AM3+-plattformen og FX-seriens prosessorer er i utgangspunktet posisjonert som overklokkere. Dette er bevist av både fullstendig opplåsing av alle multiplikatorer og eksperimenter utført i regi av AMD, der en verdensrekord for overklokking ble satt med en av FX-8150-prosessorene. Selskapets uttalelser om at den nye mikroarkitekturen er optimalisert for drift ved høye klokkefrekvenser ser også lovende ut. Kommer vi virkelig til å få et nytt overklokkingsmirakel fra hendene til AMD? La oss sjekke.

Det er veldig enkelt å overklokke alle FX-prosessorer, det er ikke for ingenting at "Unlocked" er skrevet direkte på logoen deres. Prosessorfrekvensen kan endres av en multiplikator enten gjennom BIOS Setup eller gjennom spesialiserte verktøy levert av både AMD selv (Overdrive Utility) og hovedkortprodusenter. På samme måte, i Socket AM3+-systemer, kan du overklokke nordbroen og minne innebygd i prosessoren.

Under testingen var vi i stand til å oppnå stabil drift av vår FX-8150 ved en frekvens på 4,6 GHz. For å sikre stabilitet i denne tilstanden, måtte prosessorens forsyningsspenning økes til 1.475 V, og i tillegg var det nødvendig å aktivere Load-Line Calibration-funksjonen. Under stabilitetstester oversteg ikke temperaturen til prosessoren som opererer ved denne frekvensen 85 grader i henhold til sokkelsensoren eller 75 grader i henhold til sensoren innebygd i prosessoren. For å fjerne varme minner vi om at det ble brukt en effektiv luftkjøler NZXT Havik 140.



Vær oppmerksom på at vi samtidig prøvde å overklokke nordbroen innebygd i CPU-en, fordi å øke frekvensen har en positiv effekt på hastigheten til tredje nivås cache og minnekontroller. Imidlertid møtte betydelig overklokking av denne prosessornoden dessverre en usynlig barriere, og den kunne ikke nå en frekvens over 2,4 GHz, selv om vi samtidig prøvde å øke forsyningsspenningen.

Uansett er overklokking av FX-8150 til 4,6 GHz et godt resultat, spesielt med tanke på at AMD-prosessorer i Phenom II-familien sjelden ble overklokket i luften utover 4,0 GHz. Med andre ord, Bulldozer-mikroarkitekturen gjorde det faktisk mulig å presse frekvensgrensen litt høyere.

Overklokking av FX-prosessorer bør imidlertid sammenlignes, for det første, ikke med den gamle Phenom II, men med konkurrerende Core i5- og Core i7-prosessorer for LGA1155-systemer. Men de akselererer tydeligvis ikke verre. For eksempel er en ganske typisk overklokke for Core i5-2500K med en spenningsøkning på 0,15 V over det nominelle og ved bruk av en luftkjøler 4,7 GHz. Og mot denne bakgrunnen virker ikke resultatet til FX-8150 lenger så strålende.

Inntrykket av å overklokke Zambezi forverres enda mer hvis vi sammenligner ytelsen til den overklokkede FX-8150 og den overklokkede Core i5-2500K (økningen i ytelse i forhold til den nominelle modusen er angitt i parentes):



Generelt endrer ikke overklokking kvaliteten på resultatene. Men der FX-8150 var raskere i nominell modus, ble gapet mindre. Og der Core i5-2500 var i ledelsen, konsoliderte den fordelen. Det er ikke overraskende: frekvensen til FX-8150 når den ble overklokket økte med 28 %, mens frekvensøkningen til Core i5-2500K var 42 %. Og generelt, som kan bedømmes av størrelsen på ytelsesgevinsten fra overklokking, reagerer Sandy Bridge-mikroarkitekturen mer følsomt på økende frekvenser. Med andre ord, selv om vi tar hensyn til overklokking, ser ikke prosessorer med Bulldozer-mikroarkitektur, selv om de overklokker ganske bra, sterkere ut enn Intels konkurrenter.

konklusjoner

Suksess eller fiasko? Sikkert mange av dere ønsker å se en klar dom på slutten av artikkelen. Men i dette tilfellet er alt veldig tvetydig, og AMD har satt anmeldere i en veldig vanskelig posisjon med sin Bulldozer.

Faktum er at AMD har vist en helt ikke-standard tilnærming til utvikling av mikroarkitektur. Tatt i betraktning at prosessorytelsen består av tre komponenter: antall instruksjoner utført i prosessorkjernen per klokkesyklus, frekvens og antall kjerner, har utviklere flyttet sine prioriteringer til antall kjerner. Samtidig ble den spesifikke ytelsen til individuelle kjerner redusert, men den resulterende designen åpnet veien for å lage rimelige åtte-kjerners eller enda mer komplekse prosessorer. Dette er et veldig sterkt trekk for servermarkedet, hvor multi-threaded laster og prosessorer med stort beløp kjerner er etterspurt. Så det er svært sannsynlig at den nye Bulldozer-mikroarkitekturen vil tillate AMD å forbedre sin posisjon betydelig i ytelsesservermarkedet.

Men i dag ble vi kjent med FX-prosessoren, bygget på denne mikroarkitekturen, men rettet mot stasjonære datamaskiner. Og det var her avviket mellom Bulldozers maskinvareevne og typiske skrivebordsarbeidsbelastninger ble helt tydelig. Det er spesielt skuffende at markedsføringskampanjen var strukturert på en slik måte at mange trodde på Bulldozer som en stigende stjerne på skrivebordsmarkedet. Disse håpene var imidlertid ikke bestemt til å gå i oppfyllelse.


FX-prosessorer, som er basert på Bulldozer-mikroarkitekturen, var i stand til å demonstrere sine styrker bare i en liten undergruppe av oppgaver løst av vanlige brukere. Blant typiske vanlige applikasjoner er det ikke mange eksempler som genererer en enkel heltalls flertråds arbeidsbelastning, og Bulldozers høye ytelse avsløres bare i dette tilfellet. Som et resultat viste Bulldozer seg i noen tilfeller ikke bare å være tregere enn konkurrerende løsninger fra Intel, men enda verre enn Phenom II X6-prosessoren, bygget på forrige generasjons mikroarkitektur. Og dette betyr at AMD ikke klarte å produsere en revolusjonerende stasjonær prosessor.

Faktisk er FX bare det neste Phenom, som ser ut til å være ganske bra i seg selv, spesielt sammenlignet med forgjengerne. FX-prosessorer er generelt raskere enn Phenom II, overklokker betydelig bedre og har litt lavere forbruk, så de kan betraktes som en god erstatning for bærere av den utdaterte K10-mikroarkitekturen.

La oss imidlertid minne deg på at AMD er i krig ikke bare med seg selv, men også med av Intel. Derfor er vi fortsatt tvunget til å uttrykke den skuffende konklusjonen at FX-prosessorer gir virkelig mening bare på de stasjonære datamaskinene som er fokusert på videobehandling og transkoding. I andre tilfeller, sammenlignet med Sandy Bridge-prosessorer, ser ytelsen deres sjelden oppmuntrende ut. Det samme kan sies om strømforbruk og overklokking. Separat bør det legges til at AMD FX-prosessorer, som forventet, viste seg å være et dårlig alternativ for spillsystemer, siden moderne 3D-spill praktisk talt ikke bruker virkelig flertrådede algoritmer. Tilhengere av AMD-produkter vil imidlertid trolig kunne tåle dette, gitt at antall bilder per sekund i spill ofte begrenses av grafikken, ikke prosessoren.

Med andre ord vil markedsutsiktene for FX-prosessorer avhenge av to faktorer: hvor stor hæren av AMD-tilhengere er; og på hvor dyktig produsenten vil håndtere prisspaken. Imidlertid forventes det tydeligvis ikke at stasjonære prosessorer med Bulldozer-mikroarkitekturen vil bli populært.

AMD unner seg sjelden ferske prosessorarkitekturer. Hvis Intel oppdaterer strukturen hvert annet år, ble konkurrenten sist notert i 2007, og ga ut K10, en redesignet versjon av den gamle K8. Så utseendet til en ny Bulldozer er en betydelig begivenhet. I løpet av de neste årene vil arkitekturen bli grunnlaget for alle AMD-krystaller, samt den første sjansen på lenge til å konkurrere med Intel i kappløpet om ytelse.

Vi går som et par

Ved å lage Bulldozer, forlot AMD-ingeniører den velprøvde strategien med å forbedre og delvis kopiere gammel utvikling. Strukturen til steinene er fundamentalt forskjellig fra det vi er vant til å se i x86-systemer.

Den første og viktigste nyvinningen er den originale layouten. Alle toppversjoner av Bulldozer er offisielt utstyrt med åtte kjerner. Imidlertid er det i virkeligheten fire fullverdige moduler, bare hver med to dataenheter. Det ser slik ut: to heltalls aritmetiske klynger (de kalles kjerner og er direkte ansvarlige for beregninger) deler en Front-End, en floating-point cluster (FPU) og en andre-nivå cache økt til 2 MB.

Fordelen med en slik tandem er å spare plass, redusere energiforbruket og produksjonskostnadene. Ulempe - å dele de samme settene har en dårlig effekt på den endelige ytelsen. Under stor belastning kan det hende at en Front-End ikke kan takle to kjerner. AMD benekter ikke tapet av ytelse: ifølge den er duoen omtrent 20 % svakere enn en fullverdig dual-core prosessor.

Kommunikasjonsvansker

For å eliminere flaskehalsen, måtte Front-End lære å effektivt dele ressurser mellom de to kjernene. For å oppnå dette ble grenprediksjonsenheten og kommandodekoderen redesignet, som fikk en fjerde kanal for behandlingsinstruksjoner (som i Sandy Bridge) og teknologi Branch Fusion. Sistnevnte lar deg lime en del av instruksjonene i en operasjon. Alt dette skal fremskynde arbeidet til Front-Enden og forhindre at krystallen blir inaktiv.

Når det gjelder selve kjernene, er dette et sett med Out-of-Order, last/loss, L1-cache og to dataklynger. Utførelsesenheten har nå et fysisk filregister. Som i Sandy Bridge, blir adresser for lagring av arbeidsdata droppet inn i den, noe som lar deg losse hovedrørledningen uten rekkefølge. Laste-/losseprosessoren fikk økt buffer, doblet kapasitet og evnen til å jobbe med virtuelle adresser, som teoretisk sett skal øke hastigheten på arbeidet med L1-databufferen. Sistnevnte i Bulldozer ble fire ganger mindre: 16 mot 64 KB i K10. Tapet ble kompensert med arbeidshastigheten. L1-assosiativiteten økte fra to til fire kanaler, noe som betyr det dobbelte O større søkeeffektivitet.

Det er tre dataklynger i én modul: to heltall og én for å arbeide med flyttallsdata. Sammenlignet med K10 mistet det første paret én ALU (engasjert i beregninger) og AGU (omhandlet minneadresser). I teorien betyr dette redusert toppytelse. I praksis vil endringen være praktisk talt umerkelig: det er vanskelig å fulllaste heltallsklynger.

De viktigste endringene påvirket FPU, som er ansvarlig for komplekse flyttallsberegninger. I K10 ble den mye kraftigere: den mottok et par MMX- og 128-bits FMAC-enheter for å utføre addisjons- og multiplikasjonsoperasjoner. I motsetning til K10 er FMAC-er gjort universelle: de kan erstatte hverandre, noe som har en positiv effekt på beregningshastigheten. I tillegg lærte de å kombinere operasjoner i ett uttrykk, noe som økte nøyaktigheten til beregningene.

I tillegg mottok FPU et oppdatert sett med instruksjoner. For det første fungerer prosessoren nå med AVX, som støtter 256-bits registre. For deres beregninger, som i Sandy Bridge, kombineres to FMAC-er. For det andre kan Bulldozer arbeide med SSE 4.2, AENSI, FMA4 og XOP instruksjoner. De to siste settene er unike for AMD. For deg og meg betyr alle disse endringene kun én ting - kommandoer som tidligere ble laget i flere klokkesykluser vil nå bli beregnet i én, og dette påvirker ytelsen direkte. Riktignok er støtte for instruksjoner fra programvaren nødvendig for å oppleve økningen i hastighet.

Lim og saks

Som et resultat består hver Bulldozer-modul av en Front-End-, L2- og L1-databuffer, to heltallsklynger og en blokk for å jobbe med flyttall. Totalt kan en stein inneholde opptil fire slike sett. Samtidig har hver av dem tilgang til en rekke felles elementer. Den første er en to-kanals minnekontroller med støtte for DDR3-1866 MHz. Den andre er L3-cachen, hvis volumet, sammenlignet med K10, har økt fra 6 til 8 MB, og assosiativiteten - fra 48 til 64 kanaler. Merk at, i motsetning til Sandy Bridge, faller ikke frekvensen til L3-cachen sammen med kjernenes hastighet. Hvis toppmodellen opererer med en hastighet på 3,6 GHz, er minnet på det siste nivået på 2,2 GHz. Dette fører til merkbare forsinkelser som påvirker ytelsen negativt. Ifølge AMD ble dette offeret gjort av hensyn til stabil drift ved høye frekvenser.

Tadam!

Til tross for arkitektoniske triks og 32nm prosessteknologi, okkuperer Bulldozer en imponerende 315 kvadratmeter. millimeter. Dette er omtrent halvannen ganger mer enn firekjerners Sandy Bridge og eldre Llano. Heldigvis ble strømforbruket holdt innenfor rimelige grenser - 125 W.

I tillegg til åttekjernemodeller finnes det versjoner med seks og fire dataenheter. De yngre brødrene er basert på den samme åttekjernedesignen, men de har en eller to moduler deaktivert.

Basisfrekvensen varierer fra 3,1 til 3,6 GHz. I likhet med Sandy Bridge har Bulldozer automatisk overklokkingsteknologi. En spesiell brikke ansvarlig for Turbo Core 2.0, overvåker gjeldende kjernebelastning og TDP-nivå og, så snart muligheten byr seg, øker prosessorfrekvensen. Når det gjelder en toppkrystall, kan hastigheten økes med 300 MHz når alle moduler er brukt. Hvis noen av ressursene er inaktive - ved 600 MHz. Ved lav belastning går Bulldozer i energisparemodus, teknologien er ansvarlig for dette Kul"n"stille.

Manuell overklokking er enkel. For det første har hele linjen en ulåst multiplikator. For det andre vinner nykommere godt høyde: under flytende nitrogen satte den eldre Bulldozer en ny verdensrekord - 8429 MHz.

Ledsager

Bulldoser kjører på Socket AM3+. I hovedsak er dette en litt forbedret AM3 med en ekstra kontakt. Brikkesett med ny prosessorsokkel kalles 990FX, 990X Og 970 . De er forskjellige i PCIe 2.0-kontrolleren. Den eldre modellen er utstyrt med 32 linjer, de yngre - 16. Dessuten støtter 990FX og 990X CrossFireX. Blant funksjonene til brikkesettene noterer vi oss seks SATA Rev-porter. 3 og 14 USB-kontakter 2.0. Det er ingen USB 3.0-kontroller.

Merk at Bulldozer også kan fungere på eldre brett. Alt du trenger er en oppdatert BIOS. Begrensninger: Turbo Core og Cool"n"Quiet har redusert responshastighet, og enkelte energisparende funksjoner er ikke tilgjengelige.

Bulldozer-prosessorarkitekturen viste seg å være interessant. Til slutt sluttet AMD å kopiere seg selv og kom opp med noe helt nytt. Dessverre er det få klare fordeler fremfor konkurrentene. Det er ingen deklarerte åtte kjerner. På en god måte har vi quad-core modeller med økt antall dataenheter, noe som Intel Hyper-Threading, men på maskinvarenivå. Ideen er god, men ytelsen vil avhenge av hvor rask Front-Enden er. De virkelige fordelene med Bulldozer inkluderer kun en kraftig FPU for flytende kommaberegninger og økte driftsfrekvenser sammenlignet med K10.

La oss rulle det ut! La oss begrave det!

AMD har annonsert planer om å gi ut følgende linjer med prosessorer. Selskapet forventer å oppdatere arkitekturen årlig, og oppnå omtrent 15 prosent ytelsesgevinster per watt hver gang. Hvis AMD holder seg til planen, vil vi se arkitekturen i 2012 Piledriver("koper"), et år senere - Dampvals("dampvalse"), og 2014 vil bli husket for kunngjøringen Gravemaskin. Slik er byggearbeid.

Feil vinduer

I følge AMD, Windows 7 ute av stand til å utløse det fulle potensialet til den nye kreasjonen: OS-planleggeren tar ikke hensyn til funksjonene til Bulldozer. For nye prosessorer er det for eksempel viktig at sammenkoblede tråder tildeles én modul, ellers vil kjernene utveksle data ikke gjennom den raske L2-cachen, men gjennom minne på tredje nivå. Noen delte strømmer er også bedre behandlet på lignende måte for å forbedre effektiviteten til Turbo Core 2.0. På samme tid spesifikke oppgaver skape en større belastning på Front End-blokken, og det er bedre å spre dem over forskjellige moduler. Takket være samarbeid med Microsoft disse nyansene vil bli tatt hensyn til i planleggeren Windows 8. Du bør imidlertid ikke forvente en betydelig økning i ytelsen.

Ordbok

Heltallsdataklynge- omhandler operasjoner med heltall (1, 2, 10).

Front-end- forhåndshentingsblokk. Mottar kommandoer fra programmet og oversetter dem til et språk som er forståelig for prosessoren.

FPU- klynge av flytende kommadataberegninger. Utfører beregninger med brøktall (1.2345) og store verdier med potenser (1.2345E-10).

Branch prediksjonsblokk- forutsier på forhånd hvilke data og operasjoner programmet kan trenge i neste øyeblikk. Tillater ikke prosessoren å gå på tomgang.

Kommandodekoder- deler opp programmet i mikrooperasjoner, som deretter brukes av dataklynger.

I ustand- blokk med ekstraordinær utførelse. Behandlet fordeling av handlinger mellom kjerner. Sender for beregning kun de kommandoene det er data for.

Laste/losse av blokk (LSU) - overvåker bevegelsen av data mellom utgangen fra transportøren og L1-databufferen.

Cache assosiativitet- koble cache linjer og kolonner. Jo høyere assosiativitet, jo lavere søkehastighet, men jo høyere effektivitet.

MMX- et sett med blokker for å jobbe med tall på opptil 8 byte.

Instruksjonssett- tillate én kommando å utføre en operasjon på flere data.

Tabell 1

AMD Bulldozer-prosessorspesifikasjoner

Antall datakjerner

Base frekvens

Turbo Core Frequency

Minnestøtte

Energiforbruk

Teknisk prosess

Pris per november 2011

ukjent

Hva utgjør prosessorytelsen? Tidligere var det en formel i bruk som beskrev ytelse som produktet av antall instruksjoner utført per klokkesyklus og frekvensen som denne prosessoren opererer med. Nå har en tredje faktor dukket opp i denne formelen - antall datakjerner. Derfor har en prosessorutvikler som ønsker å gi ut et raskt produkt flere måter å gjøre dette på.

Imidlertid er ikke alt så enkelt. Å øke antall instruksjoner utført av en datakjerne per klokkesyklus er en ganske vanskelig oppgave. Klassisk x86 programkode involverer sekvensiell utførelse av instruksjoner, og derfor, for å oppnå parallell prosessering, må prosessoren utstyres med svært effektive grenprediksjons- og, hvis implementering krever betydelig ingeniørarbeid. Samtidig påvirker komplikasjonen av mikroarkitektur de fysiske dimensjonene til krystallen og fører til begrensninger ved økning av antall kjerner. Så hvis en produsent skal lage en prosessor med et stort antall kjerner, bør mikroarkitekturen tvert imot prøve å forenkle. Det er ikke lett med klokkefrekvens. En innsats på veksten vil igjen kreve endringer i de interne blokkene til prosessoren og forlenge utførelsespipelinen. Resultatet er følgende: for at en prosessor skal vinne en medalje for ytelse, må utviklerne jobbe hardt for å optimalisere en rekke parametere samtidig.

Problemet ligger også i det faktum at hvilken som helst av de valgte måtene å forbedre prosessorytelsen på kan være vellykket bare i spesielle tilfeller. Ikke alle programmer kan fungere effektivt med et stort antall kjerner. Noen algoritmer lar deg ikke forutsi overganger og omorganisere instruksjoner. Og i noen tilfeller øker ikke ytelsen selv med en økning i klokkefrekvensen, fordi det er noen andre flaskehalser i systemet.

Å finne den optimale balansen er ikke lett, og hva anses som det optimale kriteriet? Vi kan bare sammenligne ytelsen til prosessorer i et begrenset antall programmer og velge den raskeste for et gitt tilfelle. Dette garanterer imidlertid ikke i det hele tatt at vi ikke får helt motsatte estimater ved å bruke et annet sett med testverktøy. En så lang introduksjon er gitt her fordi vi i dag skal bli kjent med den nye serien med AMD FX-prosessorer - flaggskipet til AMD, viden kjent under kodenavnet Zambezi. Denne prosessoren er basert på den svært kontroversielle Bulldozer-mikroarkitekturen, som allerede har klart å samle en betydelig bukett med lite flatterende anmeldelser. Men poenget er ikke at denne mikroarkitekturen er helt dårlig. Når de valgte den beste balansen av egenskaper, vurderte utviklerne feil behovene til flertallet av brukere og la hovedvekten på feil faktor i "grunnformelen". Som et resultat gikk den første planen om å gi ut en høyytelsesløsning av en ny generasjon galt, og AMD-tilhengere, fascinert av løftene om et gjennombrudd, fikk noe helt annet enn det de forventet. Men er dette en alvorlig og objektiv grunn til skuffelse? Vi vil snakke om dette i dette materialet.

⇡ Å telle kjerner: åtte eller fire?

Mens du jobbet med et nytt design for ytelsesprosessorer, bestemte AMD seg for å prioritere antall prosessorkjerner. Dette er et helt logisk valg, basert på det faktum at det med årene kommer mer og mer multi-threaded programvare og utviklingen av en mikroarkitektur designet for mange års utvikling bør først og fremst ta hensyn til ikke dagens tilstand i markedet, men de observerte trendene. Åtte kjerner, gitt i grunnversjonen av den nye prosessoren, er det AMD skulle erobre markedet, hvor det så langt bare ble presentert brikker, hvor maksimalt antall kjerner var begrenset til seks. ( Her snakker vi kun om stasjonære datamaskiner. — ca. utg. )

Samtidig ønsket ikke utviklerne å ta kjernene i den gamle K10-mikroarkitekturen. Ikke bare er de for store fysisk størrelse, men også, som kan bedømmes av Llano, er de ikke utsatt for å operere ved høye klokkefrekvenser selv etter å ha blitt overført til moderne 32 nm-teknologi. I tillegg støtter de ikke mange moderne funksjoner, for eksempel AVX-instruksjoner. Derfor, for å sette sammen åtte-kjerners prosessorer, laget AMD en ny mikroarkitektur - Bulldozer. Representanter for selskapet foretrekker å si at utviklingen ble utført fra bunnen av, men faktisk i Bulldozer-kjernene kan du finne mange referanser til en annen mikroarkitektur presentert i år - Bobcat, rettet mot bruk i kompakte og energieffektive enheter. Forholdet mellom Bulldozer og Bobcat er imidlertid ganske fjernt, og vi nevner det bare slik at den generelle ideen blir tydelig – Bulldozer kombinerer mange relativt enkle kjerner.

Samtidig snakker vi ikke om den primitive kombinasjonen av åtte enkle kjerner på én halvlederbrikke. I denne situasjonen vil den resulterende prosessoren ha svært lav entråds ytelse, og dette vil bli et ganske alvorlig problem, siden det ikke er så få programmer som ikke deler belastningen i flere beregningstråder. Derfor ble kjernene for det første optimalisert for drift ved høye klokkehastigheter. Og for det andre ble de sammenkoblet til dual-core moduler som var i stand til å dele ressursene sine for å betjene en enkelt tråd. Resultatet er en ganske interessant design: inngangsdelen av utførelsesrørledningen til en slik dual-core modul er vanlig, og videre instruksjonsbehandling er delt mellom to sett med utførelsesenheter.

Grunnlaget for Bulldozer-designet er det som konvensjonelt kalles en dual-core modul

Husk at databehandlingsprosessen i moderne prosessor inkluderer flere stadier: henting av x86-instruksjoner fra hurtigbufferminnet, dekoding av dem - oversettelse av dem til interne makrooperasjoner, utførelse, registrering av resultatene. De to første stadiene i Bulldozer-modulen utføres for et par kjerner sammen, og deretter for heltallsinstruksjoner, blir utførelse fordelt over to klyngekjerner eller, i tilfelle av ekte aritmetikk, utføres den i en blokk med flyttallsoperasjoner felles for to kjerner.

Bulldosermoduler er designet for å behandle fire instruksjoner per klokkesyklus, og takket være makrosammenslåingsteknologi kan noen par x86-instruksjoner betraktes av prosessoren som én operasjon. Dette betyr at dual-core Bulldozer-modulen generelt sett ligner på en enkelt kjerne av moderne Intel-prosessorer, som også kan behandle fire instruksjoner per klokkesyklus og også støtte makrosammenslåinger.

Det er imidlertid betydelige forskjeller mellom Bulldozer-modulen og Sandy Bridge-kjernen som kan stille spørsmål ved deres omtrent samme teoretiske hastighet. På grunn av det faktum at modulen til de nye AMD-prosessorene inneholder restene av to like kjerner, kan den demonstrere maksimal ytelse bare når du behandler et par tråder. Hvis den har en enkelt-trådet belastning, vil hastigheten på tjenesten være begrenset av antall utførelsesenheter i en slik klynge. Og det er ikke så mange av dem, gitt AMDs ønske om å forenkle individuelle kjerner - halvannen ganger mindre enn i prosessorer med Sandy Bridge eller K10 mikroarkitektur. Det vil si to aritmetiske ALUer og to adresse AGUer.

Slik ser den funksjonelle strukturen til en modul bygget på Bulldozer-mikroarkitekturen ut. Fra to kjerner er det bare to sett med heltallsaktuatorer igjen

Blokken med flyttalloperasjoner som er felles for prosessormodulen er også relativt lav i kompleksitet. Den inkluderer to 128-biters FMAC-utførelsesenheter, som kan kombineres til en enkelt enhet for å behandle 256-biters instruksjoner. Det ser ut til at det ikke er så mange aktuatorer her, spesielt med tanke på at de er delt inn i et par kjerner. Men de er mer universelle enn i tidligere og konkurrerende mikroarkitekturer, som bruker separate multiplikatorer og addere. Og takket være dette, i visse tilfeller når du arbeider med reelle tall, kan dual-core Bulldozer-modulen gi sammenlignbare og enda mer høy ytelse enn for eksempel én Sandy Bridge-kjerne.

En lignende idé om å kombinere 128-bits enheter for å fungere med 256-biters instruksjoner brukes i Sandy Bridge

Imidlertid bør Bulldozer-modulen vise sine største styrker under en to-tråds belastning. En Sandy Bridge-kjerne er også i stand til å behandle to beregningstråder for dette, den har Hyper-Threading-teknologi. Imidlertid sendes alle instruksjoner til ett sett med aktuatorer, som i praksis forårsaker mange kollisjoner. Bulldozer-modulen inneholder to uavhengige heltallsklynger som kan kjøre tråder parallelt, og det totale antallet utførelsesenheter i dem overstiger antallet slike enheter i Sandy Bridge-kjernen med en og en halv gang.

Til venstre er Bulldozer-modulen, til høyre er en konkurrerende kjerne med Hyper-Threading-støtte. Faktisk ser det ikke mye ut som Sandy Bridge, men illustrasjonen formidler essensen av problemet

Som et resultat har Bulldozer-modulen høyere toppytelse enn Sandy Bridge-kjernen, men denne ytelsen er noe vanskeligere å låse opp. Sandy Bridge-kjernen laster sine egne ressurser intelligent takket være avansert logikk på brikken som uavhengig analyserer enkelt-tråds kode og kjører den parallelt på hele settet med utførelsesenheter. I Bulldozer blir oppgaven med å effektivt bruke aktuatorer delvis flyttet til programmereren, som må dele koden sin i to tråder - full nedlasting av alle modulkapasiteter blir mulig først da.

Og det er det som er typisk. Når vi vurderte Bulldozer-prosessormodulen med to kjerner, sammenlignet vi den hele tiden med en enkelt Sandy Bridge-kjerne, og samtidig klarte vi å trekke ganske korrekte paralleller. Dette får oss til å lure på: bør ikke «åttekjerne»-naturen til den nye mikroarkitekturen betraktes som et produkt av fantasien til markedsførere? AMD sier at kjerner skal telles etter antall heltallsklynger, og argumenterer for at modulen kan gi opptil 80 % av ytelsen til to uavhengige kjerner. Vi bør imidlertid ikke glemme at kjernene som Bulldozer er basert på er betydelig enklere enn kjernene til andre prosessorer. Derfor er antallet dual-core moduler en egenskap som gjenspeiler ytelsen til Bulldozer mye mer adekvat.

Finn maksimalt antall prosessorkjerner og få jobb i AMDs markedsavdeling

⇡ Bufferminne

Organiseringen av cache-minne i Bulldozer-prosessorer er også "bundet" ikke så mye til individuelle kjerner, men til dual-core moduler. Faktisk tildeles hver kjerne kun sin egen databuffer på første nivå. Alle andre nivåer av hurtigbuffer er enten relatert til modulen som helhet eller til prosessoren:

  • Hver kjerne har sin egen L1-cache for data. Volumet er 16 KB, og arkitekturen antar tilstedeværelsen av fire assosiative kanaler. Denne hurtigbufferen opererer med en skrive-gjennom-algoritme, som betyr at den er inkluderende.
  • Cachen på første nivå for instruksjoner leveres i en enkelt kopi for hver toprosessormodul. Volumet er 64 KB, og antall assosiativitetskanaler er to.
  • Cachen på andre nivå er også implementert i en enkelt forekomst per modul. Størrelsen er imponerende 2 MB, assosiativiteten er 16 kanaler, og driftsalgoritmen er eksklusiv.
  • I tillegg har åttekjerners prosessor som helhet en 8-megabyte L3-cache med 64-kanals assosiativitet. Det særegne med denne cachen er at den opererer med en betydelig lavere frekvens sammenlignet med selve prosessoren, som er omtrent 2 GHz.

Følgende tabell beskriver forholdet mellom cache-minnevolumer for åtte-kjerners Bulldozer, firekjerners Sandy Bridge og Thuban-prosessorer (seks-kjerners Phenom II X6, bygget på K10-mikroarkitekturen).

Hurtigbuffertype Bulldoser (8 kjerner/4 moduler) Sandy Bridge (4 kjerner) Thuban (6 kjerner)
L1I (instruksjoner) 4x64 KB 4x32 KB 6x64 KB
L1D (data) 8x16 KB 4x32 KB 6x64 KB
L2 4x2 MB 4x256 KB 6x512 KB
L3 8 MB, 2,0–2,2 GHz 8 MB, kjører med prosessorhastighet 6 MB, 2,0 GHz

Som du kan se fra tabellen, stolte AMD på romslige cacher på øvre nivå, noe som kan være veldig nyttig i tilfelle en alvorlig flertrådsbelastning. Imidlertid er hurtigbufferminnet i nye prosessorer generelt tregere enn tidligere og konkurrerende produkter. Dette oppdages enkelt ved måling av praktisk latens.

Store forsinkelser ved tilgang til data i Bulldozer kan bare kompenseres av den høye klokkehastigheten til disse CPUene. Noe som imidlertid opprinnelig var planlagt - når det gjelder frekvenser, skulle de nye åttekjerners prosessorene overgå Phenom II med 30%. Imidlertid var AMD aldri i stand til å designe halvlederkrystaller som kunne fungere stabilt ved så høye frekvenser. Som et resultat kan høy hurtigbufferforsinkelse forårsake betydelig skade på Bulldozer-baserte systemer.