AMD Bulldozer är den senaste generationen av AMD-processorer. Vem är systemadministratör?

AMD bestämde sig för att ta ett helt annat tillvägagångssätt för den nya Bulldozer-arkitekturen. Det beslutades att skapa moduler med dubbla kärnor som delar vissa resurser (L2-cache, flyttalsmodul), men som inte är helt oberoende av varandra. (se bild nedan)
Enligt AMD gjordes detta för att optimera processorn och samtidigt sänka priset på processorn. Optimeringen är att på konventionella flerkärniga processorer kan vissa moduler vara inaktiva, och sådana moduler kan kombineras i Bulldozer-arkitekturen. Och om det finns färre moduler betyder det att mindre material går till spillo, vilket i sin tur kommer att ha en positiv effekt på kostnader, energibesparingar och värmeminskning.
Därför, även om AMD kommer att kalla sina nya Bulldozer-processorer dual-core, kommer de i verkligheten inte att vara riktigt dual-core, eftersom de inte kommer att ha helt oberoende kärnor. Och namnet" processor med dubbla kärnor» kommer att användas för marknadsföringsändamål.

För att skapa " fyrkärniga processorer", AMD använder två av dessa enheter, så processorn har faktiskt två "processorer" inuti (de två byggstenarna visas i bilden nedan), snarare än fyra. AMD kommer att fortsätta att kalla de nya processorerna fyrkärniga.


Åttakärnig processor baserad på Bulldozer-arkitektur.

Låt oss nu ta en närmare titt på modulerna Hämta och avkoda som används i Bulldozer-arkitekturen.

Hämta och avkoda moduler

Hämta-modulen ansvarar för att hämta instruktioner för avkodning från cachen eller random access minne.

Hämta och avkoda moduler.

Som redan nämnts använder samplingsmoduler två "kärnor" samtidigt. L1-instruktionscachen används också av två kärnor samtidigt, men varje processorkärna har sin egen L1-datacache.
AMD har redan meddelat att L1-instruktionscachen som används i Bulldozer-arkitekturen består av en 64 KB dubbelvägs set-associativ cache. Samma konfiguration används i processorer med AMD64-arkitekturen, men skillnaden är att AMD64-processorer har en L1-cache per kärna, medan Bulldozer-processorer kommer att ha en L1-cache per par kärnor. Datacachen kommer dock bara att ha 16 KB, vilket är betydligt mindre än de 64 KB per kärna som används i processorer baserade på AMD64-arkitekturen.

TLB:er (Översättning Se-aside-buffert- ultrasnabb minnesbuffert). Storleken på TLB har avslöjats. Dessa är buffertar med en liten mängd minne, utformade för att konvertera virtuella minnesadresser till fysiska adresser.
Virtuellt minne, mer känd som en sidfil, är en teknik där mängden RAM-minne "ökas" av en speciell fil på hårddisken.

Datorprogram skrivs med hjälp av x86-instruktioner, men för närvarande förstår processorer endast inbyggda RISC-instruktioner. Avkodningsmodulen ansvarar för att konvertera x86-programinstruktioner till RISC-mikroinstruktioner. Bulldozer-arkitekturen har fyra avkodare, men det här ögonblicket AMD avslöjar inte vilka instruktioner varje avkodare kör. En av dessa avkodare exekverar vanligtvis komplexa, komplexa instruktioner med hjälp av den medföljande ROM-mikrokoden ("µkod" eller "mikrokod"). Avkodning av komplexa instruktioner slutförs efter några klockcykler, varefter de omvandlas till flera mikroinstruktioner. Vanligtvis optimerar tillverkare sina processorer på ett sådant sätt att de vid avkodning av de vanligaste instruktionerna exekveras i bara en klockcykel.

Inledning Det råder ingen tvekan om att AMD:s nya processorer, baserade på Bulldozer-mikroarkitekturen, är bland de mest efterlängtade produkterna inte bara i år, utan åtminstone under de nuvarande fem åren. Det finns flera anledningar till detta, såväl som till att det finns en enorm armé av fans för AMD-produkter. Vissa människor har färska minnen från den tid då processorerna i detta företag var bättre än Intels i alla avseenden. Vissa människor älskar AMD-produkter för deras balanserade kombination av pris och prestanda. Och några blev imponerade av AMD:s känslomässiga berättelser om fördelarna med mikroarkitekturen som utvecklas inom företaget. Allt detta adderade till många år av tröttsam väntan på lanseringen av Bulldozer-generationens processorer, och här är resultatet - du läser den här artikeln med stor uppmärksamhet och oförställt intresse.

Det är dock helt klart värt det. Läget på processormarknaden de närmaste åren beror på hur framgångsrik Bulldozer-mikroarkitekturen visar sig vara. När allt kommer omkring är det bara Intel som har ingenjörs- och produktionsresurserna för att rulla ut nya mikroarkitektoniska lösningar vartannat till vart tredje år. AMD tvingas hålla sig till en mycket mer uppmätt takt i utvecklingen. Det är läskigt att komma ihåg, men mikroarkitekturen som används i dagens Phenom II- och Athlon II-processorer går tillbaka till 1999, och sedan dess har AMD bara gjort kosmetiska förändringar av den. Därför har vi inga speciella illusioner om att utvecklingscykeln plötsligt kommer att bli mer aktiv i och med lanseringen av Bulldozer. Det är uppenbart att Bulldozer kommer att vara kärnan i AMD:s prestandaerbjudanden under de närmaste åren.

aktuell version Företagets planer för utvecklingen av denna mikroarkitektur är utarbetade fram till 2014, men det kommer nästan säkert att fortsätta ytterligare.

Det faktum att AMD lovar en 10-15 procents ökning av prestanda varje år är mer ett alarmerande symptom än ett uppmuntrande. Troligtvis kommer en sådan ökning att tillhandahållas främst av en ökning av klockfrekvenserna, och först då av några nya mikroarkitektoniska förbättringar.

Med andra ord kommer framgången för Bulldozer-mikroarkitekturen i sin nuvarande form att ha en avgörande inverkan på AMDs framtida position, på konkurrenskraften för dess produkter och i slutändan på den övergripande situationen på processormarknaden.

Naturligtvis kan det inte förnekas att Bulldozer för AMD inte är den enda nyckelprodukten. Denna mikroarkitektur är inriktad på det högpresterande desktop- och serversegmentet idag. Samtidigt har AMD andra förslag för andra marknadssegment. Till exempel är billiga, kostnadseffektiva processorer med Bobcat-mikroarkitekturen eller APU från Llano-familjen, som släpptes av företaget tidigare i år, inte mindre viktiga områden för företaget. Och dessa förslag, som vi såg från testresultaten, är framgångsrika lösningar som adekvat kan fungera både som lösningar för netbooks och nettops, och som grund för integrerade plattformar i mellanprisklasser.

Men framgången eller misslyckandet med Bulldozer har mycket mer betydande konsekvenser. För det första riktar sig denna mikroarkitektur till marknadssegment med mycket högre vinstmarginaler - servrar och produktivitetssystem för stationära datorer. Därför kan det ha en mycket starkare inverkan på AMD:s finansiella ställning. För det andra, framgång AMD-processorer serie C, E och A - detta är, ärligt talat, inte alls förtjänsten för ingenjörerna som är involverade i utvecklingen av mikroprocessordesign. Marknadsframgången för dessa CPU:er (eller APU:er, om vi håller oss till AMD-terminologin) härrör från närvaron i dem av grafikkärnor från Radeon HD-familjen, som hittade sin väg in i AMD-processorer tack vare köpet av ATI i rätt tid. Bulldozer är ett slags kvalificerande prov för ett ingenjörsteam som arbetar specifikt med mikroarkitekturen för datorkärnor. Och för det tredje kommer Bulldozer i slutändan att bli basen för hela raden av AMD-processorer, med undantag för lösningar för energieffektiva plattformar. Så i slutändan är det denna mikroarkitektur som kommer att komma till lägre marknadssegment och ersätta K10 nästan överallt, inklusive Llano-processorer.



Kort sagt är det knappast möjligt att överskatta vikten av en framgångsrik lansering av processorer med Bulldozers mikroarkitektur. Detta är en ikonisk produkt på både en emotionell och materialistisk nivå. Och därför vill jag verkligen att vi ska se, bildligt talat, en ny K7 eller K8 i verkligheten.

Men redan innan testning kan vi säga att chanserna för en upprepning av ett sådant fenomen är små. Intel själv hjälpte AMD att gripa handflatan förra gången och försökte främja den långt ifrån idealiska NetBurst-mikroarkitekturen. Sedan fokuserade Intels ingenjörer på att öka klockhastigheterna, vilket så småningom stötte på hinder i form av gigantiska läckströmmar, medan AMD erbjöd en mer balanserad mikroarkitektur inriktad på att exekvera fler instruktioner per klockcykel. Men efter att Intel reviderat sin doktrin och introducerat en ny Core-mikroarkitektur, som också syftar till att exekvera det maximala antalet instruktioner per klockcykel, föll AMD tillbaka till en eftersläpande position, där den hade varit fram till nu.

Det är uppenbart att det är mycket svårt att överträffa moderna Intel-processorer när det gäller antalet instruktioner som exekveras per klockcykel. Dagens Sandy Bridge-mikroarkitektur är resultatet av minst tre optimeringscykler av en i sig effektiv design, så vi kan inte förvänta oss ännu högre specifik kärneffektivitet från AMD. Dessutom satte AMD-ingenjörer inte ens upp ett sådant mål för sig själva.

Huvudidén med Bulldozer ligger någon annanstans. Enligt utvecklarna bör processorer byggda på denna mikroarkitektur visa bra prestanda på grund av höga klockhastigheter och ett större antal datorkärnor än deras konkurrenter och föregångare. Samtidigt bör de förbli ganska lönsamma i produktionen, det vill säga att de inte ska ha en för stor halvledarkristall och inte visa för hög värmeavledning i termer av en enskild kärna.

AMDs flerkärniga designhemligheter

Det är helt klart att en ökning av antalet processorkärnor oundvikligen innebär en ökning av processorkretsens yta. Som ett resultat ökar både komplexiteten i produktionen och kostnaderna för slutprodukterna. Därför används till exempel processorer med det maximala antalet datorkärnor idag endast i servermarknadssegmentet - företagskunder är mycket mer villiga att betala ut pengar än enskilda användare. Kursen som valts av AMD för att öka antalet kärnor samtidigt som en acceptabel kostnad för de resulterande processorerna bibehålls måste kombineras med en förenkling av själva kärnorna. Men å andra sidan medför förenkling av kärnor en oönskad effekt - en minskning av prestanda i applikationer med svagt parallelliserade belastningar, av vilka det fortfarande finns tillräckligt många för tillfället.

Därför gick AMDs ingenjörer sin egen väg. Mikroarkitekturen för enskilda kärnor har blivit mer komplex, vilket ökar antalet instruktioner som exekveras per klocka när det är möjligt.



Men det beslutades att en del av de resurser som vanligtvis finns i varje kärna, men samtidigt överdrivet effektiva, delas mellan par av datorkärnor.



Den resulterande dual-core-enheten blev den grundläggande byggstenen för Bulldozer-processorer. En sådan nod, som kallas en modul i AMD-terminologi, har två fulla uppsättningar av heltalsställdon. Men samtidigt existerar flyttalsenheten, instruktionsförhämtning och avkodningsanordningar, såväl som den andra nivåns cache i en enda kopia för ett par kärnor och delar sina resurser mellan dem. Enligt utvecklarnas uppskattningar är kraften hos dessa element tillräckligt för två kärnor, eftersom de ofta är inaktiva när de servar en enda kärna i verkligheten. Dessutom har förseningar i deras oavbrutna drift ingen allvarlig inverkan på den resulterande prestandan.

Enligt AMD själv kan en dual-core-modul designad på det beskrivna sättet leverera upp till 80 % av prestandan hos en fullfjädrad dual-core-processor. Samtidigt når besparingarna i transistorbudgeten (och följaktligen i området för halvledarkristallen) 44%.

Tack vare denna geniala kärnkomprimering kunde AMD införliva en design med åtta kärnor (eller fyrmoduler) i den grundläggande designen av Bulldozer-halvledarmatrisen.



Dessutom ges en ganska betydande del av kristallen över till cacheminne. Den andra nivåns cacheminne, som delas mellan par av kärnor inom varje processormodul, har en kapacitet på 2 MB, och det totala L3-cacheminnet för hela processorn är 8 MB. Således, med hänsyn till den traditionella AMD exklusiva organisationen av cacher, kan vi säga att deras totala volym är 16 MB per åttakärnig processor. Samtidigt förblir området för Bulldozer-halvledarkristallen inom acceptabla gränser, så AMD-utvecklarna har helt uppnått sitt mål.



I absoluta tal betyder det att åttakärniga Bulldozers kommer att ha en mindre halvledarmatris än till exempel sexkärniga Thuban-processorer (Phenom II X6), byggda på K10-mikroarkitekturen. Man bör dock komma ihåg att Bulldozer kommer att tillverkas med en mer avancerad teknisk process med 32 nm-standarder. Jämfört med moderna fyrkärniga Intel Sandy Bridges kommer AMD:s nya åttakärniga processorer att ha bara 45 % större stansarea.

Däremot kan fyrkärniga Sandy Bridge-processorer, tack vare stödet för Hyper-Threading-teknik, precis som Bulldozer, presenteras för operativsystemet som åttakärniga processorer. Detta kommer säkerligen att ge upphov till kontroverser om lagligheten av att kalla Bulldozer fullfjädrade åttakärniga processorer. Det bör dock förstås att AMD och Intel har kommit till tillåtligheten av samtidig exekvering av åtta datortrådar på olika sätt. Intel-utvecklare har skruvat in sin mikroarkitektur ytterligare egenskaper, vilket tillåter två trådar att löpa inuti en kärna, på en uppsättning exekveringsenheter. AMD, tvärtom, skar ut "extra" delar från två fullfjädrade kärnor, men det fanns bara två uppsättningar ställdon inuti varje modul.



Som ett resultat ökar Intels Hyper-Threading-teknologi flertrådiga prestanda med endast 15-20%, medan AMDs lösning ger en 80% ökning av prestanda när man flyttar från 4 till 8 trådar.

Även om halvledarkristallen i den åttakärniga Bulldozern, på grund av sin modulära struktur, verkligen är väldigt lik den fyrkärniga.


Fler instruktioner per cykel?

Att bara öka antalet processorkärnor kommer inte att ta dig långt. Detta blev tydligt även efter lanseringen av sexkärniga Phenom II X6-processorer, som generellt är sämre i prestanda än fyrkärniga Sandy Bridge. Därför begränsade sig AMD-utvecklare inte till bara omfattande designförändringar. Den grundläggande mikroarkitekturen för Bulldozer, jämfört med K10, har omdesignats något mindre än fullständigt, vilket ger hopp om att accelerera driften av system på AMD-processorer, inte bara i flertrådiga uppgifter, utan också i applikationer med en låg nivå av parallellitet. Dessutom bygger dessa förhoppningar på helt objektiva omständigheter. Medan tidigare AMD-mikroarkitekturer designades för att exekvera tre instruktioner per klocka (på en kärna), antar Bulldozer-mikroarkitekturen exekvering av fyra instruktioner per klocka och ligger närmare i denna egenskap konkurrerande processorer med Core-mikroarkitektur.

Kvalitativa förändringar kan spåras från de allra första stadierna av exekveringspipelinen - från stadiet av förhämtning och avkodningsinstruktioner. Dessa steg är gemensamma för par av kärnor inom en enda modul, så AMD var särskilt noga med att säkerställa att de inte blir en mikroarkitektonisk flaskhals. Instruktioner hämtas från L1I-cachen för avkodning i block om 32 byte - dubbelt så stora som i processorer med Core-mikroarkitektur (andra generationen). Själva instruktionscachen på första nivån har en kapacitet på 64 KB och tvåkanalsassociativitet. Instruktioner avsedda för avkodning laddas in i den från den andra nivåns cache i förväg.

Grenprediktionsblocket, som är mest direkt involverat i samplingsprocessen, innehåller två uppsättningar buffertar som oberoende övervakar aktiviteten hos olika kärnor. Sålunda, när man förutsäger resultaten av logiska grenar, blir Bulldozer inte förvirrad mellan trådarna. Eftersom den nya mikroarkitekturen syftar till att arbeta med höga klockhastigheter, är kvaliteten på grenprediktionsenheten av yttersta vikt. Därför har algoritmerna som används i den designats om helt och hållet, och AMD hoppas att effektiviteten i Bulldozers grenförutsägelse kommer att förbättras.



Bulldozers x86-instruktionsavkodare delar också upp sina resurser över två kärnor och kan avkoda upp till 4 inkommande instruktioner per klockcykel. Dess prestanda är dock begränsad till att endast utfärda fyra makroinstruktioner (som är resultatet av avkodning i AMD-termer), medan x86-instruktioner kan delas upp i 1-2 eller till och med fler makroinstruktioner. Så även om avkodaren har ökat sin prestanda med en tredjedel jämfört med föregående generation av mikroarkitektur, kanske dess hastighet inte räcker till, med tanke på att den har till uppgift att stödja två heltals- och ett beräkningskluster med reella tal.

Det bör noteras att en viss analog till makrofuockså har använts i Bulldozer. Vissa grupper av x86-instruktioner kan kombineras till en enda helhet och skickas genom avkodaren som en instruktion - AMD kallar detta för Branch Fusion.

De avkodade makroinstruktionerna är fördelade i tre beräkningskluster, varav två är resterna av fullfjädrade beräkningskärnor och en är reellt numrerad, delad mellan kärnorna. Vart och ett av dessa kluster har sin egen logik för instruktionsomställning och sin egen schemaläggare. Detta innebär självklart att AMD behåller möjligheten att helt ersätta eller komplettera vissa av dessa kluster i framtida produkter.

Omordning av instruktioner i vart och ett av klustren baseras på användningen av en fysisk registerfil, som lagrar referenser till innehållet i registren och eliminerar behovet av konstanta dataöverföringar inom processorn vid omarrangering av instruktionernas ordning. Detta tillvägagångssätt har ersatt omordningsbufferten i dess ställe, eftersom den fysiska registerfilen inte bara är mer effektiv när det gäller strömförbrukning, utan också mer gynnsam för att öka processorns klockhastighet.

Heltalskluster innehåller två aritmetiska exekveringsenheter (ALU) och två minnesadressenheter (AGU). Jämfört med K10-mikroarkitekturen har antalet enheter minskat med en ALU och en AGU, men AMD försäkrar att detta inte kommer att minska prestandan avsevärt, men kärnområdet kommer att spara avsevärt. Vi tror lätt att det inte är praktiskt meningsfullt att ha fler än två ALU:er och AGU:er i varje heltalskluster, eftersom inte mer än fyra makroinstruktioner per klockcykel kan komma från avkodaren för exekvering av båda klustren.



Samtidigt har ställdonen blivit mer universella, de skiljer sig praktiskt taget inte åt i sina funktioner.

Organisationen av cacheminnets undersystem har allvarligt förändrats. L1D-cachen reducerades från 64 till 16 KB och blev genomskrivning inklusive. Samtidigt ökade dess associativitet till 4 kanaler, dessutom lades en "vägprediktor" till. Minskningen av storleken på datacachen på första nivån kompenseras av en betydande ökning av dess genomströmning; nu kan den betjäna upp till tre 128-bitars operationer samtidigt: två läsningar och en skrivning.

Uppenbarligen är förändringar i L1D-cache-bandbredden till stor del relaterade till behovet av att implementera 256-bitars AVX-instruktioner i mikroarkitekturen, vilket stöd dök upp i FPU-enheten som delades mellan kärnorna. Detta betyder dock inte att reella ställdon har blivit 256-bitars. Faktum är att Bulldozer-modulen har två 128-bitars enheter, och AVX-instruktioner avkodas som länkade par av 128-bitars instruktioner. Följaktligen, för att exekvera dem, kombineras FMAC-enheter (multiplicera-ackumulera med flyttal), och prestandan för ett verkligt numrerat kluster reduceras till ett AVX-kommando per processormodul per klockcykel.



FPU:n har ingen egen cache på första nivån, så det här klustret fungerar med data via heltalsenheter.

Eftersom AMD-ingenjörer redan har tagit upp uppgiften att implementera stöd för AVX-instruktionerna som föreslagits av Intel, har andra relevanta uppsättningar lagts till Bulldozer-processorerna: SSE4.2- och AESNI-instruktioner som syftar till att påskynda krypteringsoperationer. Dessutom introducerade AMD några av sina egna kommandon: treoperand multiplikationstillägget FMA4 och sin egen vision för vidareutvecklingen av AVX - XOP.



L2-cachen i Bulldozer delas inom processormodulen och delas mellan kärnor. Dess kapacitet är imponerande 2 MB, och dess associativitet är 16 kanaler. Men latensen för cachen som fungerar enligt detta schema ökade till 18-20 cykler, trots att bussbredden förblev densamma som tidigare - 128-bitars. Detta betyder att L2-cachen i Bulldozer, även om den är stor, inte är särskilt snabb; konkurrerande och tidigare processorer erbjuder L2-cache med ungefär halva latensen. Tillsammans med en liten L1D-cache med en latens på 4 cykler (vilket också är mer än i K10-mikroarkitekturen) ser allt detta inte särskilt uppmuntrande ut. AMD hävdar dock att cache-latensen har ökats enbart för att ge Bulldozer möjligheten att arbeta med höga klockhastigheter.



Dessutom har AMD-ingenjörer implementerat en effektiv förhämtningsenhet, som är utformad för att ladda nödvändig data i första och andra nivåns cach i förväg. Prestanda för dessa block sägs ha förbättrats, och de kan nu till och med känna igen oregelbundna datastrukturer.

I teorin gör Bulldozer ett bra intryck. AMD har helt reviderat sin gamla metod för processormikroarkitektur och implementerat en helt omdesignad design. Vilket vid första anblicken ser mycket lovande ut, eftersom den nya mikroarkitekturen är optimerad för exekvering av fyra, snarare än tre, instruktioner per klockcykel på en processorkärna. Dessutom stöder den makrosammanslagning av instruktioner under avkodningsprocessen, vilket ytterligare ökar den specifika prestandan.

Men allt ser så bra ut bara så länge vi bara tittar på en kärna och inte tänker på det faktum att sådana kärnor i verkligheten kombineras i par. Och Bulldozer-modulen med dubbla kärnor har för många gemensamma delar för ett par kärnor. I synnerhet, på grund av det faktum att en sådan modul endast har en instruktionshämtningsenhet och en avkodare, förblir det maximala antalet instruktioner som exekveras per klockcykel lika med fyra för hela den dubbelkärniga enheten. Detta innebär att den logiska motsvarigheten för en enda Sandy Bridge-kärna när det gäller teoretisk prestanda är modulen och inte Bulldozer-kärnan. Modulens förmåga att köra två trådar i det här fallet ser ut som ett helt logiskt svar från AMD till Hyper-Threading-teknik.

Naturligtvis kommer vårt testande av riktiga processorer att sätta allt på sin plats, men redan i det skede vi överväger mikroarkitekturen tvingas vi tro att positionering av Bulldozer som fullfjädrade åttakärniga processorer är ett marknadsföringsknep. En mer tillförlitlig bedömning av dessa processorers beräkningskapacitet bör baseras på antalet moduler, som ur teoretisk prestandasynpunkt är perfekt jämförbara med kärnor byggda på andra generationens Intel Core-mikroarkitektur.

I detta avseende uppstår en helt logisk fråga - varför brydde sig AMD ens om implementeringen av dubbeltrådad bearbetning inom en enda processormodul? Varför skulle det inte vara möjligt att kombinera ställdon fördelade över två kärnor till ett enda kluster? Det finns flera anledningar till detta.

För det första, för att samtidigt belasta ett stort antal ställdon med arbete, krävs i det allmänna fallet avancerad logik inom processorn. AMD kunde uppenbarligen inte implementera högeffektiva förgreningsförutsägelse- och instruktions- och dataförhämtningsenheter i Bulldozer-mikroarkitekturen. Därför flyttas uppgiften att parallellisera arbetet och mer optimal användning av exekveringsenheter till mjukvarutillverkare, som måste leverera produkter med multi-threading-stöd för Bulldozer.

För det andra är det inte så illa att öka antalet trådar som körs samtidigt. Om för stationära användare, och särskilt spelare, åtta ganska enkla Bulldozer-kärnor inte lovar några särskilda fördelar, bör en sådan mikroarkitektur i serverapplikationer mötas mycket positivt. Så det är fullt möjligt att huvudmålet med utvecklingen av Bulldozer inte var att tillfredsställa entusiasters ambitioner, utan att återställa AMD:s position på servermarknaden.

Turbo Core ännu mer Turbo

Energieffektivitet är en av de de viktigaste egenskaperna moderna processorer. Till exempel i deras framtida mikroarkitekturer Intel uppmärksammar nästan i första hand att minska energiförbrukningen. AMD har ännu inte nått denna punkt, ingenjörerna i detta företag kämpar i första hand för prestanda. Men detta betyder inte att utvecklarna inte brydde sig alls om de termiska och energimässiga egenskaperna hos Bulldozer. Tvärtom, efter Llano, har fundamentalt nya metoder för att öka energieffektiviteten hittat sin väg in i Bulldozer-processorer. Men i det här fallet använde ingenjörer den frigjorda potentialen inte så mycket för att spara pengar, utan för att pressa ut ytterligare prestanda genom att öka klockfrekvenserna.

Naturligtvis har ny produktionsteknik medfört vissa förbättringar vad gäller energiförbrukning och värmeavledning. Bulldozer använder en 32nm processteknik som använder högdielektriskt material, metallgrindtransistorer och SOI-teknik. Med andra ord är detta samma GlobalFoundries tekniska process som producerar Llano-processorer. Tack vare ny teknologi Med 32 nm-standarder överstiger inte driftsmatningsspänningarna för seriella åttakärniga Bulldozer-processorer 1,4 V.

Men den viktigaste innovationen som gick från Llano till Bulldozer är power gate transistorer, designade för att stänga av strömmen från vissa delar av processorn. I Bulldozer låter de dig självständigt avlasta spänningen från individuella dual-core moduler och från cacheminne.



När båda datorkärnorna i modulen går in i energisparläge C6, är modulen strömlös. Tyvärr kan denna teknik inte tillämpas på processorkärnor, eftersom det helt enkelt inte finns några dedikerade kärnor inuti Bulldozer - de delar en del av resurserna med sina modulgrannar.

De energibesparande tillstånden för C6-kärnorna styrs med Bulldozer- och Turbo Core-teknik. I de ögonblick då minst hälften av Bulldozer-processormodulerna är i ett strömbesparande avstängt läge, ökar den sin matningsspänning och klockfrekvens. Detta forcerade driftläge kallas Max Turbo Boost.

Max Turbo Boost är dock inget nytt; sådan auto-överklockning introducerades av AMD i Thuban-processorer byggda på K10-mikroarkitekturen. Det som verkligen är nytt är All Core Boost-läget, där klockhastigheten kan öka över det nominella värdet även när alla processorkärnor är aktiva. Den förbättrade versionen av Turbo Core implementerad i Bulldozer låter processorn med god noggrannhet bedöma dess praktiska strömförbrukning och värmeavledning, baserat på information om arbetsbelastningen för vissa block. Följaktligen, om, enligt denna bedömning, den nuvarande värmeavledningen och energiförbrukningen är betydligt under gränsen, kan processorn öka sin matningsspänning och klockfrekvens även om inte en enda kärna är i ett passivt tillstånd.



Driftsfrekvensen för processorer med Bulldozer-mikroarkitekturen är således ett extremt varierande värde. Beroende på "allvarligheten" av de algoritmer som exekveras och antalet inblandade kärnor, kan den dynamiskt förändras över ett mycket brett intervall och nå 900 MHz.

Uppdaterad skrivbordsplattform

Med introduktionen av den nya mikroarkitekturen ändrade AMD inte bara inte plattformens design, utan bibehöll till och med kompatibiliteten hos Bulldozer-processorer med den befintliga infrastrukturen. Följaktligen innehåller de nya processorerna, precis som sina föregångare, en integrerad nordbrygga, inklusive en tredje nivås cache, en minneskontroller och en Hyper-Transport-busskontroller. Samtidigt, trots att alla nysläppta AMD- och Intel-processorer även har en PCI Express-grafikbusskontroller inbyggd, så har inte Bulldozer detta.



Precis som i processorer byggda på K10-mikroarkitekturen använder den inbyggda nordbryggan i Bulldozer sin egen klockfrekvens, som är inställd på 2,0-2,2 GHz för olika modeller. Observera att denna frekvens har en viss inverkan på prestandan, eftersom den direkt påverkar hastigheten på L3-cachen. Som i den nuvarande versionen av processorer har en volym ökad till 8 MB och har 64-kanals associativitet. För att uppfylla företagsanvändarnas önskemål skyddas data som lagras i denna cache av ECC-felkorrigeringskod.

Minneskontrollern som är inbyggd i Bulldozer har inga i grunden nya möjligheter. Liksom tidigare stöder den DDR3 SDRAM, använder en dubbelkanalsdesign och består faktiskt av två oberoende enkanalskontroller som kan fungera i antingen ihopparat eller okopplat läge. AMD lade bara till stöd för snabbare minnestyper, deklarerade kompatibilitet med DDR3-1867, och tog hand om kompatibilitet med energieffektiva moduler med driftspänningar på 1,25 och 1,35 V.

På tal om skrivbordsmodifieringen Bulldozer, som har sitt eget kodnamn Zambezi, bör det noteras att den syftar till en ny Socket plattform AM3+, även känd under kodnamnet Scorpius. Processor uttag AM3+ har 942 stift, ett stift mer än Socket AM3. Men trots detta förblir Zambezi kompatibel med äldre Socket AM3-kort. När man installerar nya processorer på gamla moderkort, går faktiskt bara vissa energisparfunktioner förlorade. Således minskar frekvensväxlingshastigheten när Turbo Core och Cool"n"Quiet-teknologierna körs och Vdrop inte fungerar.

Men när Zambezi släpptes, AMD och tillverkare moderkort har förberett en galax av nya produkter baserade på de nya logikseten i 900-serien. Strukturen för ett typiskt system baserat på Zambezi-processorn och byggt på den nya styrkretsen visas i blockschemat nedan.


Skillnaderna mellan den nya AMD 990FX styrkretsen (och dess förenklade versioner AMD 990X och AMD 970) ligger enbart i stöd för de specifika elektriska egenskaperna hos Socket AM3+, och de för inte med sig några nya gränssnitt. Liksom 800-seriens chipset har den nya sydbryggan sex SATA 6 Gbps-portar och fjorton USB 2.0-portar. Hur mycket vi än skulle vilja se stöd för PCI Express 3.0-specifikationen eller, i värsta fall, USB 3.0-portar i de nya systemlogikseten, så finns det inget sådant i dem den här gången heller. Detta är förresten väldigt konstigt, eftersom USB 3.0-stöd introducerades i styrkretsar för Socket FM1-plattformen på lägre nivå.

Skillnaderna mellan modifieringarna av den nya serien av systemlogikuppsättningar består enbart i stöd för olika multi-GPU-konfigurationer.


Zambezi-processorsortiment

Utgivningen av Zambezi-processorer slutför uppdateringen modellutbud, som erbjuds av AMD. Stationära processorer baserade på Bulldozer-mikroarkitekturen kommer att bli det nya flaggskeppserbjudandet för denna tillverkare och kommer snabbt att tränga bort alla typer av Phenom II-modifieringar från marknaden.

För att betona innovationen av den nya mikroarkitekturen kommer AMD att använda ett nytt marknadsföringsnamn för Zambezi desktop-processorer - FX. Dels passar den perfekt in i den nya nomenklaturen som går ut på att processorer ska markeras med bokstäver, dels är det en referens till de legendariska Athlon 64 FX-processorerna som för sex-sju år sedan var de snabbaste stationära processorerna. Men dessa dagar är oåterkalleligt borta, så låt oss se vad AMD är redo att erbjuda oss nu.

Inom en snar framtid kommer utbudet av processorer i FX-serien att omfatta fyra modeller.



Trots att skillnaden mellan Zambezi-processormodeller inte bara ligger i klockhastigheter, utan också i antalet aktiva datorkärnor, kommer de alla att baseras på samma enhetliga halvledarchip. Här är det:



För att få processorer med färre än åtta kärnor kommer AMD att inaktivera några av dem på halvledarchippet. Möjligheten att låsa upp dem tillbaka, som var möjligt med processorer med K10-mikroarkitekturen, är fortfarande ifrågasatt. Men i BIOS för moderkort baserade på 900-seriens logikuppsättningar som har passerat vårt laboratorium, finns motsvarande alternativ, så det finns hopp om en gynnsam lösning på detta problem.

Inaktivering av kärnor för att erhålla sex- och fyrkärniga processormodifieringar kommer att ske "modul för modul". Det vill säga att det kommer att vara hela dual-core-modulerna som kommer att blockeras, och inte de "andra" kärnorna inuti dem, även om en sådan taktik skulle vara mycket mer fördelaktig när det gäller prestanda. Men lanseringen av sex- och fyrkärniga processorer byggda på Bulldozer-mikroarkitekturen förklaras inte så mycket av marknadsföringsöverväganden som av behovet av att implementera avslag, vilket, med tanke på de ganska stora dimensionerna av chipet och den nya tekniska processen, blir ganska mycket.

Trots att AMD har skärpt den nya mikroarkitekturen för att fungera på höga klockfrekvenser kan vi ännu inte kalla de uppnådda värdena för ett imponerande genombrott. Fyra gigahertz-barriären förblir obesegrad, och den nominella frekvensen för den äldre FX-processorn är till och med lägre än till exempel Phenom II X4 980. Vi vill hoppas att Zambezi-frekvenserna snabbt kommer att gå upp med förbättringen av produktionstekniken . Även om du tror på den nuvarande versionen av AMD:s planer, kommer linjen att accelereras tidigast under första kvartalet 2012.

Det finns inget genombrott vad gäller värmeavgivning och energiförbrukning. AMD har länge pratat om hur Bulldozer-mikroarkitekturen ska bli mer energieffektiv, men i själva verket har de äldre åttakärniga modellerna samma TDP-nivå som den äldre Phenom II. Det är sant, efter en tid borde företaget lägga till sina erbjudanden en 95-watts version av FX-8120 och en FX-8100-processor med samma beräknade värmeavledning.

Men priserna på de nya processorerna i FX-serien ser mer än attraktiva ut. AMD vill inte avvika från sin kurs att erbjuda plattformar till ett förmånligare pris än sina konkurrenter, så de äldre åttakärniga Zambezi-modellerna är motståndare till de äldre Intel Core i5-processorerna. I allmänhet planerar AMD att följa följande positioneringsschema för sina produkter:



Med andra ord, AMD tänker inte konkurrera med Intels sexkärniga processorer och den lovande LGA2011-plattformen, utan vill fokusera på att erövra mellanprissegmentet.

Goda nyheter för entusiaster kommer att vara det faktum att inga multiplikatorer kommer att blockeras i alla FX-seriens processorer. Alla Zambezi kan inte bara enkelt överklockas genom att helt enkelt ändra basmultiplikatorn, utan kan också omkonfigureras på liknande sätt med Turbo Core-teknik. Även överklockning av minnesundersystemet och frekvensen för den norra bron som är inbyggd i processorn är tillgänglig.

Testprocessor: AMD FX-8150

AMD skickade våra redaktörer den seniora processorn i Zambezi-familjen, FX-8150.



Den har en nominell klockhastighet på 3,6 GHz och mer detaljerad information Dess egenskaper kan erhållas från den givna skärmdumpen av CPU-Z.



Observera att processorn är baserad på B2-steget – och detta är inte den första versionen. Tidigare modifieringar av halvledarkristallen avvisades av tillverkaren eftersom de inte kunde fungera vid de ursprungligen planerade klockfrekvenserna. Det var detta som orsakade en viss försening av tillkännagivandet, som från början planerades under våren, sedan på sommaren, men som faktiskt skedde i mitten av oktober.

3,6 GHz-frekvensen som uppnås idag ser dock inte alltför imponerande ut. Både AMD själv och Intel har produkter som körs i högre hastigheter. FX-8150 har dock mycket lovande Turbo Core-teknik, som under låg belastning automatiskt kan öka processorfrekvensen upp till 4,2 GHz.



Det är anmärkningsvärt att en frekvens på 3,9 GHz kan uppnås även om belastningen ligger på alla datorkärnor, men samtidigt lämnar utrymme för auto-överklockning utan att gå utanför gränserna för strömförbrukning och värmeavledning.



När den är inaktiv minskar Cool"n"Quiet-tekniken FX-8150:s frekvens till 1,4 GHz. Matningsspänningen sjunker till 0,85 V.


Hur vi testade

Vi jämförde den nya åttakärniga AMD FX-8150-processorn, byggd på Bulldozer-mikroarkitekturen, med en av dess föregångare, den sexkärniga Phenom II X6, och med konkurrerande (prissatta) Intel-erbjudanden - fyrkärniga Core-processorer i5-2500 och Core i7-2600. Dessutom, för större tydlighet, har prestandaindikatorer för den sexkärniga Core i7-990X-processorn lagts till i resultaten.

Som ett resultat inkluderade testsystemen följande mjukvaru- och hårdvarukomponenter:

Processorer:

AMD FX-8150 (Zambezi, 8 kärnor, 3,6 GHz, 8 MB L2 + 8 MB L3);
AMD Phenom II X6 1100T (Thuban, 6 kärnor, 3,3 GHz, 3 MB L2 + 6 MB L3);
Intel Core i7-2600K (Sandy Bridge, 4 kärnor, 3,4 GHz, 1 MB L2 + 8 MB L3);
Intel Core i5-2500K (Sandy Bridge, 4 kärnor, 3,3 GHz, 1 MB L2 + 6 MB L3);
Intel Core i7-990X Extreme Edition(Gulftown, 6 kärnor, 3,46 GHz, 1,5 MB L2 + 12 MB L3).

CPU-kylare: NZXT Havik 140;
Moderkort:

Gigabyte 990FXA-UD5 (Socket AM3+, AMD 990FX + SB950);
ASUS P8Z68-V PRO (LGA1155, Intel Z68 Express);
Gigabyte X58A-UD5 (LGA1366, Intel X58 Express).

Minne:

2 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Kingston KHX1600C8D3K2/4GX);
3 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Crucial BL3KIT25664TG1608).

Grafikkort: AMD Radeon HD 6970.
Hårddisk: Kingston SNVP325-S2/128GB.
Strömförsörjning: Tagan TG880-U33II (880 W).
Operativ system: Microsoft Windows 7 SP1 Ultimate x64.
Drivrutiner:

Intel Chipset Driver 9.2.0.1030;
Intel Management Engine-drivrutin 7.1.10.1065;
Intel Rapid Storage Technology 10.6.0.1022;
AMD Catalyst 11.10 skärmdrivrutin.

Observera att testning utfördes under den aktuella versionen av operativsystemet Windows 7, men AMD indikerar att uppgiftshanteraren för detta operativsystem inte distribuerar datortrådar på det mest optimala sättet. Windows 7 föredrar i första hand att dirigera trådar till kärnor som finns i olika moduler. Och detta ger verkligen högre specifik prestanda, eftersom det minskar belastningen på blocken delade inuti modulen. Den här strategin förhindrar dock inkluderingen av turbolägen, som skulle kunna användas av processorn om några av de tvåkärniga modulerna var i energisparläge.

Lovande operationssal Windows-system 8 kommer att följa en annan taktik, och där kommer trådar att tilldelas först till kärnor inom samma modul. Som ett resultat lovar AMD att i ett antal applikationer kan prestandan hos Zambezi-baserade system öka med upp till 10 %.

Prestanda

Preliminär utvärdering av effektiviteten av Bulldozers mikroarkitektur

Innan vi började "riktiga" tester av processorer bestämde vi oss för att ta reda på vad vi i princip kunde förvänta oss av Bulldozers mikroarkitektur. För att göra detta gjorde vi en liten jämförelse av en processor med denna mikroarkitektur med andra processorer med K10 och Sandy Bridge mikroarkitekturer under artificiellt skapade lika förhållanden: med samma klockfrekvens och med samma antal aktiverade kärnor.

Mer specifikt jämförde vi AMD FX-8150, Phenom II X6 1100T och Core i7-2600 vid 3,6 GHz med endast två bearbetningskärnor aktiverade. För experimentets renhet inaktiverades naturligtvis all energisparande och automatisk överklockningsteknik. En uppsättning enkla syntetiska riktmärken som ingår i verktyget valdes som testverktyg SiSoft Sandra 2011, där vi tvångsinaktiverade alla instruktionsuppsättningar äldre än SSE3, eftersom de inte stöds i K10-mikroarkitekturen.



Siffrorna i tabellen talar högre än alla ord. Prestandan för Bulldozers mikroarkitektur har blivit mycket lägre än tidigare processorer. Att kombinera par av kärnor till en modul med delade resurser och den åtföljande förenklingen av mikroarkitekturen ledde till att vid samma frekvens sjönk den specifika prestandan för Bulldozer per kärna med 25-40% jämfört med föregående generations AMD-mikroarkitektur. Som ett resultat är Bulldozer-kärnor nästan hälften så långsamma som Sandy Bridge-kärnor. Dessutom är prestandan hos Bulldozer-processormodulen, som inkluderar två kärnor, till och med lägre än hastigheten för en enda Sandy Bridge-kärna med Hyper-Threading-teknik aktiverad. Ska vi förvänta oss prestandarekord från en processor byggd på en sådan mikroarkitektur? Frågan är retorisk.

Längs vägen, låt oss ta en titt på praktiska egenskaper cacher och minnesundersystem. För att utvärdera drifthastigheten för dessa funktionella enheter genomförde vi tester i verktyget Cachemem från Aida64-paketet. I samtliga fall användes DDR3-1600-minne med latenser på 9-9-9-27-1T. Precis som i det föregående fallet förblev processorfrekvenserna justerade på 3,6 GHz.



I Zambezi, jämfört med Phenom II-processorer, har de praktiska latenserna för både alla cachar och minnesundersystemet ökat. Vi pratade om detta när vi övervägde Bulldozers mikroarkitektur. Men genom att ändra den logiska organisationen av cacheminnet ökade dess genomströmning i nästan alla fall.

Samtidigt implementeras den snabbaste dual-channel minneskontrollern och det snabbaste cache-undersystemet i Sandy Bridge. Även om, naturligtvis, när det gäller cachekapacitet är Intel-processorn något sämre än Bulldozer-mikroarkitekturmediet.

Prestanda

För att utvärdera processorprestanda i vanliga uppgifter använder vi traditionellt Bapco SYSmark 2012-testet, som simulerar användararbete i vanligt modernt kontorsprogram och applikationer för att skapa och bearbeta digitalt innehåll. Tanken med testet är mycket enkel: det producerar ett enda mått som karakteriserar den viktade medelhastigheten för datorn i vanliga applikationer.

Låt oss komma ihåg att AMD för ett tag sedan försökte trolla SYSmark och spred anklagelser om att det var partiskt på grund av användningen av "fel" uppsättning riktiga applikationer. Men enligt vår mening är en sådan bedömning inte motiverad, eftersom det är vanliga och riktigt populära program som används för att utvärdera prestanda, vars bidrag till det slutliga resultatet visas i följande diagram:



Därför har vi inte övergett användningen av SYSmark 2012 och fortsätter att använda dess mätvärden för att utvärdera gemensamma prestanda.



Det första testet är en sådan besvikelse. Resultatet av den åtta-kärniga FX-8150 är bara 10% bättre än prestandan hos den sexkärniga Phenom II X6 1100T och når naturligtvis inte prestanda för fyrkärniga Intel-processorer alls. Så taktiken som valts av AMD för att implementera ett stort antal kärnor med låg specifik prestanda i processorn istället för ett måttligt antal komplexa ger i allmänhet inget positivt resultat.

En djupare förståelse av SYSmark 2012-resultaten kan ge insikt i prestandapoängen som erhållits i olika systemanvändningsscenarier.

Office Productivity-scenariot simulerar typiskt kontorsarbete: förbereda text, bearbeta kalkylblad, arbeta med via e-post och besöka webbplatser. Skriptet använder följande uppsättning applikationer: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Spelare 10.1 Microsoft excel 2010, Microsoft Internet Explorer 9, Microsoft Outlook 2010, Microsoft powerpoint 2010, Microsoft Word 2010 och WinZip Pro 14.5.



Scenariot Media Creation simulerar skapandet av en reklamfilm med hjälp av förinspelade digitala bilder och videor. För detta ändamål används populära Adobe-paket: Photoshop CS5 Extended, Premiere Pro CS5 och After Effects CS5.



Webbutveckling är ett scenario inom vilket skapandet av en webbplats modelleras. Använda applikationer: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, Mozilla Firefox 3.6.8 och Microsoft Internet Explorer 9.



Scenariot för data/ekonomisk analys är tillägnat statistisk analys och prognostisering av marknadstrender, vilket utförs i Microsoft Excel 2010.



3D-modelleringsskriptet är helt ägnat åt att skapa tredimensionella objekt och rendera statiska och dynamiska scener med använder Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 och Google SketchUp Pro 8.



Det sista scenariot, System Management, innebär att skapa säkerhetskopior och installera programvara och uppdateringar. Flera är inblandade här olika versioner Mozilla Firefox Installer och WinZip Pro 14.5.



olika modeller Att använda en processor med Bulldozer-mikroarkitekturen visar fundamentalt olika resultat. I vissa fall visar det sig vara ännu långsammare än Phenom II X6, men det finns också motsatta situationer. I allmänhet är den allmänna regeln denna: fördelen med FX-8150 blir särskilt märkbar där arbetsbelastningen är flertrådig och väl parallelliserad, men inte beräkningsmässigt komplex.

Men även i de mest gynnsamma situationerna ligger FX-8150 efter Core i5-2500. Det enda scenariot där dessa processorer är jämförbara i hastighet är 3D-rendering. I genomsnitt ligger Intels erbjudande före AMD:s nya produkt med imponerande 25 %. Tyvärr.

Spelprestanda

Som ni vet bestäms prestandan hos plattformar utrustade med högpresterande processorer i de allra flesta moderna spel av kraften i grafikundersystemet. Det är därför vi, när vi testar processorer, försöker utföra tester på ett sådant sätt att ta bort belastningen från grafikkortet så mycket som möjligt: ​​de mest processorberoende spelen väljs och tester utförs utan att slå på anti -aliasing och med installationen av långt ifrån de flesta höga upplösningar. Det vill säga att de erhållna resultaten gör det möjligt att utvärdera inte så mycket nivån på fps som kan uppnås i system med moderna grafikkort, utan hur bra processorer presterar med en spelbelastning i princip. Därför är det, baserat på de presenterade resultaten, fullt möjligt att spekulera i hur processorer kommer att bete sig i framtiden, när snabbare alternativ för grafikacceleratorer dyker upp på marknaden.


















Spel tillhör inte kategorin av uppgifter som genererar en parallelliserad flertrådig belastning. Därför, för dagens spelapplikationer, är processorer med fyra kärnor mer lämpliga, och inte de flerkärniga monster som AMD erbjuder. Vi ser en tydlig illustration av detta uttalande i diagrammen nedan. Den nya åttakärniga FX-8150 är inte snabbare än sin sexkärniga föregångare, Phenom II X6.

När det gäller förhållandet mellan spelprestanda mellan Zambezi och Sandy Bridge är AMD fortfarande mycket mer pessimistisk för den nya produkten. Den nuvarande Intel-processormikroarkitekturen hanterar den typiska arbetsbelastningen som genereras av 3D-spel mycket bättre, och det finns inget hopp om att AMD någonsin ska kunna komma ikapp konkurrenternas processorer i denna kategori av uppgifter. Med andra ord, att använda Bulldozer i spelsystem kan bara vara meningsfullt när det finns förtroende för att prestandan hos en specifik processor är tillräcklig för ett specifikt videoundersystem i en specifik uppsättning spel. Men även i det här fallet måste du inse att med nästa uppgradering av videoacceleratorn kan du förbli i en allvarlig nackdel jämfört med de användare som från början föredrog plattformen och moderna Intel-processorer.

Utöver speltesterna kommer vi även att presentera resultaten av det syntetiska riktmärket Futuremark 3DMark 11, lanserat med Extreme-profilen.



Syftet med att lägga till dessa resultat var att visa den mycket idealiska situationen för FX-8150, när videosubsystemet inte tillåter att processorkraften realiseras fullt ut. Här faller huvudbelastningen på grafikkortet, och processorn spelar bara en stödjande roll. I sådana fall kan vi prata om lika prestanda för Bulldozer- och Sandy Bridge-processorer, även om detta naturligtvis inte är helt sant.



FX-8150 ser dock bra ut (jämfört med tidigare resultat) i det fysiska testet 3DMark 11. fysisk modell AMD:s nya åttakärniga processor körs med hastigheter jämförbara med fyrkärniga Core i5-2500.

Tester i applikationer

Totalt sett var Bulldozers vägda medelvärde och spelprestanda på skrivbordet långt under våra förväntningar. Men låt oss inte misströsta och försöka hitta de fall då den nya AMD-mikroarkitekturen kan visa sin styrkor.

För att mäta hastigheten på processorer vid komprimering av information använder vi WinRAR arkiverare, med hjälp av vilken vi arkiverar en mapp med olika filer med en total volym på 1,4 GB med maximal komprimeringsgrad.



Resultatet av FX-8150 är nära Core i5-2500. WinRAR är inte en av applikationerna som kan parallellisera sina beräkningar över alla åtta Bulldozer-kärnorna, men det gigantiska cacheminnet verkar rädda dagen.

Det andra liknande testet för arkiveringshastighet utförs i 7-zip-programmet, med hjälp av LZMA2-komprimeringsalgoritmen.



I 7-zip är FX-8150:s prestanda berömvärt. Denna åttakärniga processor lyckas närma sig hastigheten för den fyrkärniga Core i7-2600, som inkluderar stöd för Hyper-Threading och som precis som Bulldozer kan exekvera åtta trådar samtidigt.

Krypteringsprestandan hos processorer mäts av det inbyggda riktmärket för det populära kryptografiska verktyget TrueCrypt. Det bör noteras att det inte bara är kapabelt att effektivt ladda valfritt antal kärnor med arbete, utan också stöder en specialiserad uppsättning AES-instruktioner.



Välparallelliserade, enkla heltalsalgoritmer är vad Bulldozer-mikroarkitekturen behöver. I sådana fall kan, som vi ser, mycket enastående prestanda erhållas. Speciellt när det kommer till kryptering ligger FX-8150 endast efter den sexkärniga Core i7-990X och ligger före alla processorer för LGA1155-plattformen.

När du testar ljudomkodningshastighet, använd verktyget Apple iTunes, som konverterar innehållet på en CD till AAC-format. Observera att en karakteristisk egenskap hos det här programmet är möjligheten att endast använda ett par processorkärnor.



Det är bättre att hålla program som genererar ett litet antal beräkningstrådar borta från Bulldozer. Vissa kärnor i denna CPU är för svaga för att visa några anständiga resultat i sådana fall.

Vi mäter prestanda i Adobe Photoshop med vårt eget test, som är ett kreativt omarbetat Retuschera Artists Photoshop Speed ​​​​Test, vilket innebär typisk bearbetning av fyra 10-megapixelbilder tagna med en digitalkamera.



I Photoshop är FX-8150:s prestanda inte lika katastrofal som för processorer med K10-mikroarkitekturen, men den är fortfarande långt ifrån Core i5-2500. Uppenbarligen är ett stort cacheminne till god hjälp för Bulldozer-mikroarkitekturen i det här fallet, men detta ensamt kommer dig inte långt. Effektiviteten och specifika prestanda för datorkärnor är fortfarande av största vikt.

Vi har även genomfört tester i Adobe programmet Photoshop Lightroom 3. Testscenariot inkluderar efterbearbetning och JPEG-export av hundra 12-megapixelbilder i RAW-format.



Lightroom kan parallellisera fotobehandling över valfritt antal kärnor, och därför visar åttakärniga FX-8150 bra resultat här. Men "inte dåligt" är ett relativt begrepp i det här fallet, i själva verket är dess prestanda jämförbar med bara Core i5-2500. Detta innebär att två Bulldozer-kärnor är lika med en Sandy Bridge-kärna utan stöd för Hyper-Threading.

Prestanda i Adobe Premiere Pro testas genom att mäta renderingstiden i H.264 Blu-Ray-format för ett projekt som innehåller HDV 1080p25-video med olika effekter tillämpade.



Tidigare generationens AMD-processorer hanterade också videoomkodning bra. Bulldozer-mikroarkitekturen möjliggjorde en liten ökning av prestanda i applikationer av denna typ och som ett resultat är FX-8150 ännu snabbare än Core i5-2500.

Hastigheten för videoredigering med Adobe After Effects utvärderades genom att mäta körtiden för en fördefinierad uppsättning filter och effekter, inklusive oskärpa, skapande av stötar, bildblandning, skapande av glöd, lägga till rörelseoskärpa, skuggning, 2D- och 3D-manipulation, inversion, etc.



Trots att belastningen är väl parallelliserad ligger FX-8150 efter Intels konkurrenter i After Effects.

För att mäta hastigheten för videoomkodning till H.264-formatet används x264 HD-testet, baserat på att mäta bearbetningstiden för källvideo i MPEG-2-format, inspelad i 720p-upplösning med en ström på 4 Mbit/sek. Det bör noteras att resultaten av detta test är av stor praktisk betydelse, eftersom x264-codec som används i den ligger bakom många populära omkodningsverktyg, till exempel HandBrake, MeGUI, VirtualDub, etc.






Vid omkodning av video med x264-codec visade AMD-processorer alltid bra prestanda. Med lanseringen av mikroarkitekturen med åtta kärnor har deras resultat ökat ytterligare, och nu överträffar FX-8150 till och med Core i7-2600 i det andra, mest resurskrävande kodningspasset. Så, med stor svårighet, hittade vi äntligen en andra applikation, förutom TrueCrypt, där prestandan hos en processor med Bulldozer-mikroarkitekturen förtjänar smickrande recensioner.

Vi mäter datorprestanda och renderingshastighet i Autodesk 3ds max 2011 med det specialiserade SPECapc-testet. Från och med denna testning börjar vi använda den nya professionella versionen av SPECapc för 3ds Max 2011.






Rendering är också en av de uppgifter som är föremål för optimering för flerkärniga mikroarkitekturer. Men trots detta är FX-8150 fortfarande långsammare än Core i5-2500 och Core i7-2600, för att inte tala om Core i7-990X. Å andra sidan finns det ingen skamlig situation när en ny AMD-processor förlorar mot sin föregångare.

Genomsnittligt resultat för enskilda applikationer var FX-8150 cirka 14 % snabbare än Phenom II X6 1100T på vår uppsättning applikationer. Och detta gjorde att den inte presterade sämre än Core i5-2500 i något mindre än hälften av fallen. Klyftan med nästa Sandy Bridge-modell, Core i7-2600, är ​​dock fortfarande betydande och uppgår till mer än 10 %.

Energiförbrukning

Trots att vi kunde hitta en uppsättning uppgifter där Bulldozers prestanda kan kallas acceptabel, ser processorer baserade på den nya mikroarkitekturen inte alls ut som revolutionerande processorer. Det enda hoppet kvarstår för strömförbrukning, eftersom tidigare AMD-processorer var mer än betydligt sämre än sina konkurrenter i denna parameter. Nu, om du tror på utvecklarnas löften, har mikroarkitekturen blivit mer fokuserad på energieffektivitet, och den nya 32-nm tekniska processen borde ha bidragit till förbättringen Elektriska egenskaper. Så låt oss titta på FX-8150 genom linsen av prestanda per watt.

Följande grafer, om inte annat anges, visar den totala systemförbrukningen (utan monitor), mätt "efter" strömförsörjningen och representerar summan av strömförbrukningen för alla komponenter som är involverade i systemet. Effektiviteten hos själva strömförsörjningen beaktas inte i detta fall. Under mätningar skapades belastningen på processorerna av 64-bitarsversionen av verktyget LinX 0.6.4. Dessutom, för att korrekt uppskatta tomgångsströmförbrukning, aktiverade vi alla tillgängliga energibesparande teknologier: C1E, C6, AMD Cool"n"Quiet och Enhanced Intel SpeedStep.



När de var inaktiva blev förbrukningen av system med processorer byggda på Bulldozer-mikroarkitekturen lägre än för liknande system med Phenom II-familjens processorer. Men moderna Intel LGA1155-system förbrukar betydligt mindre i viloläge.



I det fall då datorbelastningen är enkeltrådig ökar förbrukningen av Socket AM3+-system kraftigt, uppenbarligen på grund av Turbo Core-teknikens höga aggressivitet. Med byggda system Intel-processorer, detta observeras inte, och de kan återigen skryta med betydligt högre energieffektivitet.



Med en full flertrådig belastning är situationen inte mycket annorlunda. Är det bara systemet med LGA1366 Core i7-990X-processorn som "kom framåt." Annars är allt som förut. När det gäller strömförbrukning har FX-8150 ingen speciell framgång. Den började förbruka lite mindre än Phenom II X6 1100T, men Sandy Bridge-processorer är minst en och en halv gånger mer ekonomiska.

AMD använde all energieffektivitet som uppnåddes genom introduktionen av en ny mikroarkitektur för att öka klockfrekvenserna. Och som ett resultat ser vi inga ny nivå effektivitet och inte heller i grunden förbättrad prestanda. Följaktligen, när det gäller prestanda per watt, är Bulldozer, liksom sina föregångare, allvarligt underlägsen konkurrerande mikroarkitekturer från Intel.

Som referens presenterar vi förbrukningen vid full belastning, mätt separat i strömförsörjningskretsarna för processorn och moderkortet.






"Netto"-förbrukningen för den åttakärniga FX-8150 överstiger förbrukningen Sandiga processorer Bro ungefär två gånger. Med tanke på att båda processorerna är tillverkade med samma tekniska process och har liknande kärnspänningar, blir det otroligt intressant vad AMD menade när de pratade om energieffektiviteten i deras Bulldozer-mikroarkitektur.

Överklockning

Socket AM3+-plattformen och FX-seriens processorer är initialt placerade som överklockare. Detta bevisas av både den fullständiga upplåsningen av alla multiplikatorer och experiment som utförts under AMD:s beskydd, där ett världsrekord i överklockning sattes med en av FX-8150-processorerna. Företagets uttalanden om att den nya mikroarkitekturen är optimerad för drift vid höga klockfrekvenser ser också lovande ut. Kommer vi verkligen att få ett nytt överklockningsmirakel från AMD? Låt oss kolla.

Att överklocka alla FX-processorer är väldigt enkelt; det är inte för inte som "Unlocked" skrivs direkt på deras logotyp. Processorfrekvensen kan ändras med en multiplikator antingen genom BIOS Setup eller genom specialiserade verktyg som tillhandahålls av både AMD själv (Overdrive Utility) och moderkortstillverkare. På samma sätt kan du i Socket AM3+-system överklocka nordbryggan och minnet inbyggt i processorn.

Under testningen kunde vi uppnå stabil drift av vår FX-8150 vid en frekvens på 4,6 GHz. För att säkerställa stabilitet i detta tillstånd måste processorns matningsspänning ökas till 1,475 V, och dessutom var det nödvändigt att aktivera funktionen Load-Line Calibration. Under stabilitetstester översteg inte temperaturen på processorn som arbetade vid denna frekvens 85 grader enligt sockelsensorn eller 75 grader enligt sensorn inbyggd i processorn. För att ta bort värme, minns vi att en effektiv luftkylare NZXT Havik 140 användes.



Observera att vi samtidigt försökte överklocka den inbyggda norra bron i CPU:n, eftersom att öka dess frekvens har en positiv effekt på hastigheten på tredje nivåns cache och minneskontroller. Men tyvärr stötte betydande överklockning av denna processornod på en osynlig barriär, och den kunde inte nå en frekvens över 2,4 GHz, även om vi samtidigt försökte öka dess matningsspänning.

Hur som helst är överklockning av FX-8150 till 4,6 GHz ett bra resultat, särskilt med tanke på att AMD-processorer i Phenom II-familjen sällan överklockades i luften över 4,0 GHz. Med andra ord, Bulldozers mikroarkitektur gjorde det faktiskt möjligt att höja frekvensgränsen något.

Överklockning av FX-processorer bör dock jämföras, först och främst, inte med gamla Phenom II, utan med konkurrerande Core i5- och Core i7-processorer för LGA1155-system. Men de accelererar helt klart inte värre. Till exempel är en ganska typisk överklocka för Core i5-2500K med en spänningsökning på 0,15 V över det nominella och med en luftkylare 4,7 GHz. Och mot denna bakgrund verkar resultatet av FX-8150 inte längre så lysande.

Intrycket av att överklocka Zambezi försämras ännu mer om vi jämför prestandan hos den överklockade FX-8150 och den överklockade Core i5-2500K (ökningen av prestanda i förhållande till det nominella läget anges inom parentes):



Generellt sett förändrar inte överklockning kvaliteten på resultaten. Men där FX-8150 var snabbare i nominellt läge, minskade gapet. Och där Core i5-2500 var i täten, befäste den sina fördelar. Det är inte förvånande: frekvensen för FX-8150 när den överklockades ökade med 28 %, medan frekvensökningen för Core i5-2500K var 42 %. Och i allmänhet, som kan bedömas av storleken på prestandavinsten från överklockning, reagerar Sandy Bridge-mikroarkitekturen mer känsligt på ökande frekvenser. Med andra ord, även om vi tar hänsyn till överklockning, ser processorer med Bulldozer-mikroarkitekturen, även om de överklockar ganska bra, inte starkare ut än Intels konkurrenter.

Slutsatser

Framgång eller misslyckande? Säkert vill många av er se en tydlig dom i slutet av artikeln. Men i det här fallet är allt väldigt tvetydigt, och AMD har satt recensenter i en mycket svår position med sin Bulldozer.

Faktum är att AMD har visat ett helt icke-standardiserat tillvägagångssätt för utveckling av mikroarkitektur. Med tanke på att processorprestanda består av tre komponenter: antalet instruktioner som exekveras i processorkärnan per klockcykel, frekvens och antal kärnor, har utvecklare flyttat sina prioriteringar till antalet kärnor. Samtidigt reducerades den specifika prestandan för enskilda kärnor, men den resulterande designen öppnade vägen för skapandet av billiga åttakärniga eller till och med mer komplexa processorer. Detta är ett mycket starkt drag för servermarknaden, där flertrådiga laster och processorer med stor mängd kärnor är mycket efterfrågade. Så det är mycket troligt att den nya Bulldozer-mikroarkitekturen kommer att tillåta AMD att avsevärt förbättra sin position på prestandaservermarknaden.

Idag har vi dock bekantat oss med FX-processorn, byggd på denna mikroarkitektur, men riktad till stationära datorer. Och det var här skillnaden mellan Bulldozers hårdvarukapacitet och typiska skrivbordsarbetsbelastningar blev helt uppenbar. Det är särskilt nedslående att marknadsföringskampanjen var uppbyggd på ett sådant sätt att många trodde på Bulldozer som en stigande stjärna på datormarknaden. Dessa förhoppningar var dock inte avsedda att gå i uppfyllelse.


FX-processorer, som är baserade på Bulldozer-mikroarkitekturen, kunde bara visa sina styrkor i en liten delmängd av uppgifter som lösts av vanliga användare. Bland typiska vanliga applikationer finns det inte många exempel som genererar en enkel heltals flertrådig arbetsbelastning, och Bulldozers höga prestanda avslöjas endast i detta fall. Som ett resultat visade sig Bulldozer i vissa fall inte bara vara långsammare än konkurrerande lösningar från Intel, utan även sämre än Phenom II X6-processorn, byggd på föregående generations mikroarkitektur. Och detta betyder att AMD misslyckades med att producera en revolutionerande stationär processor.

Faktum är att FX bara är nästa Phenom, som verkar vara ganska bra i sig, speciellt jämfört med sina föregångare. FX-processorer är generellt sett snabbare än Phenom II, överklockar betydligt bättre och har något lägre förbrukning, så de kan anses vara en bra ersättare för bärare av den föråldrade K10-mikroarkitekturen.

Men låt oss påminna dig om att AMD är i krig inte bara med sig själv, utan också med av Intel. Därför är vi fortfarande tvungna att uttrycka den nedslående slutsatsen att FX-processorer är verkligt vettiga endast på de stationära datorer som är fokuserade på videobearbetning och omkodning. I andra fall, jämfört med Sandy Bridge-processorer, ser deras prestanda sällan uppmuntrande ut. Detsamma kan sägas om strömförbrukning och överklockning. Separat bör det tilläggas att AMD FX-processorer, som förväntat, visade sig vara ett dåligt alternativ för spelsystem, eftersom moderna 3D-spel praktiskt taget inte använder verkligt flertrådade algoritmer. Däremot kommer antagligen fans av AMD-produkter att kunna stå ut med detta, med tanke på att antalet bilder per sekund i spel ofta begränsas av grafiken, inte processorn.

Med andra ord kommer marknadsutsikterna för FX-processorer att bero på två faktorer: hur stor armén av AMD-anhängare är; och om hur skickligt tillverkaren kommer att hantera prisspaken. Dock förväntas inte stationära processorer med Bulldozer-mikroarkitekturen bli allmänt populära.

AMD ägnar sig sällan åt fräscha processorarkitekturer. Om Intel uppdaterar strukturen vartannat år, noterades konkurrenten senast 2007 och släppte K10, en omdesignad version av den gamla K8. Så utseendet på en ny bulldozer är en viktig händelse. Under de närmaste åren kommer arkitekturen att bli grunden för alla AMD-kristaller, samt den första chansen på länge att konkurrera med Intel i prestandakapplöpningen.

Vi går som ett par

Genom att skapa Bulldozer övergav AMDs ingenjörer den beprövade strategin att förbättra och delvis kopiera gamla utvecklingar. Stenarnas struktur skiljer sig fundamentalt från vad vi är vana vid att se i x86-system.

Den första och viktigaste innovationen är den ursprungliga layouten. Alla toppversioner av Bulldozer är officiellt utrustade med åtta kärnor. Men i verkligheten finns det fyra fullfjädrade moduler, bara var och en med två beräkningsenheter. Det ser ut så här: två heltalsaritmetiska kluster (de kallas kärnor och är direkt ansvariga för beräkningar) delar ett Front-End, ett flyttalskluster (FPU) och en andranivåcache ökad till 2 MB.

Fördelen med en sådan tandem är att spara utrymme, minska energiförbrukningen och produktionskostnaderna. Nackdel - att dela samma set har en dålig effekt på den slutliga prestandan. Under tung belastning kan en front-end kanske inte klara av två kärnor. AMD förnekar inte prestandaförlusten: enligt den är duon cirka 20% svagare än en fullfjädrad dual-core-processor.

Kommunikationssvårigheter

För att eliminera flaskhalsen var Front-End tvungen att lära sig hur man effektivt delar resurser mellan de två kärnorna. För att uppnå detta omformades grenprediktionsenheten och kommandoavkodaren, som fick en fjärde kanal för bearbetningsinstruktioner (som i Sandy Bridge) och teknik Branch Fusion. Det senare låter dig limma en del av instruktionerna i en operation. Allt detta bör påskynda arbetet med Front-Enden och förhindra att kristallen blir ledig.

När det gäller själva kärnorna är detta en uppsättning Out-of-Order, laddning/avlastning, L1-cache och två datorkluster. Utförandeenheten har nu ett fysiskt filregister. Liksom i Sandy Bridge släpps adresser för lagring av arbetsdata in i den, vilket gör att du kan ladda ur huvudpipelinen i Out-of-Order. Lastnings-/avlastningsprocessorn fick en ökad buffert, fördubblad kapacitet och möjligheten att arbeta med virtuella adresser, vilket teoretiskt borde öka hastigheten för att arbeta med L1-datacachen. Den senare i Bulldozer blev fyra gånger mindre: 16 mot 64 KB i K10. Förlusten kompenserades av arbetshastigheten. L1-associativiteten ökade från två till fyra kanaler, vilket betyder dubbelt så mycket O större sökeffektivitet.

Det finns tre beräkningskluster i en modul: två heltal och ett för att arbeta med flyttalsdata. Jämfört med K10 förlorade det första paret en ALU (engagerad i beräkningar) och AGU (hanterade minnesadresser). I teorin innebär detta minskad toppprestanda. I praktiken kommer förändringen att vara praktiskt taget omärkbar: det är svårt att ladda heltalskluster helt.

De viktigaste förändringarna påverkade FPU, som ansvarar för komplexa flyttalsberäkningar. I K10 blev den mycket kraftfullare: den fick ett par MMX- och 128-bitars FMAC-enheter för att utföra additions- och multiplikationsoperationer. Till skillnad från K10 har FMAC gjorts universella: de kan ersätta varandra, vilket har en positiv effekt på beräkningshastigheten. Dessutom lärde de sig att kombinera operationer i ett uttryck, vilket ökade noggrannheten i beräkningarna.

Dessutom fick FPU en uppdaterad uppsättning instruktioner. För det första fungerar processorn nu med AVX, som stöder 256-bitars register. För deras beräkningar, som i Sandy Bridge, kombineras två FMAC. För det andra kan Bulldozer arbeta med SSE 4.2, AENSI, FMA4 och XOP instruktioner. De två sista uppsättningarna är unika för AMD. För dig och mig betyder alla dessa ändringar bara en sak - kommandon som tidigare gjordes i flera klockcykler kommer nu att beräknas i en, och detta påverkar direkt prestandan. Det är sant att för att uppleva hastighetsökningen krävs stöd för instruktioner från programvaran.

Lim och sax

Som ett resultat består varje Bulldozer-modul av en Front-End, L2 och L1 datacache, två heltalskluster och ett block för att arbeta med flyttal. Totalt kan en sten innehålla upp till fyra sådana uppsättningar. Samtidigt har var och en av dem tillgång till ett antal gemensamma element. Den första är en dubbelkanals minneskontroller med stöd för DDR3-1866 MHz. Den andra är L3-cachen, vars volym, jämfört med K10, har ökat från 6 till 8 MB, och associativiteten - från 48 till 64 kanaler. Observera att, till skillnad från Sandy Bridge, frekvensen av L3-cachen inte sammanfaller med hastigheten på kärnorna. Om toppmodellen arbetar med en hastighet på 3,6 GHz, är minnet på den senaste nivån på 2,2 GHz. Detta leder till märkbara förseningar som negativt påverkar prestandan. Enligt AMD gjordes detta offer för stabil drift vid höga frekvenser.

Tadam!

Trots arkitektoniska knep och 32nm processteknik upptar Bulldozer imponerande 315 kvadratmeter. millimeter. Detta är ungefär en och en halv gånger mer än den fyrkärniga Sandy Bridge och äldre Llano. Lyckligtvis hölls strömförbrukningen inom rimliga gränser - 125 W.

Förutom åttakärniga modeller finns versioner med sex och fyra beräkningsenheter. De yngre bröderna är baserade på samma åttakärniga design, men de har en eller två moduler inaktiverade.

Basfrekvensen varierar från 3,1 till 3,6 GHz. Precis som Sandy Bridge har Bulldozer automatisk överklockningsteknik. Ett speciellt chip ansvarar för Turbo Core 2.0, övervakar den aktuella kärnbelastningen och TDP-nivån och, så snart möjligheten uppstår, ökar processorfrekvensen. När det gäller en toppkristall, när alla moduler används, kan hastigheten ökas med 300 MHz. Om några av resurserna är lediga - vid 600 MHz. Vid låg belastning går Bulldozer i energisparläge, tekniken ansvarar för detta Cool"n"Quiet.

Manuell överklockning är enkel. För det första har hela raden en olåst multiplikator. För det andra vinner nykomlingar höjden bra: under flytande kväve satte den äldre bulldozern ett nytt världsrekord - 8429 MHz.

Följeslagare

Bulldozer körs på Socket AM3+. I huvudsak är detta en något förbättrad AM3 med en extra stift. Chipset med en ny processorsockel kallas 990FX, 990X Och 970 . De skiljer sig åt i PCIe 2.0-kontrollern. Den äldre modellen är utrustad med 32 linjer, de yngre - 16. Dessutom stöder 990FX och 990X CrossFireX. Bland funktionerna i styrkretsen noterar vi sex SATA Rev-portar. 3 och 14 USB-kontakter 2.0. Det finns ingen USB 3.0-kontroller.

Observera att Bulldozer även kan fungera på äldre brädor. Allt du behöver är en uppdaterad BIOS. Begränsningar: Turbo Core och Cool"n"Quiet har reducerad svarshastighet, och vissa energibesparande funktioner är inte tillgängliga.

Bulldozer-processorarkitekturen visade sig vara intressant. Äntligen slutade AMD kopiera sig själv och kom på något riktigt nytt. Tyvärr finns det få tydliga fördelar gentemot konkurrenterna. Det finns inga deklarerade åtta kärnor. På ett bra sätt har vi fyrkärniga modeller med ett ökat antal beräkningsenheter, ungefär som Intel Hyper-Threading, men på hårdvarunivå. Tanken är bra, men prestandan kommer att bero på hur snabb front-end är. De verkliga fördelarna med Bulldozer inkluderar endast en kraftfull FPU för flyttalsberäkningar och ökade driftsfrekvenser jämfört med K10.

Låt oss rulla ut det! Låt oss begrava det!

AMD har meddelat planer på att släppa följande rader av processorer. Företaget räknar med att uppdatera arkitekturen årligen och uppnå cirka 15 procent prestandavinster per watt varje gång. Om AMD håller sig till sin plan kommer vi att se arkitekturen 2012 Piledriver("koper"), ett år senare - Ångvält("ångvält"), och 2014 kommer att komma ihåg för tillkännagivandet Grävmaskin. Så här är byggarbetet.

Fel fönster

Enligt AMD, Windows 7 oförmögen att släppa lös den fulla potentialen i den nya skapelsen: OS-schemaläggaren tar inte hänsyn till funktionerna i Bulldozer. Till exempel, för nya processorer är det viktigt att sammankopplade trådar tilldelas en modul, annars kommer kärnorna att utbyta data inte via den snabba L2-cachen, utan genom tredje nivåns minne. Vissa delade strömmar är också bättre behandlade på liknande sätt för att förbättra effektiviteten hos Turbo Core 2.0. På samma gång specifika uppgifter skapa en större belastning på Front End-blocket, och det är bättre att sprida dem över olika moduler. Tack vare samarbetet med Microsoft dessa nyanser kommer att beaktas i planeraren Windows 8. Du bör dock inte förvänta dig en betydande ökning av prestanda.

Lexikon

Heltals beräkningskluster- behandlar operationer med heltal (1, 2, 10).

Front-end- förhämtningsblock. Tar emot kommandon från programmet och översätter dem till ett språk som är förståeligt för processorn.

FPU- kluster av flyttalsdataberäkningar. Utför beräkningar med bråktal (1.2345) och stora värden med potenser (1.2345E-10).

Förutsägelseblock för gren- förutsäger i förväg vilka data och operationer programmet kan behöva i nästa ögonblick. Tillåter inte att processorn går på tomgång.

Kommandoavkodare- delar upp programmet i mikrooperationer, som sedan används av datorkluster.

Trasig- block av extraordinärt utförande. Hanterade fördelningen av åtgärder mellan kärnor. Skickar för beräkning endast de kommandon för vilka det finns data.

Ladda/avlasta block (LSU) - övervakar rörelsen av data mellan utgången från transportören och L1-datacachen.

Cacheassociativitet- länka cache linjer och kolumner. Ju högre associativitet, desto lägre sökhastighet, men desto högre effektivitet.

MMX- en uppsättning block för att arbeta med nummer upp till 8 byte.

Instruktionsuppsättningar- tillåta ett kommando att utföra en operation på flera data.

bord 1

Specifikationer för AMD Bulldozer-processorer

Antal datorkärnor

Basfrekvens

Turbo Core Frequency

Minnesstöd

Energiförbrukning

Teknisk process

Pris från november 2011

okänd

Vad utgör processorprestanda? Tidigare användes en formel som beskrev prestanda som produkten av antalet instruktioner som exekveras per klockcykel och frekvensen med vilken denna processor arbetar. Nu har en tredje faktor dykt upp i denna formel - antalet beräkningskärnor. Därför har en processorutvecklare som vill släppa en snabb produkt flera alternativ för att göra detta.

Dock inte allt så enkelt. Att öka antalet instruktioner som exekveras av en datorkärna per klockcykel är en ganska svår uppgift. Klassisk x86 programkod involverar sekventiell exekvering av instruktioner, och därför måste processorn, för att uppnå parallell bearbetning, vara utrustad med högeffektiva förgreningsförutsägelse- och instruktionsomordningsenheter, vars implementering kräver avsevärd ingenjörsarbete. Samtidigt påverkar mikroarkitekturens komplikation kristallens fysiska dimensioner och leder till restriktioner vid ökning av antalet kärnor. Så om en tillverkare ska göra en processor med ett stort antal kärnor, så borde mikroarkitekturen tvärtom försöka förenkla. Det är inte lätt med klockfrekvens. En satsning på dess tillväxt kommer återigen att kräva ändringar i de interna blocken av processorn och förlänga dess exekveringspipeline. Resultatet är följande: för att en processor ska vinna en medalj för prestanda måste dess utvecklare arbeta hårt för att samtidigt optimera ett antal parametrar.

Problemet ligger också i det faktum att något av de valda sätten att förbättra processorprestanda kan vara framgångsrika endast i speciella fall. Alla program kan inte fungera effektivt med ett stort antal kärnor. Vissa algoritmer tillåter dig inte att korrekt förutsäga övergångar och ordna om instruktioner. Och i vissa fall ökar inte prestandan ens med en ökning av klockfrekvensen, eftersom det finns några andra flaskhalsar i systemet.

Att hitta den optimala balansen är inte lätt, och vad anses vara det optimala kriteriet? Vi kan bara jämföra prestanda hos processorer i ett begränsat antal program och välja den snabbaste för ett givet fall. Detta garanterar dock inte alls att vi, med en annan uppsättning testverktyg, inte kommer att få helt motsatta uppskattningar. En så lång introduktion ges här eftersom vi idag ska bekanta oss med den nya serien av AMD FX-processorer - flaggskeppsprodukten för AMD, allmänt känd under kodnamnet Zambezi. Denna processor är baserad på den mycket kontroversiella Bulldozer-mikroarkitekturen, som redan har lyckats samla en ansenlig bukett föga smickrande recensioner. Men poängen är inte att denna mikroarkitektur är helt dålig. När de valde den bästa balansen av egenskaper bedömde utvecklarna felaktigt behoven hos majoriteten av användarna och lade huvudvikten på fel faktor i "grundformeln". Som ett resultat gick den ursprungliga planen att släppa en högpresterande lösning av en ny generation fel, och AMD-anhängare, fascinerade av löften om ett genombrott, fick något helt annat än vad de förväntade sig. Men är detta en allvarlig och objektiv anledning till besvikelse? Vi kommer att prata om detta i detta material.

⇡ Räkna kärnor: åtta eller fyra?

Under arbetet med en ny design för prestandaprocessorer beslutade AMD att prioritera antalet processorkärnor. Detta är ett helt logiskt val, baserat på det faktum att det med åren finns mer och mer multi-threaded mjukvara och utvecklingen av en mikroarkitektur designad för många års utveckling bör i första hand inte ta hänsyn till det aktuella läget på marknaden, men de observerade trenderna. Åtta kärnor, som tillhandahålls i grundversionen av den nya processorn, är vad AMD skulle erövra marknaden, där hittills endast chips presenterades, det maximala antalet kärnor i vilka var begränsat till sex. ( Här talar vi bara om stationära datorer. — cirka. ed. )

Samtidigt ville utvecklarna inte ta kärnorna i den gamla K10-mikroarkitekturen. De är inte bara för stora fysisk storlek, men också, som kan bedömas av Llano, är de inte benägna att arbeta vid höga klockfrekvenser även efter att ha överförts till modern 32 nm-teknik. Dessutom stöder de inte många moderna funktioner, såsom AVX-instruktioner. Därför, för att montera åtta-kärniga processorer, gjorde AMD en ny mikroarkitektur - Bulldozer. Representanter för företaget föredrar att säga att dess utveckling utfördes från grunden, men i själva verket kan du i Bulldozer-kärnorna hitta många referenser till en annan mikroarkitektur som presenterades i år - Bobcat, som syftar till användning i kompakta och energieffektiva enheter. Förhållandet mellan Bulldozer och Bobcat är dock ganska avlägset, och vi nämner det bara så att den allmänna idén blir tydlig - Bulldozer kombinerar många relativt enkla kärnor.

Samtidigt pratar vi inte om den primitiva kombinationen av åtta enkla kärnor på ett halvledarchip. I denna situation skulle den resulterande processorn ha mycket låg entrådig prestanda, och detta skulle bli ett ganska allvarligt problem, eftersom det inte finns så få program som inte delar upp belastningen i flera beräkningstrådar. Därför, för det första, optimerades kärnorna för drift vid höga klockhastigheter. Och för det andra, de parades ihop till moduler med dubbla kärnor som kunde dela sina resurser för att tjäna en enda tråd. Resultatet är en ganska intressant design: ingångsdelen av exekveringspipelinen för en sådan dubbelkärnig modul är vanlig, och ytterligare instruktionsbehandling är uppdelad mellan två uppsättningar exekveringsenheter.

Grunden för Bulldozer-designen är vad som konventionellt kallas en dual-core modul

Kom ihåg att databehandlingsprocessen i modern processor innehåller flera steg: hämta x86-instruktioner från cacheminnet, avkoda dem - översätta dem till interna makrooperationer, exekvering, inspelning av resultaten. De första två stegen i Bulldozer-modulen utförs för ett par kärnor tillsammans, och sedan för heltalsinstruktioner fördelas exekveringen över två klusterkärnor eller, i fallet med verklig aritmetik, utförs den i ett block med flyttalsoperationer gemensam för två kärnor.

Bulldozermoduler är designade för att bearbeta fyra instruktioner per klockcykel, och tack vare makrosammanslagningsteknik kan vissa par av x86-instruktioner betraktas av processorn som en operation. Detta betyder att Bulldozer-modulen med dubbla kärnor generellt sett liknar en enda kärna av moderna Intel-processorer, som även kan bearbeta fyra instruktioner per klockcykel och även stödja makrosammanslagningar.

Det finns dock betydande skillnader mellan Bulldozer-modulen och Sandy Bridge-kärnan som kan ifrågasätta deras ungefär samma teoretiska hastighet. På grund av det faktum att modulen i de nya AMD-processorerna innehåller resterna av två lika kärnor, kan den endast visa maximal prestanda när du bearbetar ett par trådar. Om den bär en enkeltrådig belastning, kommer hastigheten på dess tjänst att begränsas av antalet exekveringsenheter inom ett sådant kluster. Och det finns inte så många av dem, med tanke på AMDs önskan att förenkla individuella kärnor - en och en halv gånger mindre än i processorer med Sandy Bridge eller K10 mikroarkitektur. Det vill säga två aritmetiska ALU:er och två adress AGU:er.

Så här ser den funktionella strukturen ut för en modul byggd på Bulldozer-mikroarkitekturen. Från två kärnor finns bara två uppsättningar heltalsställdon kvar

Blocket av flyttalsoperationer som är gemensamma för processormodulen har också relativt låg komplexitet. Den innehåller två 128-bitars FMAC-exekveringsenheter, som kan kombineras till en enda enhet för att behandla 256-bitars instruktioner. Det verkar som att det inte finns så många ställdon här, speciellt med tanke på att de är uppdelade i ett par kärnor. Men de är mer universella än i tidigare och konkurrerande mikroarkitekturer, som använder separata multiplikatorer och adderare. Och tack vare detta, i vissa fall när man arbetar med reella siffror, kan dual-core Bulldozer-modulen ge jämförbara och ännu mer hög prestandaän till exempel en Sandy Bridge-kärna.

En liknande idé om att kombinera 128-bitars enheter för att fungera med 256-bitars instruktioner används i Sandy Bridge

Dock bör Bulldozer-modulen visa sina största styrkor under en dubbeltrådig belastning. En Sandy Bridge-kärna kan också bearbeta två beräkningstrådar; för detta har den Hyper-Threading-teknik. Men alla instruktioner skickas till en uppsättning ställdon, vilket i praktiken orsakar många kollisioner. Bulldozer-modulen innehåller två oberoende heltalskluster som kan exekvera trådar parallellt, och det totala antalet exekveringsenheter i dem överstiger antalet sådana enheter i Sandy Bridge-kärnan med en och en halv gånger.

Till vänster finns Bulldozer-modulen, till höger finns en konkurrerande kärna med stöd för Hyper-Threading. Faktum är att det inte ser mycket ut som Sandy Bridge, men illustrationen förmedlar kärnan i problemet

Som ett resultat har Bulldozer-modulen högre toppprestanda än Sandy Bridge-kärnan, men denna prestanda är något svårare att låsa upp. Sandy Bridge-kärnan laddar intelligent sina egna resurser tack vare avancerad on-chip-logik som oberoende analyserar enkeltrådad kod och exekverar den parallellt på hela sin uppsättning exekveringsenheter. I Bulldozer flyttas uppgiften att effektivt använda ställdon delvis till programmeraren, som måste dela upp sin kod i två trådar - fullständig nedladdning av alla modulkapaciteter blir möjliga först då.

Och det är det som är typiskt. När vi tittade på Bulldozer-processormodulen med dubbla kärnor jämförde vi den hela tiden med en enda Sandy Bridge-kärna, och samtidigt kunde vi dra ganska korrekta paralleller. Detta får oss att undra: borde inte den nya mikroarkitekturens "åtta-kärniga" karaktär betraktas som en produkt av marknadsförare? AMD säger att kärnor ska räknas efter antalet heltalskluster, med argumentet att modulen kan ge upp till 80 % av prestanda för två oberoende kärnor. Vi bör dock inte glömma att kärnorna som Bulldozer bygger på är betydligt enklare än kärnorna i andra processorer. Därför är antalet dual-core moduler en egenskap som återspeglar prestandan hos Bulldozer mycket mer adekvat.

Hitta det maximala antalet processorkärnor och få ett jobb på AMDs marknadsavdelning

⇡ Cacheminne

Organisationen av cacheminne i Bulldozer-processorer är också "bunden" inte så mycket till individuella kärnor, utan till dual-core moduler. Faktum är att varje kärna bara tilldelas sin egen datacache på första nivån; alla andra nivåer av cacheminne relaterar antingen till modulen som helhet eller till processorn:

  • Varje kärna har sin egen L1-cache för data. Dess volym är 16 KB, och arkitekturen förutsätter närvaron av fyra associativa kanaler. Denna cache fungerar med en genomskrivningsalgoritm, vilket betyder att den är inkluderande.
  • Den första nivåns cache för instruktioner tillhandahålls i en enda kopia för varje dubbelprocessormodul. Dess volym är 64 KB, och antalet associativitetskanaler är två.
  • Den andra nivåns cache implementeras också i en enda instans per modul. Dess storlek är imponerande 2 MB, associativiteten är 16 kanaler och driftalgoritmen är exklusiv.
  • Dessutom har den åtta-kärniga processorn som helhet en 8-megabyte L3-cache med 64-kanals associativitet. Det speciella med denna cache är att den arbetar med en betydligt lägre frekvens jämfört med själva processorn, som är cirka 2 GHz.

Följande tabell beskriver förhållandet mellan cacheminnesvolymer för åttakärniga Bulldozer-, fyrkärniga Sandy Bridge- och Thuban-processorer (sexkärniga Phenom II X6, byggd på K10-mikroarkitekturen).

Cachetyp Bulldozer (8 kärnor/4 moduler) Sandy Bridge (4 kärnor) Thuban (6 kärnor)
L1I (instruktioner) 4x64 KB 4x32 kB 6x64 KB
L1D (data) 8x16 kB 4x32 kB 6x64 KB
L2 4x2 MB 4x256 KB 6x512 KB
L3 8 MB, 2,0-2,2 GHz 8 MB, körs med processorhastighet 6 MB, 2,0 GHz

Som du kan se från tabellen förlitade AMD sig på rymliga cacher på övre nivå, vilket kan vara riktigt användbart i fallet med en allvarlig flertrådig belastning. Cacheminnet i nya processorer är dock generellt sett långsammare än tidigare och konkurrerande produkter. Detta är lätt att upptäcka när man mäter praktisk latens.

Stora förseningar vid åtkomst till data i Bulldozer kan endast kompenseras av den höga klockhastigheten hos dessa processorer. Vilket dock ursprungligen var planerat - frekvensmässigt skulle de nya åttakärniga processorerna överträffa Phenom II med 30%. AMD kunde dock aldrig designa halvledarkristaller som kunde fungera stabilt vid så höga frekvenser. Som ett resultat kan hög cachefördröjning orsaka betydande skada på Bulldozer-baserade system.