AMD Bulldozer คือโปรเซสเซอร์ AMD รุ่นใหม่ล่าสุด ผู้ดูแลระบบคือใคร?

AMD ตัดสินใจที่จะใช้แนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิงสำหรับสถาปัตยกรรม Bulldozer ใหม่ มีการตัดสินใจที่จะสร้างโมดูลแบบดูอัลคอร์ที่ใช้ทรัพยากรร่วมกัน (แคช L2, โมดูลจุดลอยตัว) แต่ไม่ได้เป็นอิสระจากกันโดยสิ้นเชิง (ดูภาพด้านล่าง)
ตามข้อมูลของ AMD สิ่งนี้ทำเพื่อเพิ่มประสิทธิภาพโปรเซสเซอร์และในเวลาเดียวกันเพื่อลดราคาของโปรเซสเซอร์ การเพิ่มประสิทธิภาพคือในโปรเซสเซอร์แบบมัลติคอร์ทั่วไป บางโมดูลอาจไม่ได้ใช้งาน และโมดูลดังกล่าวสามารถรวมกันในสถาปัตยกรรม Bulldozer และหากมีโมดูลน้อยลง ก็หมายความว่าวัสดุจะสูญเปล่าน้อยลง และในทางกลับกัน ก็จะส่งผลเชิงบวกต่อต้นทุน การประหยัดพลังงาน และการลดความร้อน
ดังนั้นแม้ว่า AMD จะเรียกโปรเซสเซอร์ Bulldozer ใหม่ว่าดูอัลคอร์ แต่ในความเป็นจริงพวกเขาจะไม่ใช่ดูอัลคอร์อย่างแท้จริงเนื่องจากจะไม่มีคอร์ที่เป็นอิสระอย่างสมบูรณ์ และชื่อ” โปรเซสเซอร์ดูอัลคอร์» จะถูกใช้เพื่อวัตถุประสงค์ทางการตลาด

สำหรับการสร้าง" โปรเซสเซอร์ควอดคอร์" AMD ใช้หน่วยเหล่านี้สองหน่วย ดังนั้นจริงๆ แล้วโปรเซสเซอร์จึงมี "โปรเซสเซอร์" สองตัวอยู่ข้างใน (หน่วยการสร้างทั้งสองแสดงอยู่ในภาพด้านล่าง) แทนที่จะเป็นสี่ตัว AMD จะยังคงเรียกโปรเซสเซอร์ Quad-Core ใหม่ต่อไป


โปรเซสเซอร์แปดคอร์ที่ใช้สถาปัตยกรรม Bulldozer

ตอนนี้เรามาดูโมดูล Fetch และ Decode ที่ใช้ในสถาปัตยกรรม Bulldozer กันดีกว่า

ดึงข้อมูลและถอดรหัสโมดูล

โมดูล Fetch มีหน้าที่ดึงคำแนะนำในการถอดรหัสจากแคชหรือ หน่วยความจำเข้าถึงโดยสุ่ม.

ดึงข้อมูลและถอดรหัสโมดูล

ตามที่ระบุไว้แล้ว โมดูลการสุ่มตัวอย่างจะใช้ "คอร์" สองอันพร้อมกัน นอกจากนี้ แคชคำสั่ง L1 ยังใช้สองคอร์พร้อมกัน แต่คอร์ของโปรเซสเซอร์แต่ละตัวมีแคชข้อมูล L1 ของตัวเอง
AMD ได้ประกาศแล้วว่าแคชคำสั่ง L1 ที่ใช้ในสถาปัตยกรรม Bulldozer ประกอบด้วยแคช set-associative แบบสองทางขนาด 64 KB การกำหนดค่าเดียวกันนี้ใช้ในโปรเซสเซอร์ที่มีสถาปัตยกรรม AMD64 แต่ข้อแตกต่างคือโปรเซสเซอร์ AMD64 มีแคช L1 ต่อคอร์ ในขณะที่โปรเซสเซอร์ Bulldozer จะมีแคช L1 หนึ่งรายการต่อคอร์คู่หนึ่ง อย่างไรก็ตาม แคชข้อมูลจะมีขนาดเพียง 16 KB ซึ่งน้อยกว่า 64 KB ต่อคอร์ที่ใช้ในโปรเซสเซอร์ที่ใช้สถาปัตยกรรม AMD64 อย่างมาก

TLB (บัฟเฟอร์มองข้างการแปล- บัฟเฟอร์หน่วยความจำที่รวดเร็วเป็นพิเศษ) ขนาดของ TLB ได้รับการเปิดเผยแล้ว เหล่านี้เป็นบัฟเฟอร์ที่มีหน่วยความจำจำนวนเล็กน้อย ซึ่งออกแบบมาเพื่อแปลงที่อยู่หน่วยความจำเสมือนให้เป็นที่อยู่จริง
หน่วยความจำเสมือนหรือที่รู้จักกันดีในชื่อไฟล์เพจเป็นเทคโนโลยีที่จำนวน RAM ถูก "เพิ่มขึ้น" ด้วยไฟล์พิเศษบนฮาร์ดไดรฟ์

โปรแกรมคอมพิวเตอร์เขียนโดยใช้คำสั่ง x86 แต่ปัจจุบันผู้ประมวลผลเข้าใจเฉพาะคำสั่ง RISC ดั้งเดิมเท่านั้น โมดูลถอดรหัสมีหน้าที่ในการแปลงคำสั่งโปรแกรม x86 เป็นคำสั่งไมโคร RISC สถาปัตยกรรม Bulldozer มีตัวถอดรหัสสี่ตัวแต่ ช่วงเวลานี้ AMD ไม่เปิดเผยว่าคำสั่งใดที่ตัวถอดรหัสแต่ละตัวดำเนินการ โดยทั่วไปแล้ว ตัวถอดรหัสตัวใดตัวหนึ่งจะดำเนินการคำสั่งที่ซับซ้อนและซับซ้อนโดยใช้ไมโครโค้ด ROM (“µcode” หรือ “ไมโครโค้ด”) ที่ให้มา การถอดรหัสคำสั่งที่ซับซ้อนจะเสร็จสมบูรณ์หลังจากผ่านไปสองสามรอบสัญญาณ หลังจากนั้นคำสั่งเหล่านั้นจะถูกแปลงเป็นคำสั่งย่อยหลายคำสั่ง โดยทั่วไปแล้ว ผู้ผลิตจะปรับโปรเซสเซอร์ของตนให้เหมาะสมในลักษณะที่เมื่อถอดรหัสคำสั่งที่พบบ่อยที่สุด คำสั่งเหล่านั้นจะดำเนินการในรอบสัญญาณนาฬิกาเดียว

บทนำ ไม่ต้องสงสัยเลยว่าโปรเซสเซอร์รุ่นใหม่ของ AMD ซึ่งใช้สถาปัตยกรรมไมโคร Bulldozer เป็นหนึ่งในผลิตภัณฑ์ที่ได้รับการคาดหวังมากที่สุดไม่เฉพาะในปีนี้ แต่อย่างน้อยในช่วงห้าปีปัจจุบัน มีสาเหตุหลายประการรวมถึงการมีอยู่ของแฟน ๆ จำนวนมากสำหรับผลิตภัณฑ์ AMD บางคนมีความทรงจำใหม่ ๆ ในช่วงเวลาที่โปรเซสเซอร์ของบริษัทนี้ดีกว่าของ Intel ทุกประการ บางคนชอบผลิตภัณฑ์ของ AMD เนื่องจากมีการผสมผสานระหว่างราคาและประสิทธิภาพที่สมดุล และบางคนก็ประทับใจกับเรื่องราวสะเทือนอารมณ์ของ AMD เกี่ยวกับข้อดีของสถาปัตยกรรมไมโครที่ได้รับการพัฒนาภายในบริษัท ทั้งหมดนี้ทำให้ต้องรอการเปิดตัวโปรเซสเซอร์รุ่น Bulldozer ที่น่าเบื่อมานานหลายปีและนี่คือผลลัพธ์ - คุณกำลังอ่านบทความนี้ด้วยความสนใจและความสนใจอย่างไม่ปิดบัง

อย่างไรก็ตาม มันก็คุ้มค่าอย่างชัดเจน สถานการณ์ในตลาดโปรเซสเซอร์ในอีกไม่กี่ปีข้างหน้าขึ้นอยู่กับความสำเร็จของสถาปัตยกรรมไมโคร Bulldozer ท้ายที่สุดแล้ว มีเพียง Intel เท่านั้นที่มีทรัพยากรด้านวิศวกรรมและการผลิตเพื่อเปิดตัวโซลูชันสถาปัตยกรรมย่อยใหม่ๆ ทุกๆ สองถึงสามปี AMD ถูกบังคับให้ยึดติดกับการพัฒนาที่วัดผลได้มากขึ้น มันน่ากลัวที่จะจำ แต่สถาปัตยกรรมไมโครที่ใช้ในโปรเซสเซอร์ Phenom II และ Athlon II ในปัจจุบันย้อนกลับไปในปี 1999 และตั้งแต่นั้นมา AMD ก็ทำการเปลี่ยนแปลงเพียงเล็กน้อยเท่านั้น ดังนั้นเราจึงไม่มีภาพลวงตาพิเศษว่าวงจรการพัฒนาจะมีความกระตือรือร้นมากขึ้นทันทีเมื่อมีการเปิดตัว Bulldozer เห็นได้ชัดว่า Bulldozer จะเป็นหัวใจสำคัญของการนำเสนอประสิทธิภาพของ AMD ในอีกไม่กี่ปีข้างหน้า

บน รุ่นปัจจุบันแผนของบริษัทในการพัฒนาสถาปัตยกรรมไมโครนี้ถูกร่างขึ้นจนถึงปี 2014 แต่เกือบจะดำเนินต่อไปอย่างแน่นอน

ความจริงที่ว่า AMD สัญญาว่าจะเพิ่มประสิทธิภาพ 10-15 เปอร์เซ็นต์ทุกปี ถือเป็นอาการที่น่าตกใจมากกว่าอาการให้กำลังใจ เป็นไปได้มากว่าการเพิ่มขึ้นดังกล่าวจะได้มาจากการเพิ่มความถี่สัญญาณนาฬิกาเป็นหลัก และหลังจากนั้นจะมีการปรับปรุงสถาปัตยกรรมจุลภาคใหม่บางส่วนเท่านั้น

กล่าวอีกนัยหนึ่งความสำเร็จของสถาปัตยกรรมไมโคร Bulldozer ในรูปแบบปัจจุบันจะมีผลกระทบอย่างเด็ดขาดต่อตำแหน่งในอนาคตของ AMD ต่อความสามารถในการแข่งขันของผลิตภัณฑ์และท้ายที่สุดต่อสถานการณ์โดยรวมในตลาดโปรเซสเซอร์

แน่นอนว่าปฏิเสธไม่ได้ว่า Bulldozer สำหรับ AMD ไม่ใช่ผลิตภัณฑ์หลักเพียงอย่างเดียว สถาปัตยกรรมไมโครนี้มุ่งเป้าไปที่กลุ่มเดสก์ท็อปและเซิร์ฟเวอร์ประสิทธิภาพสูงในปัจจุบัน ในเวลาเดียวกัน AMD ก็มีข้อเสนออื่นๆ สำหรับกลุ่มตลาดอื่นๆ ตัวอย่างเช่น โปรเซสเซอร์ราคาถูกและคุ้มต้นทุนที่มีสถาปัตยกรรมไมโคร Bobcat หรือ APU ของตระกูล Llano ซึ่งเปิดตัวโดยบริษัทเมื่อต้นปีนี้ ก็มีความสำคัญไม่น้อยสำหรับบริษัท และข้อเสนอเหล่านี้ ตามที่เราเห็นจากผลการทดสอบ ถือเป็นโซลูชันที่ประสบความสำเร็จซึ่งสามารถทำหน้าที่เป็นทั้งโซลูชันสำหรับเน็ตบุ๊กและเน็ตท็อปได้อย่างเพียงพอ และเป็นพื้นฐานสำหรับแพลตฟอร์มบูรณาการในช่วงราคากลาง

อย่างไรก็ตาม ความสำเร็จหรือความล้มเหลวของ Bulldozer มีผลกระทบที่สำคัญกว่ามาก ประการแรก สถาปัตยกรรมไมโครนี้กำหนดเป้าหมายกลุ่มตลาดที่มีอัตรากำไรสูงกว่ามาก - เซิร์ฟเวอร์และระบบการผลิตเดสก์ท็อป ดังนั้นจึงสามารถส่งผลกระทบที่รุนแรงยิ่งขึ้นต่อสถานะทางการเงินของ AMD ประการที่สองความสำเร็จ โปรเซสเซอร์เอเอ็มดีซีรีส์ C, E และ A - ตรงไปตรงมานี้ไม่ได้เป็นข้อดีของวิศวกรที่เกี่ยวข้องในการพัฒนาการออกแบบไมโครโปรเซสเซอร์เลย ความสำเร็จในตลาดของซีพียูเหล่านี้ (หรือ APU หากเรายึดติดกับคำศัพท์ของ AMD) เกิดจากการมีคอร์กราฟิกของตระกูล Radeon HD ซึ่งพบทางเข้าสู่โปรเซสเซอร์ AMD ด้วยการซื้อ ATI ในเวลาที่เหมาะสม Bulldozer เป็นข้อสอบประเภทหนึ่งสำหรับทีมวิศวกรที่ทำงานเกี่ยวกับสถาปัตยกรรมไมโครของแกนประมวลผลโดยเฉพาะ และประการที่สาม Bulldozer จะกลายเป็นพื้นฐานของโปรเซสเซอร์ AMD ทั้งหมดในที่สุด ยกเว้นโซลูชันสำหรับแพลตฟอร์มประหยัดพลังงาน ดังนั้น ท้ายที่สุดแล้ว สถาปัตยกรรมไมโครนี้จะมาสู่กลุ่มตลาดระดับล่าง โดยแทนที่ K10 เกือบทุกที่ รวมถึงโปรเซสเซอร์ Llano



กล่าวโดยย่อ แทบจะเป็นไปไม่ได้เลยที่จะประเมินค่าสูงเกินไปถึงความสำคัญของการเปิดตัวโปรเซสเซอร์ที่ประสบความสำเร็จด้วยสถาปัตยกรรมไมโคร Bulldozer นี่เป็นผลิตภัณฑ์ที่โดดเด่นทั้งในระดับอารมณ์และวัตถุ ดังนั้นฉันจึงอยากให้เราได้เห็น K7 หรือ K8 ใหม่ในความเป็นจริง

แต่ก่อนการทดสอบเราสามารถพูดได้ว่าโอกาสที่ปรากฏการณ์ดังกล่าวจะเกิดขึ้นซ้ำนั้นมีน้อย Intel เองช่วยให้ AMD ยึดฝ่ามือเป็นครั้งสุดท้ายโดยพยายามส่งเสริมให้ห่างไกลจากสถาปัตยกรรมไมโคร NetBurst ในอุดมคติ จากนั้นวิศวกรของ Intel ก็มุ่งเน้นไปที่การเพิ่มความเร็วสัญญาณนาฬิกา ซึ่งท้ายที่สุดก็พบกับอุปสรรคในรูปแบบของกระแสรั่วไหลขนาดมหึมา ในขณะที่ AMD เสนอสถาปัตยกรรมไมโครที่สมดุลมากขึ้นโดยมีเป้าหมายเพื่อดำเนินการคำสั่งเพิ่มเติมต่อรอบสัญญาณนาฬิกา แต่หลังจากที่ Intel ปรับปรุงหลักคำสอนของตนและเปิดตัว Core microarchitecture ใหม่ ซึ่งมีเป้าหมายเพื่อดำเนินการตามจำนวนคำสั่งสูงสุดต่อรอบสัญญาณนาฬิกา AMD ก็กลับไปสู่ตำแหน่งที่ล้าหลังเช่นที่เคยเป็นมาจนถึงขณะนี้

เห็นได้ชัดว่าเป็นเรื่องยากมากที่จะเหนือกว่าโปรเซสเซอร์ Intel สมัยใหม่ในแง่ของจำนวนคำสั่งที่ดำเนินการต่อรอบสัญญาณนาฬิกา สถาปัตยกรรมไมโคร Sandy Bridge ในปัจจุบันเป็นผลมาจากวงจรการปรับให้เหมาะสมอย่างน้อยสามรอบของการออกแบบที่มีประสิทธิภาพโดยเนื้อแท้ ดังนั้นเราจึงไม่สามารถคาดหวังประสิทธิภาพคอร์เฉพาะที่สูงกว่าจาก AMD ได้อีก ยิ่งกว่านั้นวิศวกรของ AMD ไม่ได้ตั้งเป้าหมายดังกล่าวด้วยตนเองด้วยซ้ำ

แนวคิดหลักของ Bulldozer อยู่ที่อื่น ตามที่นักพัฒนาระบุว่าโปรเซสเซอร์ที่สร้างขึ้นบนสถาปัตยกรรมไมโครนี้ควรแสดงประสิทธิภาพที่ดีเนื่องจากมีความเร็วสัญญาณนาฬิกาสูงและแกนประมวลผลในจำนวนที่มากกว่าคู่แข่งและรุ่นก่อน ในเวลาเดียวกันพวกเขาควรจะยังคงทำกำไรได้ค่อนข้างมากในการผลิตนั่นคือพวกเขาไม่ควรมีคริสตัลเซมิคอนดักเตอร์ขนาดใหญ่เกินไปและไม่แสดงการกระจายความร้อนสูงเกินไปในแง่ของแกนแต่ละตัว

ความลับในการออกแบบ Multi-Core ของ AMD

ค่อนข้างชัดเจนว่าการเพิ่มจำนวนคอร์โปรเซสเซอร์ย่อมส่งผลให้พื้นที่ของชิปโปรเซสเซอร์เพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้ ส่งผลให้ทั้งความซับซ้อนในการผลิตและต้นทุนของผลิตภัณฑ์ขั้นสุดท้ายเพิ่มขึ้น ตัวอย่างเช่นในปัจจุบันมีการใช้โปรเซสเซอร์ที่มีจำนวนแกนประมวลผลสูงสุดในกลุ่มตลาดเซิร์ฟเวอร์เท่านั้น - ลูกค้าองค์กรยินดีจ่ายเงินมากกว่าผู้ใช้แต่ละราย หลักสูตรที่ AMD เลือกเพื่อเพิ่มจำนวนคอร์ในขณะที่รักษาต้นทุนที่ยอมรับได้ของโปรเซสเซอร์ที่ได้จะต้องควบคู่ไปกับการลดความซับซ้อนของคอร์เอง อย่างไรก็ตาม ในทางกลับกัน การลดความซับซ้อนของเคอร์เนลทำให้เกิดผลที่ไม่พึงประสงค์ - ประสิทธิภาพลดลงในแอปพลิเคชันที่มีโหลดแบบขนานเล็กน้อย ซึ่งยังมีจำนวนเพียงพอในขณะนี้

ดังนั้นวิศวกรของ AMD จึงเดินตามแนวทางของตนเอง สถาปัตยกรรมไมโครของแต่ละคอร์มีความซับซ้อนมากขึ้น โดยเพิ่มจำนวนคำสั่งที่ดำเนินการต่อหนึ่งสัญญาณนาฬิกาทุกครั้งที่เป็นไปได้



แต่มีการตัดสินใจที่จะเป็นส่วนหนึ่งของทรัพยากรที่โดยปกติจะมีอยู่ในแต่ละคอร์ แต่ในขณะเดียวกันก็มีประสิทธิภาพมากเกินไป โดยแบ่งใช้ระหว่างคู่ของคอร์ประมวลผล



การประกอบแบบดูอัลคอร์ที่ได้นั้นกลายเป็นองค์ประกอบพื้นฐานสำหรับโปรเซสเซอร์ Bulldozer โหนดดังกล่าวเรียกว่าโมดูลในคำศัพท์เฉพาะของ AMD โดยมีแอคทูเอเตอร์จำนวนเต็มสองชุด แต่ในขณะเดียวกัน หน่วยทศนิยม อุปกรณ์ดึงคำสั่งล่วงหน้าและถอดรหัส รวมถึงแคชระดับที่สองมีอยู่ในสำเนาเดียวสำหรับสองสามคอร์ และแบ่งปันทรัพยากรระหว่างกัน ตามการประมาณการของนักพัฒนา พลังขององค์ประกอบเหล่านี้เพียงพอสำหรับสองคอร์ เนื่องจากเมื่อให้บริการคอร์เดียวในชีวิตจริง มักจะไม่ได้ใช้งาน นอกจากนี้ ความล่าช้าในการดำเนินงานอย่างต่อเนื่องไม่มีผลกระทบร้ายแรงต่อประสิทธิภาพการทำงานที่เกิดขึ้น

จากข้อมูลของ AMD นั้นเอง โมดูลดูอัลคอร์หนึ่งโมดูลที่ได้รับการออกแบบในลักษณะที่อธิบายไว้นั้นสามารถส่งมอบประสิทธิภาพได้มากถึง 80% ของโปรเซสเซอร์ดูอัลคอร์ที่มีคุณสมบัติครบถ้วน ในเวลาเดียวกันการประหยัดงบประมาณของทรานซิสเตอร์ (และดังนั้นในพื้นที่ของคริสตัลเซมิคอนดักเตอร์) ถึง 44%

ต้องขอบคุณการบีบอัดคอร์อันชาญฉลาดนี้ AMD จึงสามารถรวมการออกแบบแปดคอร์ (หรือโมดูลสี่โมดูล) เข้ากับการออกแบบพื้นฐานของแม่พิมพ์เซมิคอนดักเตอร์ Bulldozer



นอกจากนี้ ส่วนที่สำคัญพอสมควรของคริสตัลยังถูกมอบให้กับหน่วยความจำแคชอีกด้วย แคชระดับที่สองที่ใช้ร่วมกันระหว่างคู่คอร์ภายในโมดูลโปรเซสเซอร์แต่ละตัว มีความจุ 2 MB และหน่วยความจำแคช L3 ทั้งหมดสำหรับโปรเซสเซอร์ทั้งหมดคือ 8 MB ดังนั้นเมื่อคำนึงถึงการจัดระเบียบแคชพิเศษของ AMD แบบดั้งเดิมเราสามารถพูดได้ว่าปริมาณรวมของมันคือ 16 MB ต่อโปรเซสเซอร์แปดคอร์ ในเวลาเดียวกัน พื้นที่ของคริสตัลเซมิคอนดักเตอร์ Bulldozer ยังคงอยู่ภายในขอบเขตที่ยอมรับได้ ดังนั้นนักพัฒนา AMD จึงบรรลุเป้าหมายอย่างเต็มที่



ในจำนวนสัมบูรณ์ หมายความว่ารถปราบดินแบบ 8 คอร์จะมีดายเซมิคอนดักเตอร์ที่เล็กกว่า ตัวอย่างเช่น โปรเซสเซอร์ Thuban แบบ 6 คอร์ (Phenom II X6) ที่สร้างขึ้นบนสถาปัตยกรรมไมโคร K10 อย่างไรก็ตาม โปรดทราบว่า Bulldozer จะถูกผลิตโดยใช้กระบวนการทางเทคนิคขั้นสูงกว่าด้วยมาตรฐาน 32 นาโนเมตร เมื่อเปรียบเทียบกับ Intel Sandy Bridges แบบ quad-core ที่ทันสมัย ​​โปรเซสเซอร์ 8-core ใหม่ของ AMD จะมีพื้นที่ดายเพิ่มขึ้นเพียง 45%

อย่างไรก็ตาม โปรเซสเซอร์ Sandy Bridge แบบ Quad-Core ที่รองรับเทคโนโลยี Hyper-Threading เช่นเดียวกับ Bulldozer สามารถนำเสนอต่อระบบปฏิบัติการเป็นโปรเซสเซอร์แปดคอร์ได้ สิ่งนี้จะก่อให้เกิดข้อโต้แย้งเกี่ยวกับความถูกต้องตามกฎหมายในการเรียกโปรเซสเซอร์แปดคอร์แบบเต็มตัวของ Bulldozer อย่างไรก็ตาม ควรเข้าใจว่า AMD และ Intel ได้รับอนุญาตให้ประมวลผลเธรดการประมวลผลแปดเธรดพร้อมกันในรูปแบบที่แตกต่างกัน นักพัฒนาของ Intel ได้ยึดติดกับสถาปัตยกรรมไมโครของตนแล้ว คุณลักษณะเพิ่มเติมอนุญาตให้สองเธรดทำงานภายในคอร์เดียวบนชุดการดำเนินการชุดเดียว ในทางตรงกันข้าม AMD ตัดส่วน "พิเศษ" ออกจากคอร์ที่เต็มเปี่ยมสองตัว แต่มีแอคทูเอเตอร์เพียงสองชุดในแต่ละโมดูล



เป็นผลให้เทคโนโลยี Hyper-Threading ของ Intel เพิ่มประสิทธิภาพแบบมัลติเธรดเพียง 15-20% ในขณะที่โซลูชันของ AMD ให้ประสิทธิภาพเพิ่มขึ้น 80% เมื่อย้ายจาก 4 เป็น 8 เธรด

แม้ว่าแน่นอนว่าคริสตัลเซมิคอนดักเตอร์ของ Bulldozer แปดคอร์เนื่องจากโครงสร้างแบบโมดูลาร์จึงคล้ายกับ Quad-Core มาก


คำแนะนำเพิ่มเติมต่อรอบ?

การเพิ่มจำนวนแกนประมวลผลเพียงอย่างเดียวจะไม่ช่วยให้คุณไปได้ไกล สิ่งนี้ชัดเจนแม้หลังจากการเปิดตัวโปรเซสเซอร์ Phenom II X6 แบบหกคอร์ซึ่งโดยทั่วไปแล้วมีประสิทธิภาพด้อยกว่า Sandy Bridge แบบ quad-core ดังนั้นนักพัฒนาของ AMD จึงไม่ได้จำกัดตัวเองอยู่เพียงการเปลี่ยนแปลงการออกแบบอย่างกว้างขวางเท่านั้น สถาปัตยกรรมไมโครพื้นฐานของ Bulldozer เมื่อเปรียบเทียบกับ K10 ได้รับการออกแบบใหม่น้อยกว่าทั้งหมดเล็กน้อย ซึ่งให้ความหวังในการเร่งการทำงานของระบบบนโปรเซสเซอร์ AMD ไม่เพียงแต่ในงานแบบมัลติเธรดเท่านั้น แต่ยังรวมถึงแอปพลิเคชันที่มีความขนานในระดับต่ำด้วย ยิ่งกว่านั้น ความหวังเหล่านี้ขึ้นอยู่กับสถานการณ์ที่เป็นรูปธรรมโดยสมบูรณ์ ในขณะที่สถาปัตยกรรมไมโครของ AMD ก่อนหน้านี้ได้รับการออกแบบให้ดำเนินการสามคำสั่งต่อนาฬิกา (บนหนึ่งคอร์) สถาปัตยกรรมไมโคร Bulldozer ถือว่าการประมวลผลสี่คำสั่งต่อนาฬิกา และมีลักษณะนี้ใกล้เคียงกับโปรเซสเซอร์ของคู่แข่งที่มีสถาปัตยกรรมไมโครคอร์มากกว่า

การเปลี่ยนแปลงเชิงคุณภาพสามารถตรวจสอบได้ตั้งแต่ขั้นตอนแรกของไปป์ไลน์การดำเนินการ - จากขั้นตอนของการดึงข้อมูลล่วงหน้าและคำแนะนำในการถอดรหัส ขั้นตอนเหล่านี้เป็นเรื่องปกติสำหรับคู่คอร์ภายในโมดูลเดียว ดังนั้น AMD จึงใช้ความระมัดระวังเป็นพิเศษเพื่อให้แน่ใจว่าจะไม่กลายเป็นคอขวดของสถาปัตยกรรมไมโคร คำแนะนำจะถูกดึงมาจากแคช L1I สำหรับการถอดรหัสในบล็อกขนาด 32 ไบต์ ซึ่งใหญ่เป็นสองเท่าของโปรเซสเซอร์ที่มี Core microarchitecture (รุ่นที่สอง) แคชคำสั่งระดับแรกนั้นมีความจุ 64 KB และการเชื่อมโยงสองช่องทาง คำแนะนำสำหรับการถอดรหัสจะถูกโหลดจากแคชระดับที่สองล่วงหน้า

บล็อกการทำนายสาขาซึ่งเกี่ยวข้องโดยตรงในกระบวนการสุ่มตัวอย่างมากที่สุด ประกอบด้วยบัฟเฟอร์สองชุดที่ตรวจสอบกิจกรรมของคอร์ที่แตกต่างกันอย่างอิสระ ดังนั้นเมื่อทำนายผลลัพธ์ของสาขาเชิงตรรกะ Bulldozer จะไม่สับสนระหว่างเธรด เนื่องจากสถาปัตยกรรมไมโครใหม่มีเป้าหมายในการทำงานที่ความเร็วสัญญาณนาฬิกาสูง คุณภาพของหน่วยทำนายสาขาจึงมีความสำคัญสูงสุด ดังนั้นอัลกอริธึมที่ใช้ในนั้นจึงได้รับการออกแบบใหม่ทั้งหมด และ AMD หวังว่าประสิทธิภาพของการทำนายสาขาของ Bulldozer จะดีขึ้น



ตัวถอดรหัสคำสั่ง x86 ของ Bulldozer ยังแบ่งทรัพยากรออกเป็นสองคอร์ และสามารถถอดรหัสคำสั่งขาเข้าได้สูงสุด 4 คำสั่งต่อรอบสัญญาณนาฬิกา อย่างไรก็ตาม ประสิทธิภาพการทำงานนั้นจำกัดอยู่เพียงการออกคำสั่งมาโครเพียงสี่คำสั่ง (เป็นผลมาจากการถอดรหัสตามเงื่อนไขของ AMD) ในขณะที่คำสั่ง x86 สามารถแบ่งออกเป็นคำสั่งมาโคร 1-2 คำสั่งหรือมากกว่านั้นได้ ดังนั้น แม้ว่าตัวถอดรหัสจะเพิ่มประสิทธิภาพขึ้นถึงหนึ่งในสามเมื่อเทียบกับสถาปัตยกรรมไมโครรุ่นก่อนหน้า แต่ความเร็วของมันอาจไม่เพียงพอ เนื่องจากได้รับมอบหมายให้สนับสนุนคลัสเตอร์การคำนวณจำนวนเต็มสองตัวและหนึ่งคลัสเตอร์

ควรสังเกตว่ามีการใช้อะนาล็อกบางอย่างของเทคโนโลยีฟิวชั่นคำสั่งมาโครฟิวชั่นใน Bulldozer ด้วย คำสั่ง x86 บางกลุ่มสามารถรวมกันเป็นคำสั่งเดียวและส่งผ่านตัวถอดรหัสเป็นคำสั่งเดียว - AMD เรียกสิ่งนี้ว่า Branch Fusion

คำแนะนำมาโครที่ถอดรหัสแล้วจะถูกกระจายออกเป็นสามกลุ่มการประมวลผล โดยสองกลุ่มในนั้นเป็นแกนประมวลผลเต็มรูปแบบที่เหลืออยู่ และอีกกลุ่มหนึ่งเป็นตัวเลขจริง ที่ใช้ร่วมกันระหว่างแกนประมวลผล แต่ละคลัสเตอร์เหล่านี้มีตรรกะการเรียงลำดับคำสั่งใหม่และตัวกำหนดเวลาของตัวเอง เห็นได้ชัดว่า AMD ยังคงรักษาความสามารถในการทดแทนหรือเสริมคลัสเตอร์เหล่านี้บางส่วนในผลิตภัณฑ์ในอนาคตได้อย่างสมบูรณ์

การเรียงลำดับคำสั่งใหม่ในแต่ละคลัสเตอร์จะขึ้นอยู่กับการใช้ไฟล์รีจิสเตอร์จริง ซึ่งจัดเก็บการอ้างอิงถึงเนื้อหาของรีจิสเตอร์ และลดความจำเป็นในการถ่ายโอนข้อมูลอย่างต่อเนื่องภายในโปรเซสเซอร์เมื่อจัดเรียงลำดับคำสั่งใหม่ วิธีการนี้ได้แทนที่บัฟเฟอร์การเรียงลำดับใหม่แทน เนื่องจากไฟล์รีจิสเตอร์ทางกายภาพไม่เพียงแต่มีประสิทธิภาพมากขึ้นในแง่ของการใช้พลังงาน แต่ยังเป็นผลดีต่อการเพิ่มความเร็วสัญญาณนาฬิกาของโปรเซสเซอร์อีกด้วย

คลัสเตอร์จำนวนเต็มประกอบด้วยหน่วยดำเนินการทางคณิตศาสตร์ (ALU) สองหน่วย และหน่วยที่อยู่หน่วยความจำ (AGU) สองหน่วย เมื่อเปรียบเทียบกับสถาปัตยกรรมไมโคร K10 จำนวนอุปกรณ์ลดลงหนึ่ง ALU และหนึ่ง AGU แต่ AMD รับรองว่าสิ่งนี้จะไม่ลดประสิทธิภาพลงอย่างมาก แต่พื้นที่หลักจะช่วยประหยัดได้มาก เราเชื่ออย่างพร้อมเพรียงว่าการมี ALU และ AGU มากกว่าสองตัวในแต่ละคลัสเตอร์จำนวนเต็มนั้นไม่สมเหตุสมผลในทางปฏิบัติ เนื่องจากตัวถอดรหัสสามารถส่งคำสั่งมาโครได้ไม่เกินสี่คำสั่งต่อรอบสัญญาณนาฬิกาเพื่อดำเนินการกับทั้งสองคลัสเตอร์



ในเวลาเดียวกันแอคชูเอเตอร์ได้กลายเป็นสากลมากขึ้นโดยแทบไม่มีความแตกต่างในด้านการทำงาน

การจัดระเบียบของระบบย่อยหน่วยความจำแคชมีการเปลี่ยนแปลงอย่างมาก แคช L1D ลดลงจาก 64 เป็น 16 KB และรวมการเขียนผ่านแล้ว ในเวลาเดียวกัน การเชื่อมโยงของมันเพิ่มขึ้นเป็น 4 ช่องทาง นอกเหนือจากการเพิ่ม "ตัวทำนายเส้นทาง" การลดขนาดของแคชข้อมูลระดับแรกได้รับการชดเชยด้วยปริมาณงานที่เพิ่มขึ้นอย่างมาก ขณะนี้ สามารถให้บริการการดำเนินการ 128 บิตได้สูงสุดสามครั้งพร้อมกัน: การอ่านสองครั้งและการเขียนหนึ่งครั้ง

เห็นได้ชัดว่าการเปลี่ยนแปลงในแบนด์วิดท์แคช L1D ส่วนใหญ่เกี่ยวข้องกับความจำเป็นในการใช้คำสั่ง AVX 256 บิตในสถาปัตยกรรมไมโคร ซึ่งการสนับสนุนที่ปรากฏในหน่วย FPU ที่ใช้ร่วมกันระหว่างคอร์ อย่างไรก็ตาม นี่ไม่ได้หมายความว่าแอคชูเอเตอร์จำนวนจริงกลายเป็น 256 บิต ในความเป็นจริง โมดูล Bulldozer มีอุปกรณ์ 128 บิตสองตัว และคำสั่ง AVX จะถูกถอดรหัสเป็นคู่คำสั่ง 128 บิตที่เชื่อมโยงกัน ดังนั้น ในการดำเนินการ อุปกรณ์ FMAC (จุดลอยตัวทวีคูณสะสม) จะถูกรวมเข้าด้วยกัน และประสิทธิภาพของคลัสเตอร์ที่มีหมายเลขจริงจะลดลงเหลือหนึ่งคำสั่ง AVX ต่อโมดูลโปรเซสเซอร์ต่อรอบสัญญาณนาฬิกา



FPU ไม่มีแคชระดับแรกของตัวเอง ดังนั้นคลัสเตอร์นี้จึงทำงานกับข้อมูลผ่านอุปกรณ์จำนวนเต็ม

เนื่องจากวิศวกรของ AMD ได้ดำเนินการสนับสนุนคำสั่ง AVX ที่เสนอโดย Intel แล้ว ชุดที่เกี่ยวข้องอื่น ๆ ได้ถูกเพิ่มเข้าไปในโปรเซสเซอร์ Bulldozer: คำสั่ง SSE4.2 และ AESNI ที่มุ่งเร่งการดำเนินการเข้ารหัส นอกจากนี้ AMD ยังแนะนำคำสั่งบางอย่างของตัวเอง: FMA4 การคูณสามตัวถูกดำเนินการและการบวกและวิสัยทัศน์ของตัวเองในการพัฒนา AVX - XOP เพิ่มเติม



แคช L2 ใน Bulldozer ถูกแชร์ภายในโมดูลโปรเซสเซอร์และแชร์ระหว่างคอร์ ความจุของมันคือ 2 MB ที่น่าประทับใจและการเชื่อมโยงของมันคือ 16 ช่อง อย่างไรก็ตามเวลาแฝงของการทำงานของแคชตามรูปแบบนี้เพิ่มขึ้นเป็น 18-20 รอบแม้ว่าความกว้างของบัสจะยังคงเท่าเดิม - 128 บิตก็ตาม ซึ่งหมายความว่าแคช L2 ใน Bulldozer แม้ว่าจะมีขนาดใหญ่ แต่ก็ไม่เร็วมากนัก โปรเซสเซอร์ที่แข่งขันกันและรุ่นก่อนหน้าเสนอแคช L2 โดยมีเวลาแฝงประมาณครึ่งหนึ่ง เมื่อรวมกับแคช L1D ขนาดเล็กที่มีเวลาแฝง 4 รอบ (ซึ่งมากกว่าในสถาปัตยกรรมไมโคร K10 ด้วย) ทั้งหมดนี้ดูไม่น่าสนับสนุนนัก อย่างไรก็ตาม AMD อ้างว่าเวลาแฝงของแคชเพิ่มขึ้นเพียงเพื่อให้ Bulldozer สามารถทำงานที่ความเร็วสัญญาณนาฬิกาสูงได้



นอกจากนี้ วิศวกรของ AMD ยังได้ติดตั้งหน่วยดึงข้อมูลล่วงหน้าที่มีประสิทธิภาพ ซึ่งออกแบบมาเพื่อโหลดข้อมูลที่จำเป็นลงในแคชระดับที่หนึ่งและสองล่วงหน้า กล่าวกันว่าประสิทธิภาพของบล็อกเหล่านี้ได้รับการปรับปรุงแล้ว และตอนนี้ยังสามารถจดจำโครงสร้างข้อมูลที่ไม่สม่ำเสมอได้อีกด้วย

ตามทฤษฎีแล้ว Bulldozer สร้างความประทับใจได้ดี AMD ได้แก้ไขแนวทางเก่าสำหรับสถาปัตยกรรมไมโครโปรเซสเซอร์อย่างสมบูรณ์ และนำการออกแบบที่ออกแบบใหม่ทั้งหมดไปใช้ ซึ่งเมื่อดูแวบแรกก็ดูมีแนวโน้มมากเพราะสถาปัตยกรรมไมโครใหม่ได้รับการปรับให้เหมาะสมสำหรับการดำเนินการสี่คำสั่งแทนที่จะเป็นสามคำสั่งต่อรอบสัญญาณนาฬิกาบนคอร์โปรเซสเซอร์ตัวเดียว นอกจากนี้ยังรองรับการรวมคำสั่งมาโครระหว่างกระบวนการถอดรหัส ซึ่งจะช่วยเพิ่มประสิทธิภาพการทำงานเฉพาะเจาะจงยิ่งขึ้น

แต่ทุกอย่างดูดีตราบใดที่เราดูนิวเคลียสเพียงอันเดียวและอย่าคิดว่าในความเป็นจริงนิวเคลียสดังกล่าวรวมกันเป็นคู่ และโมดูล Bulldozer แบบดูอัลคอร์นั้นมีชิ้นส่วนทั่วไปมากเกินไปสำหรับคอร์สองสามคอร์ โดยเฉพาะอย่างยิ่ง เนื่องจากโมดูลดังกล่าวมีหน่วยดึงคำสั่งเพียงชุดเดียวและตัวถอดรหัสหนึ่งชุด จำนวนคำสั่งสูงสุดที่ดำเนินการต่อรอบสัญญาณนาฬิกาจึงยังคงเท่ากับสี่ชุดสำหรับชุดประกอบแบบดูอัลคอร์ทั้งหมด ซึ่งหมายความว่าตรรกะที่เทียบเท่าสำหรับแกน Sandy Bridge เดี่ยวในแง่ของประสิทธิภาพทางทฤษฎีคือโมดูล ไม่ใช่แกน Bulldozer ความสามารถของโมดูลในการรันสองเธรดในกรณีนี้ดูเหมือนว่าการตอบสนองเชิงตรรกะอย่างสมบูรณ์จาก AMD ถึงเทคโนโลยี Hyper-Threading

แน่นอนว่าการทดสอบโปรเซสเซอร์จริงของเราจะทำให้ทุกอย่างเข้าที่ แต่เมื่ออยู่ในขั้นตอนของการพิจารณาสถาปัตยกรรมไมโครแล้ว เราถูกบังคับให้คิดว่าการวางตำแหน่ง Bulldozer เป็นโปรเซสเซอร์แปดคอร์ที่เต็มเปี่ยมนั้นเป็นวิธีการทางการตลาด การประเมินความสามารถในการประมวลผลที่เชื่อถือได้มากขึ้นของโปรเซสเซอร์เหล่านี้ควรขึ้นอยู่กับจำนวนโมดูลซึ่งจากมุมมองของประสิทธิภาพทางทฤษฎีนั้นเทียบเคียงได้อย่างสมบูรณ์แบบกับคอร์ที่สร้างจาก Intel Core microarchitecture รุ่นที่สอง

ในเรื่องนี้มีคำถามเชิงตรรกะอย่างสมบูรณ์ - เหตุใด AMD ถึงต้องกังวลกับการใช้งานการประมวลผลแบบดูอัลเธรดภายในโมดูลโปรเซสเซอร์เดียว เหตุใดจึงไม่สามารถรวมแอคทูเอเตอร์ที่กระจายอยู่บนคอร์สองคอร์เข้าไว้ในคลัสเตอร์เดียวไม่ได้ มีหลายสาเหตุนี้.

ประการแรก เพื่อที่จะโหลดแอคชูเอเตอร์จำนวนมากพร้อมๆ กัน ในกรณีทั่วไป จำเป็นต้องใช้ตรรกะภายในโปรเซสเซอร์ขั้นสูง เห็นได้ชัดว่า AMD ไม่สามารถใช้การทำนายสาขาและคำสั่งที่มีประสิทธิภาพสูง รวมถึงหน่วยการดึงข้อมูลล่วงหน้าในสถาปัตยกรรมไมโคร Bulldozer ดังนั้นงานการทำงานแบบขนานและการใช้อุปกรณ์ดำเนินการให้เกิดประโยชน์สูงสุดจึงถูกย้ายไปที่ผู้ผลิตซอฟต์แวร์ซึ่งจะต้องจัดหาผลิตภัณฑ์ที่รองรับมัลติเธรดสำหรับ Bulldozer

ประการที่สองการเพิ่มจำนวนเธรดที่ดำเนินการพร้อมกันนั้นไม่ได้แย่นัก หากสำหรับผู้ใช้เดสก์ท็อปและโดยเฉพาะอย่างยิ่งนักเล่นเกม Bulldozer core แปดคอร์ที่ค่อนข้างเรียบง่ายไม่ได้รับประกันข้อได้เปรียบใด ๆ ดังนั้นในแอปพลิเคชันเซิร์ฟเวอร์สถาปัตยกรรมไมโครดังกล่าวควรได้รับการตอบสนองเป็นอย่างดี ดังนั้นจึงค่อนข้างเป็นไปได้ที่เป้าหมายหลักในการพัฒนา Bulldozer ไม่ใช่เพื่อตอบสนองแรงบันดาลใจของผู้ที่ชื่นชอบ แต่เพื่อฟื้นฟูตำแหน่งของ AMD ในตลาดเซิร์ฟเวอร์

Turbo Core ยิ่งกว่าเทอร์โบอีก

ประสิทธิภาพการใช้พลังงานเป็นหนึ่งใน ลักษณะที่สำคัญที่สุดโปรเซสเซอร์ที่ทันสมัย ตัวอย่างเช่นในพวกเขา สถาปัตยกรรมไมโครในอนาคต Intel ให้ความสำคัญกับการลดการใช้พลังงานเกือบเป็นอันดับแรก AMD ยังไม่ถึงจุดนี้ วิศวกรของ บริษัท นี้ต่อสู้เพื่อประสิทธิภาพเป็นหลัก แต่นี่ไม่ได้หมายความว่านักพัฒนาไม่สนใจเกี่ยวกับคุณลักษณะด้านความร้อนและพลังงานของ Bulldozer เลย ในทางตรงกันข้าม หลังจากติดตาม Llano แนวทางพื้นฐานใหม่ในการเพิ่มประสิทธิภาพการใช้พลังงานได้ค้นพบหนทางสู่โปรเซสเซอร์ Bulldozer อย่างไรก็ตาม ในกรณีนี้ วิศวกรใช้ศักยภาพในการปล่อยอิสระไม่มากนักเพื่อประหยัดเงิน แต่เพื่อบีบประสิทธิภาพเพิ่มเติมโดยการเพิ่มความถี่สัญญาณนาฬิกา

แน่นอนว่าเทคโนโลยีการผลิตใหม่ได้นำมาซึ่งการปรับปรุงบางประการในแง่ของการใช้พลังงานและการกระจายความร้อน Bulldozer ใช้เทคโนโลยีการผลิตขนาด 32 นาโนเมตรโดยใช้วัสดุอิเล็กทริกสูง ทรานซิสเตอร์ประตูโลหะ และเทคโนโลยี SOI กล่าวอีกนัยหนึ่ง นี่เป็นกระบวนการทางเทคนิคของ GlobalFoundries แบบเดียวกับที่ผลิตโปรเซสเซอร์ Llano ขอบคุณ เทคโนโลยีใหม่ด้วยมาตรฐาน 32 นาโนเมตร แรงดันไฟฟ้าในการทำงานของโปรเซสเซอร์ Bulldozer 8 คอร์อนุกรมจะต้องไม่เกิน 1.4 V

อย่างไรก็ตาม นวัตกรรมหลักที่ส่งต่อจาก Llano สู่ Bulldozer คือทรานซิสเตอร์พาวเวอร์เกต ซึ่งออกแบบมาเพื่อตัดไฟจากบางส่วนของโปรเซสเซอร์ ใน Bulldozer ช่วยให้คุณสามารถลดแรงดันไฟฟ้าจากโมดูลดูอัลคอร์แต่ละตัวและจากหน่วยความจำแคชได้อย่างอิสระ



เมื่อแกนประมวลผลทั้งสองแกนในโมดูลเข้าสู่สถานะประหยัดพลังงาน C6 โมดูลจะถูกยกเลิกพลังงาน น่าเสียดายที่เทคโนโลยีนี้ไม่สามารถนำไปใช้กับแกนประมวลผลได้เนื่องจาก Bulldozer ไม่มีแกนเฉพาะเฉพาะ - พวกเขาแบ่งปันทรัพยากรบางส่วนกับเพื่อนบ้านโมดูลของพวกเขา

สถานะการประหยัดพลังงานของแกน C6 ได้รับการควบคุมด้วยเทคโนโลยี Bulldozer และ Turbo Core ในช่วงเวลาที่โมดูลโปรเซสเซอร์ Bulldozer อย่างน้อยครึ่งหนึ่งอยู่ในสถานะปิดการประหยัดพลังงาน โมดูลดังกล่าวจะเพิ่มแรงดันไฟฟ้าและความถี่สัญญาณนาฬิกา โหมดการทำงานแบบบังคับนี้เรียกว่า Max Turbo Boost

อย่างไรก็ตาม Max Turbo Boost ไม่ใช่ของใหม่ AMD เปิดตัวการโอเวอร์คล็อกอัตโนมัติในโปรเซสเซอร์ Thuban ที่สร้างบนสถาปัตยกรรมไมโคร K10 มีอะไรใหม่จริงๆ คือโหมด All Core Boost ซึ่งความเร็วสัญญาณนาฬิกาสามารถเพิ่มสูงกว่าค่าที่กำหนดได้แม้ว่าแกนประมวลผลทั้งหมดจะทำงานอยู่ก็ตาม Turbo Core เวอร์ชันปรับปรุงที่ใช้ใน Bulldozer ช่วยให้โปรเซสเซอร์สามารถตัดสินการใช้พลังงานและการกระจายความร้อนในทางปฏิบัติได้อย่างแม่นยำ โดยพิจารณาจากข้อมูลเกี่ยวกับภาระงานของบล็อกบางบล็อก ตามการประเมินนี้ หากการกระจายความร้อนในปัจจุบันและการใช้พลังงานต่ำกว่าขีดจำกัดอย่างมาก โปรเซสเซอร์จะสามารถเพิ่มแรงดันไฟจ่ายและความถี่สัญญาณนาฬิกาได้ แม้ว่าจะไม่มีคอร์เดี่ยวอยู่ในสถานะพาสซีฟก็ตาม



ดังนั้นความถี่ในการทำงานของโปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร Bulldozer จึงเป็นค่าที่แปรผันอย่างมาก ขึ้นอยู่กับ “ความรุนแรง” ของอัลกอริธึมที่กำลังดำเนินการและจำนวนแกนประมวลผลที่เกี่ยวข้อง อัลกอริธึมนี้สามารถเปลี่ยนแปลงแบบไดนามิกในช่วงที่กว้างมากถึง 900 MHz

อัปเดตแพลตฟอร์มเดสก์ท็อป

ด้วยการเปิดตัวสถาปัตยกรรมไมโครใหม่ AMD ไม่เพียงแต่ไม่เปลี่ยนการออกแบบของแพลตฟอร์มเท่านั้น แต่ยังรักษาความเข้ากันได้ของโปรเซสเซอร์ Bulldozer กับโครงสร้างพื้นฐานที่มีอยู่อีกด้วย เช่นเดียวกับรุ่นก่อน โปรเซสเซอร์ใหม่จึงมีนอร์ธบริดจ์ในตัว ซึ่งรวมถึงแคชระดับที่สาม ตัวควบคุมหน่วยความจำ และตัวควบคุมบัส Hyper-Transport ในเวลาเดียวกันแม้ว่าโปรเซสเซอร์ AMD และ Intel ที่เพิ่งเปิดตัวใหม่ทั้งหมดจะมีตัวควบคุมบัสกราฟิก PCI Express อยู่ภายใน แต่ Bulldozer ก็ไม่มีสิ่งนี้



เช่นเดียวกับในโปรเซสเซอร์ที่สร้างบนสถาปัตยกรรมไมโคร K10 สะพานเหนือในตัวใน Bulldozer ใช้ความถี่สัญญาณนาฬิกาของตัวเองซึ่งตั้งค่าเป็น 2.0-2.2 GHz สำหรับรุ่นต่างๆ โปรดทราบว่าความถี่นี้มีผลกระทบต่อประสิทธิภาพการทำงาน เนื่องจากความถี่ดังกล่าวส่งผลโดยตรงต่อความเร็วของแคช L3 ซึ่งในโปรเซสเซอร์เวอร์ชันปัจจุบันมีปริมาณเพิ่มขึ้นเป็น 8 MB และมีความเชื่อมโยง 64 แชนเนล ข้อมูลที่จัดเก็บไว้ในแคชนี้ได้รับการปกป้องโดยรหัสแก้ไขข้อผิดพลาด ECC เพื่อตอบสนองความต้องการของผู้ใช้ระดับองค์กร

ตัวควบคุมหน่วยความจำที่ติดตั้งใน Bulldozer ไม่มีความสามารถใหม่โดยพื้นฐาน เหมือนเมื่อก่อน รองรับ DDR3 SDRAM ใช้การออกแบบช่องสัญญาณคู่ และอันที่จริงประกอบด้วยตัวควบคุมช่องสัญญาณเดียวอิสระสองตัวที่สามารถทำงานในโหมดจับคู่หรือโหมดแยกสัญญาณไม่ได้ AMD เพิ่มการรองรับประเภทหน่วยความจำความเร็วสูงเท่านั้น โดยประกาศความเข้ากันได้กับ DDR3-1867 และดูแลความเข้ากันได้กับโมดูลประหยัดพลังงานด้วยแรงดันไฟฟ้าในการทำงาน 1.25 และ 1.35 V

เมื่อพูดถึงการดัดแปลงเดสก์ท็อป Bulldozer ซึ่งมีชื่อรหัสว่า Zambezi ควรสังเกตว่ามันมีเป้าหมายไปที่ใหม่ แพลตฟอร์มซ็อกเก็ต AM3+ หรือที่รู้จักในชื่อรหัสว่า Scorpius โปรเซสเซอร์ เบ้า AM3+ มี 942 พิน ซึ่งมากกว่า Socket AM3 1 พิน แต่ถึงกระนั้น Zambezi ยังคงเข้ากันได้กับบอร์ด Socket AM3 รุ่นเก่า เมื่อติดตั้งโปรเซสเซอร์ใหม่ลงในมาเธอร์บอร์ดเก่า ฟังก์ชันการจัดการพลังงานบางอย่างเท่านั้นที่จะหายไป ดังนั้นความเร็วในการเปลี่ยนความถี่จะลดลงเมื่อเทคโนโลยี Turbo Core และ Cool"n"Quiet ทำงานอยู่และ Vdrop ไม่ทำงาน

อย่างไรก็ตามเมื่อถึงเวลาที่ Zambezi เปิดตัว AMD และผู้ผลิต เมนบอร์ดได้เตรียมกาแล็กซีของผลิตภัณฑ์ใหม่ที่ใช้ชุดลอจิกซีรีส์ 900 ใหม่ โครงสร้างของระบบทั่วไปที่ใช้โปรเซสเซอร์ Zambezi และสร้างขึ้นบนชิปเซ็ตใหม่แสดงอยู่ในแผนภาพบล็อกด้านล่าง


ความแตกต่างระหว่างชิปเซ็ต AMD 990FX ใหม่ (และเวอร์ชันที่เรียบง่ายของ AMD 990X และ AMD 970) นั้นมีไว้เพื่อรองรับคุณสมบัติทางไฟฟ้าเฉพาะของ Socket AM3+ เท่านั้น และไม่ได้นำอินเทอร์เฟซใหม่ใดๆ ไปด้วย เช่นเดียวกับชิปเซ็ตซีรีส์ 800 สะพานทางใต้ใหม่มีพอร์ต SATA 6 Gbps หกพอร์ต และพอร์ต USB 2.0 สิบสี่พอร์ต ไม่ว่าเราต้องการเห็นการสนับสนุนสำหรับข้อกำหนด PCI Express 3.0 หรือที่แย่ที่สุดก็คือพอร์ต USB 3.0 ในชุดลอจิกระบบใหม่ ในครั้งนี้ก็ไม่มีอะไรประเภทนั้นเช่นกัน นี่เป็นเรื่องแปลกมากเนื่องจากมีการแนะนำการรองรับ USB 3.0 ในชิปเซ็ตสำหรับแพลตฟอร์ม Socket FM1 ระดับล่าง

ความแตกต่างระหว่างการปรับเปลี่ยนชุดลอจิกระบบซีรีส์ใหม่ประกอบด้วยการรองรับการกำหนดค่า multi-GPU ต่างๆ เท่านั้น


กลุ่มโปรเซสเซอร์ Zambezi

การเปิดตัวโปรเซสเซอร์ Zambezi ทำให้การอัพเดตเสร็จสมบูรณ์ ช่วงโมเดลนำเสนอโดยเอเอ็มดี โปรเซสเซอร์เดสก์ท็อปที่ใช้สถาปัตยกรรมไมโคร Bulldozer จะกลายเป็นข้อเสนอเรือธงใหม่ของผู้ผลิตรายนี้และจะแทนที่การดัดแปลง Phenom II ทุกประเภทออกจากตลาดอย่างรวดเร็ว

เพื่อเน้นนวัตกรรมของสถาปัตยกรรมไมโครใหม่ AMD จะใช้ชื่อทางการตลาดใหม่สำหรับโปรเซสเซอร์เดสก์ท็อป Zambezi - FX ในอีกด้านหนึ่ง มันเข้ากันได้อย่างลงตัวกับระบบการตั้งชื่อใหม่ ซึ่งเกี่ยวข้องกับการทำเครื่องหมายโปรเซสเซอร์ด้วยตัวอักษร และในทางกลับกัน เป็นการอ้างอิงถึงโปรเซสเซอร์ Athlon 64 FX ในตำนาน ซึ่งเป็นซีพียูเดสก์ท็อปที่เร็วที่สุดเมื่อหกหรือเจ็ดปีที่แล้ว อย่างไรก็ตาม วันเหล่านั้นได้ผ่านพ้นไปอย่างไม่อาจเพิกถอนได้ มาดูกันว่า AMD พร้อมนำเสนออะไรบ้างในตอนนี้

ในอนาคตอันใกล้นี้ กลุ่มผลิตภัณฑ์โปรเซสเซอร์ FX series จะมีทั้งหมดสี่รุ่น



แม้ว่าความแตกต่างระหว่างโปรเซสเซอร์รุ่น Zambezi ไม่เพียง แต่ในความเร็วสัญญาณนาฬิกาเท่านั้น แต่ยังรวมถึงจำนวนแกนประมวลผลที่ใช้งานอยู่ด้วย แต่ทั้งหมดนั้นจะขึ้นอยู่กับชิปเซมิคอนดักเตอร์แบบครบวงจรเดียวกัน นี่คือ:



เพื่อให้ได้โปรเซสเซอร์ที่มีน้อยกว่าแปดคอร์ AMD จะปิดการใช้งานบางตัวบนชิปเซมิคอนดักเตอร์ ความเป็นไปได้ที่จะปลดล็อคกลับคืนมาเท่าที่เป็นไปได้ด้วยโปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร K10 ยังคงเป็นที่น่าสงสัย อย่างไรก็ตาม ใน BIOS ของมาเธอร์บอร์ดที่ใช้ชุดลอจิกซีรีส์ 900 ที่ผ่านห้องปฏิบัติการของเรา มีตัวเลือกที่เกี่ยวข้องอยู่ ดังนั้นจึงหวังว่าจะมีวิธีแก้ปัญหาที่ดีสำหรับปัญหานี้

การปิดใช้งานคอร์เพื่อรับการปรับเปลี่ยนโปรเซสเซอร์แบบ 6 คอร์และควอดคอร์จะเกิดขึ้น "ทีละโมดูล" นั่นคือมันจะเป็นโมดูลดูอัลคอร์ทั้งหมดที่ถูกบล็อกและไม่ใช่คอร์ "ที่สอง" ที่อยู่ข้างในแม้ว่ากลยุทธ์ดังกล่าวจะมีประโยชน์มากกว่าในแง่ของประสิทธิภาพก็ตาม อย่างไรก็ตามการเปิดตัวโปรเซสเซอร์แบบ 6 คอร์และควอดคอร์ที่สร้างขึ้นบนสถาปัตยกรรมไมโคร Bulldozer นั้นไม่ได้อธิบายมากนักจากการพิจารณาทางการตลาดเนื่องจากความจำเป็นในการดำเนินการปฏิเสธซึ่งเมื่อพิจารณาจากขนาดชิปที่ค่อนข้างใหญ่และกระบวนการทางเทคโนโลยีใหม่ จะค่อนข้างมาก

แม้ว่าที่จริงแล้ว AMD ได้ปรับปรุงสถาปัตยกรรมไมโครใหม่ให้คมชัดขึ้นเพื่อทำงานที่ความถี่สัญญาณนาฬิกาสูง แต่เรายังไม่สามารถเรียกค่าที่ได้รับว่าเป็นความก้าวหน้าที่น่าประทับใจได้ อุปสรรคสี่กิกะเฮิรตซ์ยังคงไม่มีใครเอาชนะได้และความถี่ที่ระบุของโปรเซสเซอร์ FX รุ่นเก่ายังต่ำกว่าเช่น Phenom II X4 980 อีกด้วย เราอยากจะหวังว่าด้วยการปรับปรุงเทคโนโลยีการผลิตความถี่ของ Zambezi จะเพิ่มขึ้นอย่างรวดเร็ว . แม้ว่าหากคุณเชื่อว่าแผนของ AMD เวอร์ชันปัจจุบัน แผนงานดังกล่าวจะเร่งดำเนินการไม่ช้ากว่าไตรมาสแรกของปี 2555

ไม่มีความก้าวหน้าในแง่ของการปล่อยความร้อนและการใช้พลังงาน AMD พูดมานานแล้วว่าสถาปัตยกรรมไมโคร Bulldozer จะประหยัดพลังงานมากขึ้นได้อย่างไร แต่อันที่จริงรุ่นแปดคอร์รุ่นเก่านั้นมีระดับ TDP เท่ากับ Phenom II รุ่นเก่า จริงอยู่หลังจากผ่านไประยะหนึ่ง บริษัท ควรเพิ่มรุ่น FX-8120 และโปรเซสเซอร์ FX-8100 รุ่น 95 วัตต์ที่มีการกระจายความร้อนที่คำนวณได้เหมือนกัน

แต่ราคาของโปรเซสเซอร์ FX-series ใหม่ดูน่าดึงดูดมากกว่า AMD ไม่ต้องการที่จะเบี่ยงเบนไปจากแนวทางการนำเสนอแพลตฟอร์มในราคาที่ดีกว่าคู่แข่ง ดังนั้นรุ่น Zambezi แปดคอร์ที่เก่ากว่าจึงตรงกันข้ามกับโปรเซสเซอร์ Intel Core i5 รุ่นเก่า โดยทั่วไป AMD วางแผนที่จะปฏิบัติตามรูปแบบการวางตำแหน่งต่อไปนี้สำหรับผลิตภัณฑ์ของตน:



กล่าวอีกนัยหนึ่ง AMD ไม่ได้ตั้งใจที่จะแข่งขันกับโปรเซสเซอร์หกคอร์ของ Intel และแพลตฟอร์ม LGA2011 ที่มีแนวโน้ม แต่ต้องการมุ่งเน้นไปที่การพิชิตกลุ่มราคากลาง

ข่าวดีสำหรับผู้ที่ชื่นชอบก็คือความจริงที่ว่าจะไม่มีการบล็อกตัวคูณในโปรเซสเซอร์ FX series ทั้งหมด Zambezi ทั้งหมดไม่เพียงแต่สามารถโอเวอร์คล็อกได้อย่างง่ายดายโดยการเปลี่ยนตัวคูณพื้นฐานเท่านั้น แต่ยังสามารถกำหนดค่าใหม่ด้วยเทคโนโลยี Turbo Core ได้อีกด้วย นอกจากนี้ยังมีการโอเวอร์คล็อกระบบย่อยหน่วยความจำและความถี่ของนอร์ธบริดจ์ที่สร้างไว้ในโปรเซสเซอร์อีกด้วย

โปรเซสเซอร์ทดสอบ: AMD FX-8150

AMD ส่ง FX-8150 ซึ่งเป็นโปรเซสเซอร์อาวุโสของตระกูล Zambezi ให้กับบรรณาธิการของเรา



มีความเร็วสัญญาณนาฬิกาเล็กน้อยที่ 3.6 GHz และอื่น ๆ รายละเอียดข้อมูลคุณสมบัติสามารถรับได้จากภาพหน้าจอที่กำหนดของ CPU-Z



โปรดทราบว่าโปรเซสเซอร์ใช้ B2 Stepping และนี่ไม่ใช่เวอร์ชันแรก การปรับเปลี่ยนคริสตัลเซมิคอนดักเตอร์ก่อนหน้านี้ถูกปฏิเสธโดยผู้ผลิตเนื่องจากไม่สามารถทำงานที่ความถี่สัญญาณนาฬิกาที่วางแผนไว้เดิมได้ นี่คือสิ่งที่ทำให้เกิดความล่าช้าในการประกาศ ซึ่งเดิมมีการวางแผนในฤดูใบไม้ผลิ จากนั้นในช่วงฤดูร้อน แต่จริงๆ แล้วเกิดขึ้นในกลางเดือนตุลาคม

อย่างไรก็ตาม ความถี่ 3.6 GHz ที่ได้รับในวันนี้ดูไม่น่าประทับใจนัก ทั้ง AMD และ Intel มีผลิตภัณฑ์ที่ทำงานด้วยความเร็วสูงกว่า อย่างไรก็ตาม FX-8150 มีเทคโนโลยี Turbo Core ที่มีแนวโน้มดีซึ่งสามารถเพิ่มความถี่โปรเซสเซอร์เป็น 4.2 GHz ได้โดยอัตโนมัติภายใต้โหลดต่ำ



เป็นที่น่าสังเกตว่าความถี่ 3.9 GHz สามารถทำได้แม้ว่าโหลดจะอยู่บนคอร์ประมวลผลทั้งหมด แต่ในขณะเดียวกันก็เหลือพื้นที่สำหรับการโอเวอร์คล็อกอัตโนมัติโดยไม่เกินขีดจำกัดของการใช้พลังงานและการกระจายความร้อน



เมื่อไม่ได้ใช้งาน เทคโนโลยี Cool"n"Quiet จะลดความถี่ของ FX-8150 เป็น 1.4 GHz แรงดันไฟฟ้าของแหล่งจ่ายลดลงเหลือ 0.85 V.


เราทดสอบอย่างไร

เราเปรียบเทียบโปรเซสเซอร์ AMD FX-8150 แบบแปดคอร์ใหม่ที่สร้างขึ้นบนสถาปัตยกรรมไมโคร Bulldozer กับหนึ่งในรุ่นก่อนคือ Phenom II X6 แบบหกคอร์และกับข้อเสนอของ Intel ที่แข่งขันกัน (ราคา) - ควอดคอร์ โปรเซสเซอร์หลัก i5-2500 และ Core i7-2600 นอกจากนี้ เพื่อความชัดเจนยิ่งขึ้น จึงได้มีการเพิ่มตัวบ่งชี้ประสิทธิภาพของโปรเซสเซอร์ Core i7-990X แบบ 6 คอร์ลงในผลลัพธ์

ด้วยเหตุนี้ ระบบทดสอบจึงมีส่วนประกอบซอฟต์แวร์และฮาร์ดแวร์ดังต่อไปนี้:

โปรเซสเซอร์:

AMD FX-8150 (แซมเบซี, 8 คอร์, 3.6 GHz, 8 MB L2 + 8 MB L3);
AMD Phenom II X6 1100T (Thuban, 6 คอร์, 3.3 GHz, 3 MB L2 + 6 MB L3);
Intel Core i7-2600K (แซนดี้บริดจ์, 4 คอร์, 3.4 GHz, 1 MB L2 + 8 MB L3);
Intel Core i5-2500K (แซนดี้บริดจ์, 4 คอร์, 3.3 GHz, 1 MB L2 + 6 MB L3);
อินเทลคอร์ i7-990X ฉบับสุดขีด(กัลฟ์ทาวน์, 6 คอร์, 3.46 GHz, 1.5 MB L2 + 12 MB L3)

ตัวทำความเย็นซีพียู: NZXT Havik 140;
เมนบอร์ด:

กิกะไบต์ 990FXA-UD5 (ซ็อกเก็ต AM3+, AMD 990FX + SB950);
อัสซุส P8Z68-V PRO (LGA1155, Intel Z68 Express);
กิกะไบต์ X58A-UD5 (LGA1366, Intel X58 Express)

หน่วยความจำ:

2 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (คิงส์ตัน KHX1600C8D3K2/4GX);
3 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (สำคัญ BL3KIT25664TG1608)

กราฟิกการ์ด: เอเอ็มดี เรดออนเอชดี 6970.
ฮาร์ดไดรฟ์: คิงส์ตัน SNVP325-S2/128GB
แหล่งจ่ายไฟ: ทากัน TG880-U33II (880 วัตต์)
ระบบปฏิบัติการ: ไมโครซอฟต์ วินโดวส์ 7 SP1 อัลติเมท x64
ไดรเวอร์:

ไดร์เวอร์ชิปเซ็ต Intel 9.2.0.1030;
ไดร์เวอร์เครื่องยนต์การจัดการ Intel 7.1.10.1065;
เทคโนโลยี Intel Rapid Storage 10.6.0.1022;
ไดร์เวอร์จอแสดงผล AMD Catalyst 11.10

โปรดทราบว่าการทดสอบดำเนินการภายใต้ระบบปฏิบัติการ Windows 7 เวอร์ชันปัจจุบัน แต่ AMD ระบุว่าตัวจัดการงานของระบบปฏิบัติการนี้ไม่กระจายเธรดการประมวลผลในวิธีที่เหมาะสมที่สุด Windows 7 ต้องการนำเธรดไปยังเคอร์เนลที่อยู่ในโมดูลต่างๆ เป็นหลัก และสิ่งนี้ให้ประสิทธิภาพเฉพาะที่สูงกว่าจริงๆ เนื่องจากจะช่วยลดภาระบนบล็อกที่แบ่งภายในโมดูล อย่างไรก็ตาม กลยุทธ์นี้ป้องกันการรวมโหมดเทอร์โบ ซึ่งโปรเซสเซอร์สามารถใช้งานได้หากโมดูลดูอัลคอร์บางโมดูลอยู่ในสถานะประหยัดพลังงาน

ห้องผ่าตัดที่มีแนวโน้ม ระบบวินโดวส์เวอร์ชัน 8 จะใช้กลยุทธ์ที่แตกต่างกัน และเธรดจะถูกกำหนดให้กับคอร์ภายในโมดูลเดียวกันก่อน ด้วยเหตุนี้ AMD จึงสัญญาว่าในแอปพลิเคชั่นจำนวนหนึ่ง ประสิทธิภาพของระบบที่ใช้ Zambezi จะเพิ่มขึ้นได้มากถึง 10%

ผลงาน

การประเมินเบื้องต้นเกี่ยวกับประสิทธิผลของสถาปัตยกรรมไมโคร Bulldozer

ก่อนที่เราจะเริ่มการทดสอบโปรเซสเซอร์ "จริง" เราได้ตัดสินใจที่จะค้นหาสิ่งที่เราคาดหวังได้จากหลักการของสถาปัตยกรรมไมโคร Bulldozer ในการดำเนินการนี้ เราได้ทำการเปรียบเทียบโปรเซสเซอร์ขนาดเล็กที่มีสถาปัตยกรรมไมโครนี้กับ CPU อื่นๆ ที่มีสถาปัตยกรรมไมโคร K10 และ Sandy Bridge ภายใต้เงื่อนไขที่เท่าเทียมกันที่สร้างขึ้นโดยไม่ได้ตั้งใจ: ที่ความถี่สัญญาณนาฬิกาเดียวกันและด้วยจำนวนคอร์ที่เปิดใช้งานเท่ากัน

โดยเฉพาะอย่างยิ่งเราเปรียบเทียบ AMD FX-8150, Phenom II X6 1100T และ Core i7-2600 ที่ 3.6 GHz โดยเปิดใช้งานคอร์ประมวลผลเพียงสองคอร์เท่านั้น เพื่อความบริสุทธิ์ของการทดลอง เทคโนโลยีการประหยัดพลังงานและการโอเวอร์คล็อกอัตโนมัติทั้งหมดจะถูกปิดใช้งานตามธรรมชาติ ชุดเกณฑ์มาตรฐานสังเคราะห์อย่างง่ายที่รวมอยู่ในยูทิลิตี้ได้รับเลือกให้เป็นเครื่องมือทดสอบ ซีซอฟท์ แซนดร้าในปี 2011 ซึ่งเราได้บังคับให้ปิดการใช้งานชุดคำสั่งทั้งหมดที่เก่ากว่า SSE3 เนื่องจากไม่ได้รับการสนับสนุนในสถาปัตยกรรมไมโคร K10



ตัวเลขในตารางดังกว่าคำพูดใดๆ ประสิทธิภาพของสถาปัตยกรรมไมโคร Bulldozer นั้นต่ำกว่าโปรเซสเซอร์รุ่นก่อนมาก การรวมคู่คอร์เป็นโมดูลเดียวด้วยทรัพยากรที่ใช้ร่วมกันและการลดความซับซ้อนของสถาปัตยกรรมไมโครนำไปสู่ความจริงที่ว่าที่ความถี่เดียวกัน ประสิทธิภาพเฉพาะของ Bulldozer ต่อคอร์ลดลง 25-40% เมื่อเทียบกับสถาปัตยกรรมไมโคร AMD รุ่นก่อนหน้า เป็นผลให้แกน Bulldozer เกือบครึ่งหนึ่งช้ากว่าแกน Sandy Bridge ยิ่งไปกว่านั้น ประสิทธิภาพของโมดูลโปรเซสเซอร์ Bulldozer ซึ่งมีสองคอร์ ยังต่ำกว่าความเร็วของคอร์ Sandy Bridge เดี่ยวที่เปิดใช้งานเทคโนโลยี Hyper-Threading อีกด้วย เราควรคาดหวังบันทึกประสิทธิภาพจากโปรเซสเซอร์ที่สร้างจากสถาปัตยกรรมไมโครเช่นนี้หรือไม่ คำถามคือวาทศิลป์

ระหว่างทางเรามาดูกันดีกว่า ลักษณะการปฏิบัติแคชและระบบย่อยหน่วยความจำ เพื่อประเมินความเร็วของการทำงานของหน่วยการทำงานเหล่านี้ เราทำการทดสอบในยูทิลิตี้ Cachemem จากแพ็คเกจ Aida64 ในทุกกรณี หน่วยความจำ DDR3-1600 ถูกใช้โดยมีค่าหน่วงเวลา 9-9-9-27-1T เช่นเดียวกับในกรณีก่อนหน้านี้ ความถี่ของโปรเซสเซอร์ยังคงสอดคล้องกันที่ 3.6 GHz



ใน Zambezi เมื่อเปรียบเทียบกับโปรเซสเซอร์ Phenom II เวลาแฝงที่ใช้งานได้จริงของทั้งแคชทั้งหมดและระบบย่อยหน่วยความจำเพิ่มขึ้น เราได้พูดคุยเกี่ยวกับเรื่องนี้เมื่อพิจารณาถึงสถาปัตยกรรมไมโครของ Bulldozer อย่างไรก็ตาม ด้วยการเปลี่ยนโครงสร้างทางลอจิคัลของหน่วยความจำแคช ส่งผลให้ปริมาณงานเพิ่มขึ้นในเกือบทุกกรณี

ในเวลาเดียวกัน Sandy Bridge จะใช้ตัวควบคุมหน่วยความจำแบบดูอัลแชนเนลที่เร็วที่สุดและระบบย่อยแคชที่เร็วที่สุด แม้ว่าในแง่ของความจุแคช แต่โปรเซสเซอร์ Intel ค่อนข้างด้อยกว่าสื่อไมโครสถาปัตยกรรม Bulldozer

ประสิทธิภาพโดยรวม

ในการประเมินประสิทธิภาพของโปรเซสเซอร์ในงานทั่วไป เราใช้การทดสอบ Bapco SYSmark 2012 แบบดั้งเดิมซึ่งจำลองการทำงานของผู้ใช้ในยุคสมัยใหม่ทั่วไป โปรแกรมสำนักงานและแอปพลิเคชันสำหรับการสร้างและประมวลผลเนื้อหาดิจิทัล แนวคิดของการทดสอบนั้นง่ายมาก: สร้างตัวชี้วัดเดียวที่แสดงลักษณะความเร็วเฉลี่ยถ่วงน้ำหนักของคอมพิวเตอร์ในแอปพลิเคชันทั่วไป

โปรดจำไว้ว่าเมื่อไม่นานมานี้ AMD พยายามหลอก SYSmark โดยเผยแพร่ข้อกล่าวหาว่ามีอคติเนื่องจากการใช้ชุดแอปพลิเคชันจริงที่ "ผิด" อย่างไรก็ตาม ในความเห็นของเรา การตัดสินดังกล่าวไม่สมเหตุสมผล เนื่องจากเป็นโปรแกรมทั่วไปและเป็นที่นิยมจริงๆ ที่ใช้ในการประเมินประสิทธิภาพ โดยการมีส่วนร่วมของแต่ละรายการในผลลัพธ์สุดท้ายจะแสดงในแผนภาพต่อไปนี้:



ดังนั้นเราจึงไม่ละทิ้งการใช้ SYSmark 2012 และใช้หน่วยวัดเพื่อประเมินประสิทธิภาพทั่วไปต่อไป



การทดสอบครั้งแรกช่างน่าผิดหวังมาก ผลลัพธ์ของ FX-8150 แบบแปดคอร์นั้นดีกว่าประสิทธิภาพของ Phenom II X6 1100T แบบหกคอร์เพียง 10% และโดยธรรมชาติแล้วจะไม่ถึงประสิทธิภาพของโปรเซสเซอร์ Intel แบบ Quad-Core เลย ดังนั้นกลยุทธ์ที่ AMD เลือกเพื่อใช้คอร์จำนวนมากที่มีประสิทธิภาพเฉพาะต่ำในโปรเซสเซอร์แทนที่จะเป็นคอร์ที่ซับซ้อนในระดับปานกลางโดยทั่วไปไม่ได้ให้ผลลัพธ์ที่เป็นบวก

ความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับผลลัพธ์ของ SYSmark 2012 สามารถให้ข้อมูลเชิงลึกเกี่ยวกับคะแนนประสิทธิภาพที่ได้รับในสถานการณ์การใช้งานระบบต่างๆ

สถานการณ์ Office Productivity จำลองงานในสำนักงานทั่วไป เช่น การเตรียมข้อความ การประมวลผลสเปรดชีต และการทำงาน โดยอีเมลและเยี่ยมชมเว็บไซต์อินเทอร์เน็ต สคริปต์ใช้ชุดแอปพลิเคชันต่อไปนี้: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, อะโดบี แฟลชผู้เล่น 10.1 ไมโครซอฟต์ เอ็กเซล 2010, ไมโครซอฟต์ อินเทอร์เน็ตเอ็กซ์พลอเรอร์ 9, ไมโครซอฟต์ เอาท์ลุค 2010, ไมโครซอฟต์ พาวเวอร์พอยท์ 2010, ไมโครซอฟต์ เวิร์ด 2010 และ WinZip Pro 14.5



สถานการณ์การสร้างสื่อจำลองการสร้างโฆษณาโดยใช้รูปภาพและวิดีโอดิจิทัลที่ถ่ายไว้ล่วงหน้า เพื่อจุดประสงค์นี้ มีการใช้แพ็คเกจ Adobe ยอดนิยม: Photoshop CS5 Extended, Premiere Pro CS5 และ After Effects CS5



การพัฒนาเว็บเป็นสถานการณ์จำลองการสร้างเว็บไซต์ แอปพลิเคชันที่ใช้: Adobe Photoshop CS5 ขยาย, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, มอซซิลา ไฟร์ฟอกซ์ 3.6.8 และ Microsoft Internet Explorer 9



ภาพจำลองการวิเคราะห์ข้อมูล/ทางการเงินมีไว้สำหรับการวิเคราะห์ทางสถิติและการคาดการณ์แนวโน้มของตลาด ซึ่งดำเนินการใน Microsoft Excel 2010



สคริปต์การสร้างแบบจำลอง 3 มิติทุ่มเทให้กับการสร้างวัตถุสามมิติและเรนเดอร์ฉากคงที่และไดนามิกด้วย โดยใช้อะโดบี Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 และ Google SketchUp Pro 8



สถานการณ์สุดท้าย การจัดการระบบ เกี่ยวข้องกับการสร้างการสำรองข้อมูลและการติดตั้งซอฟต์แวร์และการอัพเดต หลายคนมีส่วนเกี่ยวข้องที่นี่ รุ่นที่แตกต่างกันตัวติดตั้ง Mozilla Firefox และ WinZip Pro 14.5



ที่ รุ่นต่างๆการใช้โปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร Bulldozer แสดงให้เห็นผลลัพธ์ที่แตกต่างกันโดยพื้นฐาน ในบางกรณีปรากฏว่าช้ากว่า Phenom II X6 ด้วยซ้ำ แต่ก็มีสถานการณ์ที่ตรงกันข้ามเช่นกัน โดยทั่วไป กฎทั่วไปคือ: ข้อดีของ FX-8150 จะสังเกตเห็นได้ชัดเจนเป็นพิเศษเมื่อปริมาณงานเป็นแบบมัลติเธรดและขนานกันอย่างดี แต่ไม่ซับซ้อนในการคำนวณ

อย่างไรก็ตามแม้ในสถานการณ์ที่ดีที่สุด FX-8150 ยังล้าหลัง Core i5-2500 สถานการณ์เดียวที่โปรเซสเซอร์เหล่านี้มีความเร็วเทียบเคียงได้คือการเรนเดอร์ 3D โดยเฉลี่ยแล้วข้อเสนอของ Intel เหนือกว่าผลิตภัณฑ์ใหม่ของ AMD ถึง 25% ที่น่าประทับใจ เศร้า.

ประสิทธิภาพการเล่นเกม

ดังที่คุณทราบประสิทธิภาพของแพลตฟอร์มที่ติดตั้งโปรเซสเซอร์ประสิทธิภาพสูงในเกมสมัยใหม่ส่วนใหญ่นั้นถูกกำหนดโดยพลังของระบบย่อยกราฟิก นั่นคือเหตุผลที่เมื่อทดสอบโปรเซสเซอร์เราพยายามทำการทดสอบในลักษณะที่จะลบโหลดออกจากการ์ดวิดีโอให้มากที่สุด: เลือกเกมที่ใช้โปรเซสเซอร์เป็นส่วนใหญ่และทำการทดสอบโดยไม่ต้องเปิดการป้องกัน -นามแฝงและการติดตั้งที่ห่างไกลจากที่สุด ความละเอียดสูง. นั่นคือผลลัพธ์ที่ได้ทำให้สามารถประเมินระดับ fps ที่ทำได้ไม่มากนักในระบบที่มีการ์ดแสดงผลสมัยใหม่ แต่โดยหลักการแล้วโปรเซสเซอร์ทำงานได้ดีเพียงใดกับโหลดเกม ดังนั้นจากผลลัพธ์ที่นำเสนอจึงค่อนข้างเป็นไปได้ที่จะคาดเดาว่าโปรเซสเซอร์จะทำงานอย่างไรในอนาคตเมื่อมีตัวเลือกที่เร็วกว่าสำหรับตัวเร่งความเร็วกราฟิกปรากฏในตลาด


















เกมไม่อยู่ในหมวดหมู่ของงานที่สร้างโหลดแบบมัลติเธรดแบบขนาน ดังนั้นสำหรับแอพพลิเคชั่นเกมในปัจจุบัน โปรเซสเซอร์ที่มีสี่คอร์จึงเหมาะสมกว่า ไม่ใช่โปรเซสเซอร์แบบมัลติคอร์ที่ AMD นำเสนอ เราเห็นภาพประกอบที่ชัดเจนของข้อความนี้ในแผนภาพด้านล่าง FX-8150 แบบแปดคอร์ใหม่นั้นไม่เร็วกว่ารุ่นก่อนแบบหกคอร์อย่าง Phenom II X6

สำหรับอัตราส่วนประสิทธิภาพการเล่นเกมระหว่าง Zambezi และ Sandy Bridge นั้น AMD ยังคงมีทัศนคติในแง่ร้ายต่อผลิตภัณฑ์ใหม่มากกว่ามาก สถาปัตยกรรมไมโครโปรเซสเซอร์ Intel ในปัจจุบันจัดการปริมาณงานทั่วไปที่สร้างจากเกม 3 มิติได้ดีกว่ามาก และไม่มีความหวังว่า AMD จะสามารถตามทันโปรเซสเซอร์ของคู่แข่งในงานประเภทนี้ได้ กล่าวอีกนัยหนึ่ง การใช้ Bulldozer ในระบบเกมจะสมเหตุสมผลก็ต่อเมื่อมีความมั่นใจว่าประสิทธิภาพของโปรเซสเซอร์เฉพาะนั้นเพียงพอสำหรับระบบย่อยวิดีโอเฉพาะในชุดเกมเฉพาะ อย่างไรก็ตาม แม้ในกรณีนี้ คุณต้องตระหนักว่าด้วยการอัพเกรดตัวเร่งความเร็ววิดีโอครั้งถัดไป คุณอาจยังคงมีข้อเสียเปรียบร้ายแรงเมื่อเปรียบเทียบกับผู้ใช้ที่ต้องการแพลตฟอร์มและโปรเซสเซอร์ Intel สมัยใหม่ในตอนแรก

นอกจากการทดสอบการเล่นเกมแล้ว เรายังจะนำเสนอผลลัพธ์ของเกณฑ์มาตรฐานสังเคราะห์ Futuremark 3DMark 11 ซึ่งเปิดตัวพร้อมกับโปรไฟล์ Extreme



จุดประสงค์ของการเพิ่มผลลัพธ์เหล่านี้คือเพื่อแสดงสถานการณ์ในอุดมคติสำหรับ FX-8150 เมื่อระบบย่อยของวิดีโอไม่อนุญาตให้ใช้พลังงานจากโปรเซสเซอร์อย่างเต็มที่ ที่นี่โหลดหลักตกอยู่ที่การ์ดแสดงผลและโปรเซสเซอร์มีบทบาทสนับสนุนเท่านั้น ในกรณีเช่นนี้ เราสามารถพูดถึงประสิทธิภาพที่เท่าเทียมกันของโปรเซสเซอร์ Bulldozer และ Sandy Bridge ได้ แม้ว่าแน่นอนว่าสิ่งนี้ไม่เป็นความจริงทั้งหมดก็ตาม



อย่างไรก็ตาม FX-8150 ก็ดูดีเช่นกัน (เมื่อเทียบกับผลลัพธ์ก่อนหน้า) ในการทดสอบทางกายภาพของ 3DMark 11 แบบจำลองทางกายภาพโปรเซสเซอร์ 8 คอร์รุ่นใหม่ของ AMD ทำงานด้วยความเร็วเทียบเท่ากับ Quad-Core Core i5-2500

การทดสอบในการใช้งาน

โดยรวมแล้ว ประสิทธิภาพการเล่นเกมและค่าเฉลี่ยถ่วงน้ำหนักของ Bulldozer บนเดสก์ท็อปนั้นต่ำกว่าที่เราคาดไว้มาก อย่างไรก็ตาม อย่าสิ้นหวังและพยายามค้นหากรณีเหล่านั้นเมื่อสถาปัตยกรรมไมโคร AMD ใหม่สามารถแสดงได้ จุดแข็ง.

เราใช้การวัดความเร็วของโปรเซสเซอร์เมื่อบีบอัดข้อมูล โปรแกรมเก็บถาวร WinRARด้วยความช่วยเหลือในการที่เราเก็บถาวรโฟลเดอร์ที่มีไฟล์ต่าง ๆ โดยมีปริมาณรวม 1.4 GB พร้อมระดับการบีบอัดสูงสุด



ผลลัพธ์ของ FX-8150 ใกล้เคียงกับ Core i5-2500 WinRAR ไม่ใช่หนึ่งในแอปพลิเคชันที่สามารถขนานการคำนวณกับ Bulldozer core ทั้งแปดคอร์ได้ แต่ดูเหมือนว่าหน่วยความจำแคชขนาดยักษ์จะช่วยประหยัดเวลาได้

การทดสอบความเร็วการเก็บถาวรครั้งที่สองที่คล้ายกันนั้นดำเนินการในโปรแกรม 7-zip โดยใช้อัลกอริธึมการบีบอัด LZMA2



ใน 7-zip ประสิทธิภาพของ FX-8150 นั้นน่ายกย่อง โปรเซสเซอร์แปดคอร์นี้สามารถเข้าใกล้ความเร็วของ Quad-Core Core i7-2600 ซึ่งรวมถึงการสนับสนุน Hyper-Threading และเช่นเดียวกับ Bulldozer ที่สามารถรันแปดเธรดพร้อมกันได้

ประสิทธิภาพการเข้ารหัสของโปรเซสเซอร์วัดโดยเกณฑ์มาตรฐานในตัวของ TrueCrypt ยูทิลิตี้การเข้ารหัสยอดนิยม ควรสังเกตว่าไม่เพียงแต่สามารถโหลดแกนประมวลผลจำนวนเท่าใดก็ได้อย่างมีประสิทธิภาพ แต่ยังรองรับชุดคำสั่ง AES เฉพาะทางอีกด้วย



อัลกอริธึมจำนวนเต็มที่เรียบง่ายและขนานกันอย่างดีคือสิ่งที่สถาปัตยกรรมไมโคร Bulldozer ต้องการ ในกรณีเช่นนี้ ดังที่เราเห็นแล้วว่าสามารถได้รับประสิทธิภาพที่โดดเด่นมาก โดยเฉพาะอย่างยิ่งเมื่อพูดถึงการเข้ารหัส FX-8150 จะช้ากว่า Core i7-990X แบบหกคอร์เท่านั้นและเหนือกว่าโปรเซสเซอร์ทั้งหมดสำหรับแพลตฟอร์ม LGA1155

เมื่อทดสอบความเร็วการแปลงรหัสเสียง ให้ใช้ยูทิลิตี้นี้ แอปเปิล ไอทูนส์ซึ่งแปลงเนื้อหาของซีดีเป็นรูปแบบ AAC โปรดทราบว่าคุณลักษณะเฉพาะของโปรแกรมนี้คือความสามารถในการใช้คอร์โปรเซสเซอร์เพียงคู่เดียวเท่านั้น



เป็นการดีกว่าที่จะเก็บโปรแกรมที่สร้างเธรดการคำนวณจำนวนเล็กน้อยให้ห่างจาก Bulldozer คอร์บางตัวของ CPU นี้อ่อนแอเกินกว่าที่จะแสดงผลลัพธ์ที่เหมาะสมในกรณีเช่นนี้

เราวัดประสิทธิภาพใน Adobe Photoshop โดยใช้การทดสอบของเราเอง ซึ่งเป็นการปรับปรุงอย่างสร้างสรรค์ ทดสอบความเร็ว Photoshop ของศิลปินรีทัชซึ่งเกี่ยวข้องกับการประมวลผลภาพ 10 ล้านพิกเซลทั่วไปสี่ภาพที่ถ่ายด้วยกล้องดิจิตอล



ใน Photoshop ประสิทธิภาพของ FX-8150 ไม่ได้เลวร้ายเท่ากับโปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร K10 แต่ก็ยังต่ำกว่า Core i5-2500 มาก เห็นได้ชัดว่าหน่วยความจำแคชขนาดใหญ่เป็นตัวช่วยที่ดีสำหรับสถาปัตยกรรมไมโคร Bulldozer ในกรณีนี้ แต่สิ่งนี้เพียงอย่างเดียวจะไม่ช่วยให้คุณไปได้ไกล ประสิทธิภาพและประสิทธิภาพเฉพาะของแกนประมวลผลยังคงมีความสำคัญยิ่ง

เรายังทำการทดสอบใน โปรแกรมอะโดบี Photoshop Lightroom 3 สถานการณ์การทดสอบรวมถึงขั้นตอนหลังการประมวลผลและการส่งออก JPEG ของภาพหนึ่งร้อย 12 ล้านพิกเซลในรูปแบบ RAW



Lightroom สามารถประมวลผลภาพถ่ายแบบขนานกับคอร์จำนวนเท่าใดก็ได้ ดังนั้น FX-8150 แบบแปดคอร์จึงแสดงผลลัพธ์ที่ดีที่นี่ อย่างไรก็ตาม "ไม่เลว" เป็นแนวคิดที่เกี่ยวข้องในกรณีนี้ อันที่จริง ประสิทธิภาพเทียบได้กับ Core i5-2500 เท่านั้น ซึ่งหมายความว่าแกน Bulldozer สองแกนจะเท่ากับแกน Sandy Bridge หนึ่งแกนโดยไม่รองรับ Hyper-Threading

ประสิทธิภาพใน Adobe Premiere Pro ได้รับการทดสอบโดยการวัดเวลาการเรนเดอร์ในรูปแบบ H.264 Blu-Ray ของโปรเจ็กต์ที่มีวิดีโอ HDV 1080p25 พร้อมเอฟเฟกต์ต่างๆ



โปรเซสเซอร์ AMD รุ่นก่อนหน้ายังจัดการการแปลงรหัสวิดีโอได้ดี สถาปัตยกรรมไมโครของ Bulldozer ช่วยให้ประสิทธิภาพเพิ่มขึ้นเล็กน้อยในการใช้งานในลักษณะนี้และด้วยเหตุนี้ FX-8150 จึงเร็วกว่า Core i5-2500 ด้วยซ้ำ

ความเร็วของการตัดต่อวิดีโอโดยใช้ Adobe After Effects ได้รับการประเมินโดยการวัดเวลาการทำงานของชุดฟิลเตอร์และเอฟเฟกต์ที่กำหนดไว้ล่วงหน้า รวมถึงภาพเบลอ การสร้างภาพนูน การผสมเฟรม การสร้างแสงเรืองแสง การเพิ่มการพร่ามัวของการเคลื่อนไหว การแรเงา การปรับแต่ง 2D และ 3D การกลับกัน ฯลฯ



แม้ว่าโหลดจะขนานกันอย่างดี แต่ FX-8150 ก็ล้าหลังคู่แข่งของ Intel ใน After Effects

ในการวัดความเร็วของการแปลงรหัสวิดีโอเป็นรูปแบบ H.264 จะใช้การทดสอบ x264 HD โดยอิงจากการวัดเวลาการประมวลผลของวิดีโอต้นฉบับในรูปแบบ MPEG-2 ซึ่งบันทึกด้วยความละเอียด 720p พร้อมสตรีมที่ 4 Mbit/วินาที ควรสังเกตว่าผลลัพธ์ของการทดสอบนี้มีความสำคัญในทางปฏิบัติอย่างยิ่งเนื่องจากตัวแปลงสัญญาณ x264 ที่ใช้ในนั้นรองรับยูทิลิตี้การแปลงรหัสยอดนิยมมากมายเช่น HandBrake, MeGUI, VirtualDub เป็นต้น






เมื่อแปลงรหัสวิดีโอด้วยตัวแปลงสัญญาณ x264 โปรเซสเซอร์ AMD จะแสดงประสิทธิภาพที่ดีเสมอ ด้วยการเปิดตัวสถาปัตยกรรมไมโครแปดคอร์ ผลลัพธ์ที่ได้ก็เพิ่มขึ้นอีก และตอนนี้ FX-8150 ยังมีประสิทธิภาพเหนือกว่า Core i7-2600 ในการเข้ารหัสครั้งที่สองที่ใช้ทรัพยากรมากที่สุด ด้วยความยากลำบากอย่างมาก ในที่สุดเราก็พบแอปพลิเคชันตัวที่สอง นอกเหนือจาก TrueCrypt ซึ่งประสิทธิภาพของโปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร Bulldozer สมควรได้รับคำวิจารณ์ที่น่ายกย่อง

เราวัดประสิทธิภาพการประมวลผลและความเร็วในการเรนเดอร์ใน Autodesk 3ds max 2011 โดยใช้การทดสอบ SPECapc เฉพาะทาง เริ่มต้นด้วยการทดสอบนี้ เราจะเริ่มใช้ SPECapc เวอร์ชันมืออาชีพใหม่สำหรับ 3ds Max 2011






การเรนเดอร์ยังเป็นหนึ่งในงานที่ต้องปรับให้เหมาะสมสำหรับสถาปัตยกรรมไมโครแบบมัลติคอร์ แต่ถึงกระนั้น FX-8150 ก็ยังช้ากว่า Core i5-2500 และ Core i7-2600 ไม่ต้องพูดถึง Core i7-990X ในทางกลับกัน ไม่มีสถานการณ์ที่น่าละอายเมื่อโปรเซสเซอร์ AMD ใหม่พ่ายแพ้ให้กับรุ่นก่อน

เมื่อพิจารณาผลลัพธ์โดยเฉลี่ยในแต่ละแอปพลิเคชัน FX-8150 เร็วกว่า Phenom II X6 1100T ประมาณ 14% ในชุดแอปพลิเคชันของเรา และสิ่งนี้ทำให้ทำงานได้ไม่แย่ไปกว่า Core i5-2500 ในกรณีที่น้อยกว่าครึ่งหนึ่งเล็กน้อย อย่างไรก็ตาม ช่องว่างกับ Core i7-2600 รุ่น Sandy Bridge ถัดไปยังคงมีนัยสำคัญและมีจำนวนมากกว่า 10%

การใช้พลังงาน

แม้ว่าเราจะสามารถค้นหาชุดงานที่สามารถเรียกได้ว่าเป็นที่ยอมรับของ Bulldozer แต่โปรเซสเซอร์ที่ใช้สถาปัตยกรรมไมโครใหม่นั้นดูไม่เหมือนโปรเซสเซอร์ที่ปฏิวัติวงการเลย ความหวังเดียวยังคงอยู่สำหรับการใช้พลังงานเนื่องจากโปรเซสเซอร์ AMD ก่อนหน้านี้มีความด้อยกว่าคู่แข่งอย่างมากในพารามิเตอร์นี้ ตอนนี้ หากคุณเชื่อคำสัญญาของนักพัฒนา สถาปัตยกรรมไมโครได้มุ่งเน้นไปที่ประสิทธิภาพการใช้พลังงานมากขึ้น และกระบวนการทางเทคโนโลยี 32 นาโนเมตรใหม่น่าจะมีส่วนในการปรับปรุง ลักษณะไฟฟ้า. มาดู FX-8150 ผ่านเลนส์ประสิทธิภาพต่อวัตต์กันดีกว่า

กราฟต่อไปนี้ แสดงให้เห็นปริมาณการใช้ไฟฟ้าของระบบทั้งหมด (โดยไม่มีจอภาพ) ซึ่งวัด "หลัง" แหล่งจ่ายไฟ และแสดงผลรวมของการใช้พลังงานของส่วนประกอบทั้งหมดที่เกี่ยวข้องกับระบบ เว้นแต่จะระบุไว้เป็นอย่างอื่น ประสิทธิภาพของแหล่งจ่ายไฟนั้นไม่ได้ถูกนำมาพิจารณาในกรณีนี้ ในระหว่างการวัด โหลดบนโปรเซสเซอร์ถูกสร้างขึ้นโดยยูทิลิตี้ LinX 0.6.4 เวอร์ชัน 64 บิต นอกจากนี้ เพื่อประเมินการใช้พลังงานที่ไม่ได้ใช้งานอย่างถูกต้อง เราได้เปิดใช้งานเทคโนโลยีประหยัดพลังงานที่มีอยู่ทั้งหมด: C1E, C6, AMD Cool"n"Quiet และ Enhanced Intel SpeedStep



เมื่อไม่ได้ใช้งาน ปริมาณการใช้ระบบที่มีโปรเซสเซอร์ที่สร้างบนสถาปัตยกรรมไมโคร Bulldozer จะต่ำกว่าระบบที่คล้ายกันกับ CPU ตระกูล Phenom II อย่างไรก็ตาม ระบบ Intel LGA1155 สมัยใหม่กินพลังงานน้อยลงอย่างมากในโหมดไม่ได้ใช้งาน



ในกรณีที่โหลดการประมวลผลเป็นแบบเธรดเดียว ปริมาณการใช้ระบบ Socket AM3+ จะเพิ่มขึ้นอย่างรวดเร็ว อย่างเห็นได้ชัดเนื่องมาจากความก้าวร้าวสูงของเทคโนโลยี Turbo Core ด้วยระบบที่สร้างขึ้น โปรเซสเซอร์อินเทลไม่ได้รับการสังเกตและพวกเขาสามารถอวดประสิทธิภาพพลังงานที่สูงขึ้นอย่างมีนัยสำคัญอีกครั้ง



ด้วยการโหลดแบบมัลติเธรดเต็มรูปแบบ สถานการณ์จึงไม่แตกต่างกันมากนัก เป็นเพียงระบบที่ใช้โปรเซสเซอร์ LGA1366 Core i7-990X เท่านั้นที่ "ก้าวไปข้างหน้า" ไม่อย่างนั้นทุกอย่างก็เหมือนเดิม ในแง่ของการใช้พลังงาน FX-8150 ไม่ได้อวดความสำเร็จใดๆ เป็นพิเศษ เริ่มกินน้อยกว่า Phenom II X6 1100T เล็กน้อย แต่โปรเซสเซอร์ Sandy Bridge นั้นประหยัดกว่าอย่างน้อยหนึ่งเท่าครึ่ง

AMD ใช้พลังงานอย่างมีประสิทธิภาพทั้งหมดที่ได้รับจากการแนะนำสถาปัตยกรรมไมโครใหม่เพื่อเพิ่มความถี่สัญญาณนาฬิกา และด้วยเหตุนี้เราจึงไม่เห็นเลย ระดับใหม่ประสิทธิภาพหรือประสิทธิภาพที่ดีขึ้นโดยพื้นฐาน ดังนั้นในแง่ของประสิทธิภาพต่อวัตต์ Bulldozer ก็เหมือนกับรุ่นก่อน ๆ ด้อยกว่าไมโครสถาปัตยกรรมคู่แข่งจาก Intel อย่างมาก

สำหรับการอ้างอิง เราจะนำเสนอปริมาณการใช้ที่โหลดเต็มที่ โดยวัดแยกกันในวงจรจ่ายไฟของโปรเซสเซอร์และมาเธอร์บอร์ด






ปริมาณการใช้ "สุทธิ" ของ FX-8150 แบบแปดคอร์นั้นเกินกว่าปริมาณการใช้ โปรเซสเซอร์แซนดี้สะพานประมาณสองครั้ง เมื่อพิจารณาว่าโปรเซสเซอร์ทั้งสองผลิตขึ้นโดยใช้กระบวนการทางเทคโนโลยีเดียวกันและมีแรงดันไฟฟ้าคอร์ที่คล้ายคลึงกัน จึงเป็นเรื่องที่น่าสนใจอย่างไม่น่าเชื่อว่า AMD หมายถึงอะไรเมื่อพูดถึงประสิทธิภาพการใช้พลังงานของสถาปัตยกรรมไมโคร Bulldozer

การโอเวอร์คล็อก

แพลตฟอร์ม Socket AM3+ และโปรเซสเซอร์ FX series เริ่มแรกถูกวางตำแหน่งให้เป็นโอเวอร์คล็อกเกอร์ สิ่งนี้เห็นได้จากทั้งการปลดล็อคตัวคูณทั้งหมดและการทดลองทั้งหมดภายใต้การอุปถัมภ์ของ AMD ซึ่งสร้างสถิติการโอเวอร์คล็อกโลกโดยใช้หนึ่งในโปรเซสเซอร์ FX-8150 คำแถลงของบริษัทที่ว่าสถาปัตยกรรมไมโครใหม่ได้รับการปรับให้เหมาะสมสำหรับการทำงานที่ความถี่สัญญาณนาฬิกาสูงก็มีแนวโน้มที่ดีเช่นกัน เราจะได้รับปาฏิหาริย์การโอเวอร์คล็อกใหม่จาก AMD จริงหรือ? มาตรวจสอบกัน

การโอเวอร์คล็อกโปรเซสเซอร์ FX ใด ๆ นั้นง่ายมาก การเขียน "ปลดล็อค" บนโลโก้โดยตรงไม่ได้มีวัตถุประสงค์เพื่ออะไร ความถี่ของโปรเซสเซอร์สามารถเปลี่ยนแปลงได้ด้วยตัวคูณไม่ว่าจะผ่านการตั้งค่า BIOS หรือผ่านยูทิลิตี้พิเศษที่ทั้ง AMD เอง (Overdrive Utility) และผู้ผลิตมาเธอร์บอร์ดให้มา ในทำนองเดียวกัน ในระบบ Socket AM3+ คุณสามารถโอเวอร์คล็อกนอร์ธบริดจ์และหน่วยความจำที่รวมอยู่ในโปรเซสเซอร์ได้

ในระหว่างการทดสอบ เราสามารถบรรลุการทำงานที่เสถียรของ FX-8150 ของเราที่ความถี่ 4.6 GHz เพื่อให้มั่นใจถึงความเสถียรในสถานะนี้ แรงดันไฟฟ้าของโปรเซสเซอร์จะต้องเพิ่มเป็น 1.475 V และนอกจากนี้ จำเป็นต้องเปิดใช้งานฟังก์ชันการปรับเทียบ Load-Line ในระหว่างการทดสอบความเสถียร อุณหภูมิของโปรเซสเซอร์ที่ทำงานที่ความถี่นี้จะต้องไม่เกิน 85 องศาตามเซ็นเซอร์ซ็อกเก็ต หรือ 75 องศาตามเซ็นเซอร์ที่ติดตั้งในโปรเซสเซอร์ เพื่อขจัดความร้อน เราจำได้ว่ามีการใช้เครื่องทำความเย็นอากาศ NZXT Havik 140 ที่มีประสิทธิภาพ



โปรดทราบว่าในเวลาเดียวกันเราพยายามโอเวอร์คล็อกสะพานเหนือที่สร้างไว้ใน CPU เนื่องจากการเพิ่มความถี่มีผลในเชิงบวกต่อความเร็วของแคชระดับที่สามและตัวควบคุมหน่วยความจำ อย่างไรก็ตาม น่าเสียดายที่การโอเวอร์คล็อกที่สำคัญของโหนดโปรเซสเซอร์นี้พบกับอุปสรรคที่มองไม่เห็น และไม่สามารถเข้าถึงความถี่ที่สูงกว่า 2.4 GHz ได้ แม้ว่าเราจะพยายามเพิ่มแรงดันไฟฟ้าไปพร้อม ๆ กันก็ตาม

ไม่ว่าในกรณีใด การโอเวอร์คล็อก FX-8150 ถึง 4.6 GHz ถือเป็นผลลัพธ์ที่ดี โดยเฉพาะอย่างยิ่งเมื่อพิจารณาจากข้อเท็จจริงที่ว่าโปรเซสเซอร์ AMD ในตระกูล Phenom II แทบจะไม่มีการโอเวอร์คล็อกในอากาศเกิน 4.0 GHz กล่าวอีกนัยหนึ่ง สถาปัตยกรรมไมโครของ Bulldozer ทำให้สามารถขยายขีดจำกัดความถี่ให้สูงขึ้นได้เล็กน้อย

อย่างไรก็ตาม ควรเปรียบเทียบการโอเวอร์คล็อกโปรเซสเซอร์ FX ประการแรก ไม่ใช่กับ Phenom II รุ่นเก่า แต่กับโปรเซสเซอร์ Core i5 และ Core i7 ที่แข่งขันกันสำหรับระบบ LGA1155 แต่เห็นได้ชัดว่าเร่งความเร็วได้ไม่แย่ลง ตัวอย่างเช่นการโอเวอร์คล็อกทั่วไปสำหรับ Core i5-2500K ที่มีแรงดันไฟฟ้าเพิ่มขึ้น 0.15 V เหนือค่าที่กำหนดและการใช้เครื่องทำความเย็นด้วยอากาศคือ 4.7 GHz และเมื่อเทียบกับพื้นหลังนี้ ผลลัพธ์ของ FX-8150 ก็ดูไม่ยอดเยี่ยมอีกต่อไป

ความประทับใจในการโอเวอร์คล็อก Zambezi จะแย่ลงไปอีกหากเราเปรียบเทียบประสิทธิภาพของ FX-8150 ที่โอเวอร์คล็อกและ Core i5-2500K ที่โอเวอร์คล็อก (การเพิ่มประสิทธิภาพที่สัมพันธ์กับโหมดระบุจะแสดงอยู่ในวงเล็บ):



โดยทั่วไป การโอเวอร์คล็อกจะไม่เปลี่ยนแปลงคุณภาพของผลลัพธ์ แต่ในกรณีที่ FX-8150 เร็วกว่าในโหมดปกติ ช่องว่างก็แคบลง และจุดที่ Core i5-2500 เป็นผู้นำก็รวมความได้เปรียบของมันไว้ ไม่น่าแปลกใจ: ความถี่ของ FX-8150 เมื่อโอเวอร์คล็อกเพิ่มขึ้น 28% ในขณะที่ความถี่ที่เพิ่มขึ้นของ Core i5-2500K คือ 42% และโดยทั่วไป ดังที่สามารถตัดสินได้จากขนาดของประสิทธิภาพที่ได้รับจากการโอเวอร์คล็อก สถาปัตยกรรมไมโครของ Sandy Bridge จะตอบสนองต่อความถี่ที่เพิ่มขึ้นด้วยความไวมากขึ้น กล่าวอีกนัยหนึ่งแม้ว่าเราจะคำนึงถึงการโอเวอร์คล็อก แต่โปรเซสเซอร์ที่มีสถาปัตยกรรมไมโคร Bulldozer แม้ว่าจะโอเวอร์คล็อกได้ค่อนข้างดี แต่ก็ไม่ได้ดูแข็งแกร่งกว่าคู่แข่งของ Intel

ข้อสรุป

สำเร็จหรือล้มเหลว? หลายๆ คนคงอยากเห็นคำตัดสินที่ชัดเจนในตอนท้ายของบทความ อย่างไรก็ตามในกรณีนี้ทุกอย่างมีความคลุมเครือมากและ AMD ได้ทำให้ผู้ตรวจสอบอยู่ในตำแหน่งที่ยากมากด้วย Bulldozer

ความจริงก็คือ AMD ได้แสดงให้เห็นถึงแนวทางที่ไม่ได้มาตรฐานโดยสิ้นเชิงในการพัฒนาสถาปัตยกรรมไมโคร เมื่อพิจารณาว่าประสิทธิภาพของโปรเซสเซอร์ประกอบด้วยสามองค์ประกอบ: จำนวนคำสั่งที่ดำเนินการในคอร์ของโปรเซสเซอร์ต่อรอบสัญญาณนาฬิกา ความถี่และจำนวนคอร์ นักพัฒนาจึงเปลี่ยนลำดับความสำคัญไปที่จำนวนคอร์ ในเวลาเดียวกันประสิทธิภาพเฉพาะของแต่ละคอร์ลดลง แต่การออกแบบที่ได้เปิดทางไปสู่การสร้างโปรเซสเซอร์แปดคอร์ราคาไม่แพงหรือซับซ้อนยิ่งขึ้น นี่เป็นการเคลื่อนไหวที่แข็งแกร่งมากสำหรับตลาดเซิร์ฟเวอร์ซึ่งมีโหลดและโปรเซสเซอร์แบบมัลติเธรด จำนวนมากแกนเป็นที่ต้องการอย่างมาก ดังนั้นจึงมีความเป็นไปได้มากที่สถาปัตยกรรมไมโคร Bulldozer ใหม่จะช่วยให้ AMD สามารถปรับปรุงตำแหน่งในตลาดเซิร์ฟเวอร์ประสิทธิภาพได้อย่างมีนัยสำคัญ

อย่างไรก็ตาม วันนี้เราได้ทำความคุ้นเคยกับโปรเซสเซอร์ FX ซึ่งสร้างขึ้นจากสถาปัตยกรรมไมโครนี้ แต่มุ่งเป้าไปที่คอมพิวเตอร์เดสก์ท็อป และนี่คือจุดที่ความแตกต่างระหว่างความสามารถด้านฮาร์ดแวร์ของ Bulldozer และปริมาณงานบนเดสก์ท็อปทั่วไปปรากฏให้เห็นอย่างชัดเจน น่าผิดหวังอย่างยิ่งที่แคมเปญการตลาดมีโครงสร้างในลักษณะที่หลายคนเชื่อว่า Bulldozer เป็นดาวเด่นในตลาดเดสก์ท็อป อย่างไรก็ตาม ความหวังเหล่านี้ไม่ได้ถูกกำหนดให้เป็นจริง


โปรเซสเซอร์ FX ซึ่งใช้สถาปัตยกรรมไมโครของ Bulldozer สามารถแสดงจุดแข็งได้เฉพาะในงานย่อยเล็กๆ ที่แก้ไขโดยผู้ใช้ทั่วไปเท่านั้น ในบรรดาแอปพลิเคชันทั่วไปทั่วไป ไม่มีตัวอย่างมากมายที่สร้างเวิร์กโหลดแบบมัลติเธรดจำนวนเต็มอย่างง่าย และประสิทธิภาพสูงของ Bulldozer จะถูกเปิดเผยในกรณีนี้เท่านั้น เป็นผลให้ในบางกรณี Bulldozer ไม่เพียงแต่ช้ากว่าโซลูชันคู่แข่งจาก Intel เท่านั้น แต่ยังแย่กว่าโปรเซสเซอร์ Phenom II X6 ที่สร้างขึ้นจากสถาปัตยกรรมไมโครรุ่นก่อนหน้าอีกด้วย และนั่นหมายความว่า AMD ล้มเหลวในการผลิตโปรเซสเซอร์เดสก์ท็อปที่ปฏิวัติวงการ

ในความเป็นจริง FX เป็นเพียง Phenom ถัดไป ซึ่งดูเหมือนว่าจะค่อนข้างดีในตัวเอง โดยเฉพาะอย่างยิ่งเมื่อเทียบกับรุ่นก่อน โดยทั่วไปโปรเซสเซอร์ FX จะเร็วกว่า Phenom II โอเวอร์คล็อกได้ดีกว่ามากและสิ้นเปลืองพลังงานน้อยกว่าเล็กน้อย ดังนั้นจึงถือได้ว่าเป็นสิ่งทดแทนที่ดีสำหรับผู้ให้บริการของสถาปัตยกรรมไมโคร K10 ที่ล้าสมัย

อย่างไรก็ตาม เราขอเตือนคุณว่า AMD กำลังทำสงครามไม่เพียงกับตัวมันเองเท่านั้น แต่ยังทำสงครามกับตัวเองด้วย โดยอินเทล. ดังนั้นเราจึงยังคงถูกบังคับให้แสดงข้อสรุปที่น่าผิดหวังว่าโปรเซสเซอร์ FX สมเหตุสมผลเฉพาะในเดสก์ท็อปที่เน้นไปที่การประมวลผลวิดีโอและการแปลงรหัสเท่านั้น ในกรณีอื่นๆ เมื่อเปรียบเทียบกับโปรเซสเซอร์ Sandy Bridge ประสิทธิภาพของพวกเขาแทบจะไม่น่าพอใจเลย เช่นเดียวกันอาจกล่าวได้เกี่ยวกับการใช้พลังงานและการโอเวอร์คล็อก ควรเพิ่มแยกกันว่าโปรเซสเซอร์ AMD FX ตามที่คาดไว้กลายเป็นตัวเลือกที่ไม่ดีสำหรับระบบเกมเนื่องจากเกม 3D สมัยใหม่ไม่ได้ใช้อัลกอริธึมแบบมัลติเธรดอย่างแท้จริง อย่างไรก็ตาม แฟน ๆ ของผลิตภัณฑ์ AMD อาจจะทนกับสิ่งนี้ได้ เนื่องจากจำนวนเฟรมต่อวินาทีในเกมมักจะถูกจำกัดด้วยกราฟิก ไม่ใช่โปรเซสเซอร์

กล่าวอีกนัยหนึ่ง โอกาสทางการตลาดสำหรับโปรเซสเซอร์ FX จะขึ้นอยู่กับปัจจัยสองประการ: กองทัพของสาวก AMD มีขนาดใหญ่เพียงใด; และผู้ผลิตจะจัดการระดับราคาได้อย่างชำนาญเพียงใด อย่างไรก็ตาม โปรเซสเซอร์เดสก์ท็อปที่มีสถาปัตยกรรมไมโคร Bulldozer ไม่คาดว่าจะได้รับความนิยมอย่างกว้างขวางอย่างชัดเจน

AMD ไม่ค่อยหลงระเริงกับสถาปัตยกรรมโปรเซสเซอร์ใหม่ หาก Intel อัปเดตโครงสร้างทุก ๆ สองปี คู่แข่งจะสังเกตเห็นครั้งสุดท้ายในปี 2550 โดยเปิดตัว K10 ซึ่งเป็น K8 รุ่นเก่าที่ออกแบบใหม่ ดังนั้นการปรากฏตัวของ Bulldozer ใหม่จึงเป็นเหตุการณ์สำคัญ ในอีกไม่กี่ปีข้างหน้า สถาปัตยกรรมนี้จะกลายเป็นพื้นฐานสำหรับคริสตัล AMD ทั้งหมด รวมถึงโอกาสแรกในรอบระยะเวลาอันยาวนานที่จะแข่งขันกับ Intel ในการแข่งขันเพื่อประสิทธิภาพ

เราไปกันเป็นคู่

ด้วยการสร้าง Bulldozer วิศวกรของ AMD ละทิ้งกลยุทธ์ที่ได้รับการพิสูจน์แล้วในการปรับปรุงและคัดลอกการพัฒนาเก่าบางส่วน โครงสร้างของหินนั้นแตกต่างโดยพื้นฐานจากสิ่งที่เราคุ้นเคยในระบบ x86

นวัตกรรมแรกและสำคัญที่สุดคือเค้าโครงดั้งเดิม Bulldozer เวอร์ชันยอดนิยมทั้งหมดมีแปดคอร์อย่างเป็นทางการ อย่างไรก็ตาม ในความเป็นจริงมีโมดูลเต็มรูปแบบสี่โมดูล โดยแต่ละโมดูลมีหน่วยประมวลผลเพียงสองหน่วย ดูเหมือนว่านี้: กลุ่มเลขคณิตจำนวนเต็มสองกลุ่ม (เรียกว่าคอร์และรับผิดชอบโดยตรงในการคำนวณ) แบ่งปัน Front-End, คลัสเตอร์จุดลอยตัว (FPU) และแคชระดับที่สองเพิ่มขึ้นเป็น 2 MB

ประโยชน์ของการควบคู่ดังกล่าวคือการประหยัดพื้นที่ ลดการใช้พลังงานและต้นทุนการผลิต ข้อเสีย - การใช้ฉากเดียวกันร่วมกันจะส่งผลเสียต่อการแสดงครั้งสุดท้าย ภายใต้ภาระงานหนัก Front-End หนึ่งตัวอาจไม่สามารถรองรับสองคอร์ได้ AMD ไม่ได้ปฏิเสธการสูญเสียประสิทธิภาพ: ตามข้อมูลดังกล่าวทั้งคู่นั้นอ่อนแอกว่าโปรเซสเซอร์ดูอัลคอร์แบบเต็มประมาณ 20%

ปัญหาการสื่อสาร

เพื่อขจัดปัญหาคอขวด Front-End ต้องเรียนรู้วิธีแบ่งปันทรัพยากรระหว่างสองคอร์อย่างมีประสิทธิภาพ เพื่อให้บรรลุเป้าหมายนี้ หน่วยทำนายสาขาและตัวถอดรหัสคำสั่งได้รับการออกแบบใหม่ ซึ่งได้รับการช่องที่สี่สำหรับการประมวลผลคำสั่ง (เช่นใน Sandy Bridge) และเทคโนโลยี สาขาฟิวชั่น. ส่วนหลังช่วยให้คุณสามารถติดกาวส่วนหนึ่งของคำแนะนำไว้ในการดำเนินการเดียว ทั้งหมดนี้น่าจะช่วยเร่งการทำงานของ Front-End และป้องกันไม่ให้คริสตัลไม่ได้ใช้งาน

สำหรับคอร์เอง นี่คือชุดของ Out-of-Order, โหลด/ยกเลิกการโหลด, แคช L1 และคลัสเตอร์การประมวลผลสองคลัสเตอร์ ขณะนี้หน่วยการดำเนินการที่ไม่อยู่ในลำดับมีการลงทะเบียนไฟล์จริง เช่นเดียวกับใน Sandy Bridge ที่อยู่สำหรับการจัดเก็บข้อมูลการทำงานจะถูกทิ้งลงไป ซึ่งช่วยให้คุณสามารถยกเลิกการโหลดไปป์ไลน์หลักที่ล้าสมัยได้ โปรเซสเซอร์สำหรับการโหลด/ขนถ่ายได้รับบัฟเฟอร์เพิ่มขึ้น ความจุเพิ่มขึ้นเป็นสองเท่า และความสามารถในการทำงานด้วย ที่อยู่เสมือนซึ่งในทางทฤษฎีควรเพิ่มความเร็วในการทำงานกับแคชข้อมูล L1 อย่างหลังใน Bulldozer มีขนาดเล็กลงสี่เท่า: 16 ต่อ 64 KB ใน K10 การสูญเสียได้รับการชดเชยด้วยความเร็วของงาน การเชื่อมโยง L1 เพิ่มขึ้นจากสองเป็นสี่ช่องสัญญาณ ซึ่งหมายถึงสองเท่า โอประสิทธิภาพการค้นหาที่ดียิ่งขึ้น

มีคลัสเตอร์การประมวลผลสามกลุ่มในหนึ่งโมดูล: จำนวนเต็มสองตัวและอีกอันหนึ่งสำหรับการทำงานกับข้อมูลจุดลอยตัว เมื่อเปรียบเทียบกับ K10 คู่แรกสูญเสีย ALU หนึ่งตัว (มีส่วนร่วมในการคำนวณ) และ AGU (จัดการกับที่อยู่หน่วยความจำ) ตามทฤษฎีแล้ว สิ่งนี้หมายถึงประสิทธิภาพสูงสุดที่ลดลง ในทางปฏิบัติ การเปลี่ยนแปลงแทบจะมองไม่เห็นเลย เป็นการยากที่จะโหลดคลัสเตอร์จำนวนเต็มจนเต็ม

การเปลี่ยนแปลงหลักส่งผลต่อ FPU ซึ่งมีหน้าที่คำนวณจุดลอยตัวที่ซับซ้อน ใน K10 มันมีประสิทธิภาพมากขึ้น: ได้รับอุปกรณ์ MMX และ FMAC 128 บิตหนึ่งคู่สำหรับการดำเนินการบวกและการคูณ ต่างจาก K10 FMAC ได้รับการทำให้เป็นสากล: พวกเขาสามารถแทนที่กันซึ่งมีผลในเชิงบวกต่อความเร็วในการคำนวณ นอกจากนี้ พวกเขาเรียนรู้ที่จะรวมการดำเนินการไว้ในนิพจน์เดียว ซึ่งเพิ่มความแม่นยำในการคำนวณ

นอกจากนี้ FPU ยังได้รับชุดคำสั่งที่อัปเดตอีกด้วย ประการแรก ตอนนี้โปรเซสเซอร์ใช้งานได้กับ AVX ซึ่งรองรับรีจิสเตอร์ 256 บิต สำหรับการคำนวณ เช่นเดียวกับใน Sandy Bridge จะมี FMAC สองรายการรวมกัน ประการที่สอง Bulldozer สามารถทำงานร่วมกับคำสั่ง SSE 4.2, AENSI, FMA4 และ XOP ได้ สองชุดสุดท้ายเป็นเอกลักษณ์ของ AMD สำหรับคุณและฉันการเปลี่ยนแปลงทั้งหมดนี้มีความหมายเพียงสิ่งเดียวเท่านั้น - คำสั่งที่เคยทำก่อนหน้านี้ในรอบสัญญาณนาฬิกาหลายรอบจะถูกคำนวณเป็นรายการเดียวและสิ่งนี้ส่งผลโดยตรงต่อประสิทธิภาพการทำงาน จริงอยู่ เพื่อที่จะได้สัมผัสกับความเร็วที่เพิ่มขึ้น จำเป็นต้องได้รับการสนับสนุนคำแนะนำจากซอฟต์แวร์

กาวและกรรไกร

ด้วยเหตุนี้ แต่ละโมดูล Bulldozer จึงประกอบด้วยแคชข้อมูล Front-End, L2 และ L1 หนึ่งแคช, คลัสเตอร์จำนวนเต็มสองคลัสเตอร์ และบล็อกสำหรับการทำงานกับตัวเลขทศนิยม โดยรวมแล้วหินหนึ่งก้อนสามารถบรรจุชุดดังกล่าวได้ถึงสี่ชุด ในเวลาเดียวกันแต่ละคนก็สามารถเข้าถึงองค์ประกอบทั่วไปจำนวนหนึ่งได้ ตัวแรกคือตัวควบคุมหน่วยความจำแบบดูอัลแชนเนลที่รองรับ DDR3-1866 MHz อย่างที่สองคือแคช L3 ซึ่งปริมาณเมื่อเปรียบเทียบกับ K10 เพิ่มขึ้นจาก 6 เป็น 8 MB และการเชื่อมโยง - จาก 48 เป็น 64 ช่อง โปรดทราบว่าความถี่ของแคช L3 ไม่เหมือนกับความเร็วของคอร์ ซึ่งต่างจาก Sandy Bridge หากรุ่นท็อปทำงานที่ความเร็ว 3.6 GHz หน่วยความจำระดับล่าสุดจะอยู่ที่ 2.2 GHz สิ่งนี้นำไปสู่ความล่าช้าที่เห็นได้ชัดเจนซึ่งส่งผลเสียต่อประสิทธิภาพการทำงาน จากข้อมูลของ AMD การเสียสละนี้เกิดขึ้นเพื่อประโยชน์ในการทำงานที่เสถียรที่ความถี่สูง

ทาดัม!

แม้จะมีเทคนิคทางสถาปัตยกรรมและเทคโนโลยีการผลิตขนาด 32 นาโนเมตร แต่ Bulldozer ก็มีพื้นที่ 315 ตารางเมตรที่น่าประทับใจ มิลลิเมตร ซึ่งมากกว่า Sandy Bridge แบบ quad-core และรุ่นเก่าประมาณหนึ่งเท่าครึ่ง ลาโน. โชคดีที่การใช้พลังงานถูกเก็บไว้ภายในขอบเขตที่เหมาะสม - 125 วัตต์

นอกจากรุ่นแปดคอร์แล้ว ยังมีรุ่นหกและสี่คอร์อีกด้วย หน่วยประมวลผล. น้องชายทั้งสองใช้การออกแบบแปดคอร์เดียวกัน แต่มีหนึ่งหรือสองโมดูลที่ปิดใช้งาน

ความถี่พื้นฐานแตกต่างกันไปตั้งแต่ 3.1 ถึง 3.6 GHz เช่นเดียวกับ Sandy Bridge Bulldozer มีเทคโนโลยีโอเวอร์คล็อกอัตโนมัติ ชิปพิเศษที่รับผิดชอบ เทอร์โบคอร์ 2.0ติดตามโหลดคอร์ในปัจจุบันและระดับ TDP และทันทีที่มีโอกาส ความถี่ของโปรเซสเซอร์จะเพิ่มขึ้น ในกรณีท็อปคริสตัล เมื่อใช้ทุกโมดูล ความเร็วจะเพิ่มขึ้น 300 MHz หากทรัพยากรบางส่วนไม่ได้ใช้งาน - ที่ 600 MHz เมื่อโหลดต่ำ Bulldozer จะเข้าสู่โหมดประหยัดพลังงานซึ่งเทคโนโลยีจะเป็นผู้รับผิดชอบในเรื่องนี้ เย็นและเงียบ.

การโอเวอร์คล็อกด้วยตนเองนั้นง่ายดาย ประการแรก ทั้งบรรทัดมีตัวคูณที่ปลดล็อคแล้ว ประการที่สองผู้มาใหม่ได้รับระดับความสูงที่ดี: ภายใต้ไนโตรเจนเหลว Bulldozer รุ่นเก่าสร้างสถิติโลกใหม่ - 8429 MHz

สหาย

Bulldozer ทำงานบนซ็อกเก็ต AM3+ โดยพื้นฐานแล้ว นี่คือ AM3 ที่ได้รับการปรับปรุงเล็กน้อยพร้อมพินเพิ่มเติมหนึ่งพิน ชิปเซ็ตที่มีซ็อกเก็ตโปรเซสเซอร์ใหม่เรียกว่า 990FX, 990Xและ 970 . ต่างกันในคอนโทรลเลอร์ PCIe 2.0 รุ่นเก่ามี 32 เส้นรุ่นน้อง - 16 นอกจากนี้ 990FX และ 990X ยังรองรับ CrossFireX ในบรรดาคุณสมบัติของชิปเซ็ตเราสังเกตเห็นพอร์ต SATA Rev หกพอร์ต 3 และ 14 ขั้วต่อ USB 2.0. ไม่มีคอนโทรลเลอร์ USB 3.0

โปรดทราบว่า Bulldozer สามารถทำงานบนบอร์ดรุ่นเก่าได้เช่นกัน สิ่งที่คุณต้องมีคือ BIOS ที่อัปเดตแล้ว ข้อจำกัด: Turbo Core และ Cool"n"Quiet มีความเร็วในการตอบสนองลดลง และฟังก์ชันประหยัดพลังงานบางอย่างอาจไม่พร้อมใช้งาน

สถาปัตยกรรมโปรเซสเซอร์ Bulldozer มีความน่าสนใจ ในที่สุด AMD ก็หยุดคัดลอกตัวเองและเกิดสิ่งใหม่อย่างแท้จริง น่าเสียดายที่มีข้อได้เปรียบเหนือคู่แข่งเพียงเล็กน้อย ไม่มีแปดคอร์ที่ประกาศไว้ ในทางที่ดี เรามีโมเดล Quad-Core ที่มีจำนวนหน่วยประมวลผลเพิ่มขึ้น เช่น Intel Hyper-Threading แต่อยู่ที่ระดับฮาร์ดแวร์ แนวคิดนี้ดี แต่ประสิทธิภาพจะขึ้นอยู่กับความเร็วของ Front-End ข้อได้เปรียบที่แท้จริงของ Bulldozer นั้นมีเพียง FPU ที่ทรงพลังสำหรับการคำนวณจุดลอยตัวและเพิ่มความถี่ในการทำงานเมื่อเทียบกับ K10

มาเปิดตัวกันเลย! มาฝังมันกันเถอะ!

AMD ได้ประกาศแผนการที่จะเปิดตัวโปรเซสเซอร์ต่อไปนี้ บริษัทคาดว่าจะอัปเดตสถาปัตยกรรมทุกปี โดยคาดว่าจะได้รับประสิทธิภาพเพิ่มขึ้นประมาณ 15 เปอร์เซ็นต์ต่อวัตต์ในแต่ละครั้ง หาก AMD ปฏิบัติตามแผน เราจะเห็นสถาปัตยกรรมในปี 2555 เครื่องตอกเสาเข็ม(“โคเปอร์”) หนึ่งปีต่อมา - รถจักรไอน้ำ(“ลูกกลิ้งอบไอน้ำ”) และปี 2014 จะถูกจดจำไว้สำหรับการประกาศ รถขุด. งานก่อสร้างก็ประมาณนี้

หน้าต่างผิด

ตามข้อมูลของเอเอ็มดี วินโดว 7ไม่สามารถปลดปล่อยศักยภาพของการสร้างสรรค์ใหม่ได้อย่างเต็มที่: ตัวกำหนดเวลา OS ไม่ได้คำนึงถึงคุณสมบัติของ Bulldozer ตัวอย่างเช่น สำหรับโปรเซสเซอร์ใหม่ สิ่งสำคัญคือต้องกำหนดเธรดที่เชื่อมต่อถึงกันให้กับโมดูลเดียว มิฉะนั้นคอร์จะแลกเปลี่ยนข้อมูลไม่ผ่านแคช L2 ที่รวดเร็ว แต่ผ่านหน่วยความจำระดับที่สาม สตรีมแยกบางรายการได้รับการปฏิบัติที่ดีกว่าในลักษณะเดียวกันเพื่อปรับปรุงประสิทธิภาพของ Turbo Core 2.0 ในเวลาเดียวกัน งานเฉพาะสร้างภาระให้กับบล็อก Front End มากขึ้น และควรกระจายมันไปตามโมดูลต่างๆ ขอขอบคุณความร่วมมือกับ ไมโครซอฟต์ความแตกต่างเหล่านี้จะถูกนำมาพิจารณาในตัววางแผน วินโดว์ 8. อย่างไรก็ตาม คุณไม่ควรคาดหวังประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ

พจนานุกรม

คลัสเตอร์คอมพิวเตอร์จำนวนเต็ม- เกี่ยวข้องกับการดำเนินการกับจำนวนเต็ม (1, 2, 10)

ส่วนหน้า- บล็อกการดึงข้อมูลล่วงหน้า รับคำสั่งจากโปรแกรมและแปลเป็นภาษาที่โปรเซสเซอร์เข้าใจได้

เอฟพียู- กลุ่มการคำนวณข้อมูลจุดลอยตัว ทำการคำนวณด้วยเลขเศษส่วน (1.2345) และค่ามากด้วยกำลัง (1.2345E-10)

บล็อกการทำนายสาขา- คาดการณ์ล่วงหน้าว่าโปรแกรมอาจต้องการข้อมูลและการดำเนินการใดในช่วงเวลาถัดไป ไม่อนุญาตให้โปรเซสเซอร์ไม่ได้ใช้งาน

ตัวถอดรหัสคำสั่ง- แบ่งโปรแกรมออกเป็นการดำเนินการแบบไมโคร ซึ่งจากนั้นจะถูกใช้โดยคลัสเตอร์การประมวลผล

ชำรุด- บล็อกการดำเนินการพิเศษ จัดการกับการกระจายของการกระทำระหว่างคอร์ ส่งเฉพาะคำสั่งที่มีข้อมูลไปคำนวณเท่านั้น

โหลด/ยกเลิกการโหลดบล็อก (LSU) - ติดตามการเคลื่อนไหวของข้อมูลระหว่างเอาต์พุตจากสายพานลำเลียงและแคชข้อมูล L1

การเชื่อมโยงแคช- การเชื่อมโยงบรรทัดแคชและคอลัมน์ ยิ่งการเชื่อมโยงยิ่งสูง ความเร็วในการค้นหาก็จะยิ่งต่ำลง แต่ประสิทธิภาพก็จะยิ่งสูงขึ้น

มม- ชุดบล็อกสำหรับทำงานกับตัวเลขสูงสุด 8 ไบต์

ชุดคำสั่ง- อนุญาตให้หนึ่งคำสั่งดำเนินการกับข้อมูลหลาย ๆ อัน

ตารางที่ 1

ข้อมูลจำเพาะของโปรเซสเซอร์ AMD Bulldozer

จำนวนแกนประมวลผล

ความถี่พื้นฐาน

ความถี่เทอร์โบคอร์

รองรับหน่วยความจำ

การใช้พลังงาน

กระบวนการทางเทคนิค

ราคา ณ เดือนพฤศจิกายน 2554

ไม่ทราบ

อะไรเป็นตัวกำหนดประสิทธิภาพของโปรเซสเซอร์ ก่อนหน้านี้ มีสูตรที่ใช้อธิบายประสิทธิภาพเป็นผลคูณของจำนวนคำสั่งที่ดำเนินการต่อรอบสัญญาณนาฬิกาและความถี่ที่โปรเซสเซอร์นี้ทำงาน ตอนนี้ปัจจัยที่สามปรากฏในสูตรนี้ - จำนวนแกนประมวลผล ดังนั้นผู้พัฒนาโปรเซสเซอร์ที่ต้องการเปิดตัวผลิตภัณฑ์ที่รวดเร็วจึงมีหลายทางเลือกในการดำเนินการนี้

อย่างไรก็ตามไม่ใช่เรื่องง่ายทั้งหมด การเพิ่มจำนวนคำสั่งที่ดำเนินการโดยแกนประมวลผลต่อรอบสัญญาณนาฬิกาเป็นงานที่ค่อนข้างยาก คลาสสิค x86 รหัสโปรแกรมเกี่ยวข้องกับการดำเนินการคำสั่งตามลำดับ ดังนั้นเพื่อให้บรรลุการประมวลผลแบบคู่ขนาน โปรเซสเซอร์จะต้องติดตั้งหน่วยการทำนายสาขาและการเรียงลำดับคำสั่งที่มีประสิทธิภาพสูง ซึ่งการดำเนินการดังกล่าวต้องใช้ความพยายามทางวิศวกรรมอย่างมาก ในขณะเดียวกัน ความซับซ้อนของสถาปัตยกรรมไมโครส่งผลต่อขนาดทางกายภาพของคริสตัล และนำไปสู่ข้อจำกัดในการเพิ่มจำนวนคอร์ ดังนั้นหากผู้ผลิตกำลังจะสร้างโปรเซสเซอร์ที่มีคอร์จำนวนมาก ในทางกลับกัน สถาปัตยกรรมไมโครก็ควรพยายามทำให้ง่ายขึ้น มันไม่ง่ายเลยด้วย ความถี่สัญญาณนาฬิกา. การเดิมพันการเติบโตจะต้องทำการเปลี่ยนแปลงบล็อกภายในของโปรเซสเซอร์อีกครั้งและทำให้ขั้นตอนการดำเนินการยาวขึ้น ผลลัพธ์จะเป็นดังนี้: เพื่อให้โปรเซสเซอร์ได้รับเหรียญรางวัลด้านประสิทธิภาพ นักพัฒนาจะต้องทำงานอย่างหนักเพื่อเพิ่มประสิทธิภาพพารามิเตอร์จำนวนหนึ่งไปพร้อมๆ กัน

ปัญหายังอยู่ที่ความจริงที่ว่าวิธีการใด ๆ ที่เลือกเพื่อปรับปรุงประสิทธิภาพของโปรเซสเซอร์อาจประสบความสำเร็จได้เฉพาะในกรณีพิเศษเท่านั้น ไม่ใช่ทุกโปรแกรมที่จะสามารถทำงานได้อย่างมีประสิทธิภาพกับคอร์จำนวนมาก อัลกอริธึมบางอย่างไม่อนุญาตให้คุณคาดการณ์การเปลี่ยนและเรียงลำดับคำแนะนำได้อย่างถูกต้อง และในบางกรณี ประสิทธิภาพจะไม่เพิ่มขึ้นแม้ว่าจะมีความถี่สัญญาณนาฬิกาเพิ่มขึ้นก็ตาม เนื่องจากมีปัญหาคอขวดอื่น ๆ ในระบบ

การหาจุดสมดุลที่เหมาะสมไม่ใช่เรื่องง่าย และอะไรคือเกณฑ์ที่เหมาะสมที่สุด? เราสามารถเปรียบเทียบประสิทธิภาพของโปรเซสเซอร์ในโปรแกรมจำนวนจำกัดเท่านั้น และเลือกโปรแกรมที่เร็วที่สุดสำหรับกรณีเฉพาะ อย่างไรก็ตาม นี่ไม่ได้รับประกันแต่อย่างใดว่าการใช้ชุดเครื่องมือทดสอบอื่น เราจะไม่ได้รับการประมาณการที่ตรงกันข้ามโดยสิ้นเชิง มีการแนะนำแบบยาวไว้ที่นี่เพราะวันนี้เราจะมาทำความรู้จักกับโปรเซสเซอร์ AMD FX ซีรีส์ใหม่ซึ่งเป็นผลิตภัณฑ์เรือธงของ AMD ซึ่งเป็นที่รู้จักอย่างกว้างขวางภายใต้ชื่อรหัส Zambezi โปรเซสเซอร์นี้มีพื้นฐานมาจากสถาปัตยกรรมไมโคร Bulldozer ที่มีการโต้เถียงกันอย่างมาก ซึ่งสามารถรวบรวมบทวิจารณ์ที่ไม่ประจบสอพลอจำนวนมากได้แล้ว แต่ประเด็นไม่ใช่ว่าสถาปัตยกรรมไมโครนี้ไม่ดีอย่างสิ้นเชิง เมื่อเลือกความสมดุลของคุณลักษณะที่ดีที่สุด นักพัฒนาประเมินความต้องการของผู้ใช้ส่วนใหญ่อย่างไม่ถูกต้อง และให้ความสำคัญกับปัจจัยที่ไม่ถูกต้องใน "สูตรพื้นฐาน" เป็นผลให้แผนเริ่มต้นในการเปิดตัวโซลูชันประสิทธิภาพสูงของคนรุ่นใหม่เกิดข้อผิดพลาดและสาวกของ AMD รู้สึกทึ่งกับคำมั่นสัญญาของความก้าวหน้าได้รับสิ่งที่แตกต่างไปจากที่พวกเขาคาดไว้อย่างสิ้นเชิง อย่างไรก็ตาม นี่เป็นเหตุผลที่ร้ายแรงและมีเหตุผลของความผิดหวังหรือไม่? เราจะพูดถึงเรื่องนี้ในเนื้อหานี้

⇡ การนับเมล็ดข้าว: แปดหรือสี่เมล็ด?

ในขณะที่ทำงานเกี่ยวกับการออกแบบใหม่สำหรับโปรเซสเซอร์ประสิทธิภาพสูง AMD ตัดสินใจจัดลำดับความสำคัญของจำนวนแกนประมวลผล นี่เป็นตัวเลือกที่สมเหตุสมผลโดยสมบูรณ์ตามความจริงที่ว่าในช่วงหลายปีที่ผ่านมามีซอฟต์แวร์แบบมัลติเธรดเพิ่มมากขึ้นเรื่อย ๆ และการพัฒนาสถาปัตยกรรมไมโครที่ออกแบบมาสำหรับการพัฒนาเป็นเวลาหลายปีควรคำนึงถึงไม่ใช่สถานะปัจจุบันของตลาดเป็นหลัก แต่ แนวโน้มที่สังเกตได้ แปดคอร์ที่มีอยู่ในเวอร์ชันพื้นฐานของโปรเซสเซอร์ใหม่คือสิ่งที่ AMD กำลังจะพิชิตตลาด โดยจนถึงขณะนี้มีเพียงชิปเท่านั้นที่ถูกนำเสนอ โดยจำนวนคอร์สูงสุดที่จำกัดไว้ที่หกคอร์ ( ที่นี่เรากำลังพูดถึงเฉพาะคอมพิวเตอร์เดสก์ท็อปเท่านั้น — ประมาณ เอ็ด )

ในเวลาเดียวกันนักพัฒนาไม่ต้องการใช้คอร์ของสถาปัตยกรรมไมโคร K10 แบบเก่า ไม่เพียงแต่จะใหญ่เกินไปเท่านั้น ขนาดทางกายภาพแต่ตามที่ Llano สามารถตัดสินได้ พวกมันไม่ได้มีแนวโน้มที่จะทำงานที่ความถี่สัญญาณนาฬิกาสูงแม้ว่าจะถูกถ่ายโอนไปยังเทคโนโลยี 32 นาโนเมตรที่ทันสมัยแล้วก็ตาม นอกจากนี้ ยังไม่รองรับฟีเจอร์สมัยใหม่มากมาย เช่น คำแนะนำ AVX ดังนั้นในการประกอบโปรเซสเซอร์แปดคอร์ AMD ได้สร้างสถาปัตยกรรมไมโครใหม่ - Bulldozer ตัวแทนของ บริษัท ชอบที่จะบอกว่าการพัฒนานั้นดำเนินการตั้งแต่เริ่มต้น แต่ในความเป็นจริงแล้วใน Bulldozer cores คุณสามารถค้นหาการอ้างอิงมากมายเกี่ยวกับสถาปัตยกรรมไมโครอื่นที่นำเสนอในปีนี้ - Bobcat ซึ่งมุ่งเป้าไปที่การใช้งานในอุปกรณ์ขนาดกะทัดรัดและประหยัดพลังงาน อย่างไรก็ตาม ความสัมพันธ์ระหว่าง Bulldozer และ Bobcat นั้นค่อนข้างห่างไกล และเราพูดถึงมันเพียงเพื่อให้แนวคิดทั่วไปชัดเจน - Bulldozer รวมแกนที่ค่อนข้างเรียบง่ายจำนวนมากเข้าด้วยกัน

ในเวลาเดียวกันเราไม่ได้พูดถึงการผสมผสานดั้งเดิมของคอร์ธรรมดาแปดคอร์บนชิปเซมิคอนดักเตอร์ตัวเดียว ในสถานการณ์นี้ โปรเซสเซอร์ที่ได้จะมีประสิทธิภาพแบบเธรดเดียวที่ต่ำมาก และนี่จะกลายเป็นปัญหาที่ค่อนข้างร้ายแรง เนื่องจากมีโปรแกรมไม่กี่โปรแกรมที่ไม่แบ่งโหลดออกเป็นหลายเธรดในการคำนวณ ดังนั้น ประการแรก แกนประมวลผลได้รับการปรับให้เหมาะสมสำหรับการทำงานที่ความเร็วสัญญาณนาฬิกาสูง และประการที่สอง พวกเขาถูกจับคู่เป็นโมดูลแบบดูอัลคอร์ที่สามารถแบ่งปันทรัพยากรเพื่อให้บริการเธรดเดียวได้ ผลลัพธ์คือการออกแบบที่ค่อนข้างน่าสนใจ: ส่วนอินพุตของไปป์ไลน์การดำเนินการของโมดูลดูอัลคอร์นั้นเป็นเรื่องปกติและการประมวลผลคำสั่งเพิ่มเติมจะถูกแบ่งระหว่างอุปกรณ์ดำเนินการสองชุด

พื้นฐานของการออกแบบ Bulldozer คือสิ่งที่เรียกตามอัตภาพว่าโมดูลดูอัลคอร์

จำได้ว่ามีกระบวนการประมวลผลข้อมูลค่ะ โปรเซสเซอร์ที่ทันสมัยมีหลายขั้นตอน: ดึงคำสั่ง x86 จากหน่วยความจำแคช, ถอดรหัส - แปลเป็นการดำเนินการแมโครภายใน, การดำเนินการ, บันทึกผลลัพธ์ สองขั้นตอนแรกในโมดูล Bulldozer จะดำเนินการสำหรับคู่ของคอร์ด้วยกัน และจากนั้นสำหรับคำสั่งจำนวนเต็ม การดำเนินการจะถูกกระจายไปยังสองคอร์ของคลัสเตอร์ หรือในกรณีของเลขคณิตจริง จะดำเนินการในบล็อกของการดำเนินการจุดลอยตัว เหมือนกันกับสองคอร์

โมดูล Bulldozer ได้รับการออกแบบมาเพื่อประมวลผลสี่คำสั่งต่อรอบสัญญาณนาฬิกา และด้วยเทคโนโลยีการรวมมาโคร คำสั่ง x86 บางคู่จึงสามารถพิจารณาโดยโปรเซสเซอร์เป็นการดำเนินการเดียว ซึ่งหมายความว่าโดยทั่วไปโมดูล Bulldozer แบบดูอัลคอร์นั้นมีพลังคล้ายกับคอร์เดียวของโปรเซสเซอร์ Intel สมัยใหม่ ซึ่งสามารถประมวลผลสี่คำสั่งต่อรอบสัญญาณนาฬิกาและยังรองรับการรวมมาโครด้วย

อย่างไรก็ตาม มีความแตกต่างที่สำคัญระหว่างโมดูล Bulldozer และแกน Sandy Bridge ซึ่งสามารถเรียกความเร็วทางทฤษฎีที่เท่ากันโดยประมาณได้ เนื่องจากโมดูลของโปรเซสเซอร์ AMD ใหม่ประกอบด้วยคอร์ที่เท่ากันสองคอร์ที่เหลือจึงสามารถแสดงประสิทธิภาพสูงสุดได้ก็ต่อเมื่อประมวลผลคู่เธรดเท่านั้น หากรองรับโหลดแบบเธรดเดียว ความเร็วของบริการจะถูกจำกัดด้วยจำนวนอุปกรณ์ดำเนินการภายในคลัสเตอร์ดังกล่าว และมีไม่มากนักเนื่องจากความปรารถนาของ AMD ที่จะลดความซับซ้อนของคอร์แต่ละคอร์ - น้อยกว่าโปรเซสเซอร์ที่มี Sandy Bridge หรือสถาปัตยกรรมไมโคร K10 ถึงหนึ่งเท่าครึ่ง นั่นคือ ALU เลขคณิตสองตัวและ AGU ที่อยู่สองตัว

นี่คือลักษณะโครงสร้างการทำงานของโมดูลที่สร้างขึ้นบนสถาปัตยกรรมไมโคร Bulldozer จากสองคอร์จะเหลือแอคชูเอเตอร์จำนวนเต็มเพียงสองชุดเท่านั้น

บล็อกของการดำเนินการจุดลอยตัวทั่วไปในโมดูลโปรเซสเซอร์ก็มีความซับซ้อนค่อนข้างต่ำเช่นกัน ประกอบด้วยหน่วยดำเนินการ FMAC 128 บิตสองหน่วย ซึ่งสามารถรวมกันเป็นหน่วยเดียวเพื่อประมวลผลคำสั่ง 256 บิต ดูเหมือนว่าจะมีแอคทูเอเตอร์ไม่มากนักที่นี่ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าพวกมันถูกแบ่งออกเป็นคู่คอร์ แต่พวกมันมีความเป็นสากลมากกว่าสถาปัตยกรรมไมโครรุ่นก่อนหน้าและคู่แข่งซึ่งใช้ตัวคูณและตัวบวกแยกกัน และด้วยเหตุนี้ ในบางกรณีเมื่อทำงานกับจำนวนจริง โมดูล Bulldozer แบบดูอัลคอร์จึงสามารถเทียบเคียงและมากกว่านั้นได้ ประสิทธิภาพสูงกว่า ตัวอย่างเช่น แกน Sandy Bridge หนึ่งแกน

แนวคิดที่คล้ายกันในการรวมอุปกรณ์ 128 บิตเพื่อทำงานกับคำสั่ง 256 บิตนั้นใช้ใน Sandy Bridge

อย่างไรก็ตาม โมดูล Bulldozer ควรแสดงจุดแข็งที่ยิ่งใหญ่ที่สุดภายใต้การโหลดแบบดูอัลเธรด คอร์ Sandy Bridge หนึ่งคอร์สามารถประมวลผลเธรดการคำนวณได้สองเธรด ด้วยเหตุนี้จึงมีเทคโนโลยี Hyper-Threading อย่างไรก็ตาม คำสั่งทั้งหมดจะถูกส่งไปยังแอคทูเอเตอร์ชุดเดียว ซึ่งในทางปฏิบัติทำให้เกิดการชนกันหลายครั้ง โมดูล Bulldozer ประกอบด้วยคลัสเตอร์จำนวนเต็มอิสระสองกลุ่มที่สามารถรันเธรดพร้อมกันได้ และจำนวนอุปกรณ์ดำเนินการทั้งหมดในนั้นเกินจำนวนอุปกรณ์ดังกล่าวในเคอร์เนล Sandy Bridge หนึ่งครั้งครึ่ง

ทางด้านซ้ายคือโมดูล Bulldozer ทางด้านขวาคือคอร์ที่แข่งขันกันซึ่งรองรับ Hyper-Threading ในความเป็นจริงมันดูไม่เหมือน Sandy Bridge มากนัก แต่ภาพประกอบบ่งบอกถึงแก่นแท้ของปัญหา

เป็นผลให้โมดูล Bulldozer มีประสิทธิภาพสูงสุดที่สูงกว่าแกน Sandy Bridge แต่ประสิทธิภาพนี้ค่อนข้างยากที่จะปลดล็อค แกน Sandy Bridge โหลดทรัพยากรของตัวเองอย่างชาญฉลาดด้วยตรรกะบนชิปขั้นสูงที่แยกวิเคราะห์โค้ดแบบเธรดเดี่ยวอย่างอิสระและดำเนินการแบบคู่ขนานบนอุปกรณ์ประมวลผลครบชุด ใน Bulldozer งานในการใช้แอคทูเอเตอร์อย่างมีประสิทธิภาพจะเปลี่ยนไปเป็นโปรแกรมเมอร์บางส่วน ซึ่งจะต้องแบ่งโค้ดของเขาออกเป็นสองเธรด - ดาวน์โหลดแบบเต็มของความจุโมดูลทั้งหมดจะเป็นไปได้เมื่อนั้นเท่านั้น

และนั่นคือสิ่งที่เป็นเรื่องปกติ เมื่อพิจารณาถึงโมดูลโปรเซสเซอร์ Bulldozer แบบดูอัลคอร์ เราเปรียบเทียบมันกับคอร์ Sandy Bridge ตัวเดียวอย่างต่อเนื่อง และในขณะเดียวกัน เราก็สามารถวาดแนวที่ค่อนข้างถูกต้องได้ สิ่งนี้ทำให้เราสงสัยว่าธรรมชาติ "แปดคอร์" ของสถาปัตยกรรมไมโครใหม่ไม่ควรถือเป็นผลงานจากจินตนาการของนักการตลาดใช่หรือไม่ AMD กล่าวว่าคอร์ควรนับด้วยจำนวนคลัสเตอร์จำนวนเต็ม โดยอ้างว่าโมดูลสามารถให้ประสิทธิภาพได้ถึง 80% ของคอร์อิสระสองตัว อย่างไรก็ตามเราไม่ควรลืมว่าคอร์ที่ใช้ Bulldozer นั้นง่ายกว่าคอร์ของโปรเซสเซอร์อื่นอย่างมาก ดังนั้นจำนวนโมดูลดูอัลคอร์จึงเป็นลักษณะที่สะท้อนถึงประสิทธิภาพของ Bulldozer ได้เพียงพอมากขึ้น

ค้นหาจำนวนแกนประมวลผลสูงสุดและรับงานในแผนกการตลาดของ AMD

⇡ หน่วยความจำแคช

การจัดระเบียบหน่วยความจำแคชในโปรเซสเซอร์ Bulldozer นั้น“ เชื่อมโยง” ไม่มากนักกับแต่ละคอร์ แต่กับโมดูลดูอัลคอร์ ในความเป็นจริง แต่ละคอร์ได้รับการจัดสรรเฉพาะแคชข้อมูลระดับแรกของตัวเองเท่านั้น หน่วยความจำแคชระดับอื่น ๆ ทั้งหมดเกี่ยวข้องกับโมดูลโดยรวมหรือกับโปรเซสเซอร์:

  • แต่ละคอร์มีแคช L1 ของตัวเองสำหรับข้อมูล ปริมาตรของมันคือ 16 KB และสถาปัตยกรรมถือว่ามีช่องสัญญาณที่เชื่อมโยงสี่ช่อง แคชนี้ทำงานด้วยอัลกอริธึมการเขียนผ่าน ซึ่งหมายความว่าแคชนี้รวมอยู่ด้วย
  • แคชระดับแรกสำหรับคำแนะนำมีอยู่ในสำเนาเดียวสำหรับโมดูลโปรเซสเซอร์คู่แต่ละโมดูล ปริมาณของมันคือ 64 KB และจำนวนช่องการเชื่อมโยงคือสองช่อง
  • นอกจากนี้ แคชระดับที่สองยังถูกนำไปใช้ในอินสแตนซ์เดียวต่อโมดูลอีกด้วย ขนาดที่น่าประทับใจคือ 2 MB การเชื่อมโยงคือ 16 ช่องสัญญาณและอัลกอริธึมการทำงานเป็นแบบพิเศษ
  • นอกจากนี้โปรเซสเซอร์แปดคอร์โดยรวมยังมีแคช L3 ขนาด 8 เมกะไบต์พร้อมการเชื่อมโยง 64 แชนเนล ลักษณะเฉพาะของแคชนี้คือทำงานที่ความถี่ต่ำกว่าอย่างเห็นได้ชัดเมื่อเปรียบเทียบกับโปรเซสเซอร์ซึ่งมีความถี่ประมาณ 2 GHz

ตารางต่อไปนี้อธิบายอัตราส่วนของวอลุ่มหน่วยความจำแคชสำหรับ Bulldozer 8 คอร์, Sandy Bridge 4 คอร์ และโปรเซสเซอร์ Thuban (Phenom II X6 6 คอร์ สร้างขึ้นบนสถาปัตยกรรมไมโคร K10)

ประเภทแคช รถปราบดิน (8 คอร์/4 โมดูล) แซนดี้บริดจ์ (4 คอร์) ทูบัน (6 คอร์)
L1I (คำแนะนำ) 4x64 KB 4x32 KB 6x64 KB
L1D (ข้อมูล) 8x16 KB 4x32 KB 6x64 KB
L2 4x2 เมกะไบต์ 4x256 KB 6x512 KB
L3 8 เมกะไบต์, 2.0-2.2 กิกะเฮิร์ตซ์ 8 MB ทำงานที่ความเร็วโปรเซสเซอร์ 6 เมกะไบต์, 2.0 กิกะเฮิร์ตซ์

ดังที่คุณเห็นจากตาราง AMD อาศัยแคชระดับบนที่มีความจุสูง ซึ่งจะมีประโยชน์มากในกรณีของการโหลดแบบมัลติเธรดที่ร้ายแรง อย่างไรก็ตาม หน่วยความจำแคชในโปรเซสเซอร์ใหม่โดยทั่วไปจะช้ากว่าผลิตภัณฑ์รุ่นก่อนหน้าและผลิตภัณฑ์คู่แข่ง สิ่งนี้ตรวจพบได้ง่ายเมื่อทำการวัดเวลาแฝงในทางปฏิบัติ

ความล่าช้าอย่างมากในการเข้าถึงข้อมูลใน Bulldozer สามารถชดเชยได้ด้วยความเร็วสัญญาณนาฬิกาที่สูงของ CPU เหล่านี้เท่านั้น อย่างไรก็ตามซึ่งเดิมมีการวางแผนไว้ - ในแง่ของความถี่โปรเซสเซอร์แปดคอร์ใหม่ควรจะเกิน Phenom II 30% อย่างไรก็ตาม AMD ไม่สามารถออกแบบคริสตัลเซมิคอนดักเตอร์ที่สามารถทำงานได้อย่างเสถียรที่ความถี่สูงเช่นนี้ ผลที่ได้คือเวลาแฝงของแคชที่สูงสามารถสร้างความเสียหายอย่างมากต่อระบบที่ใช้ Bulldozer