AMD Bulldozer는 최신 세대의 AMD 프로세서입니다. 시스템 관리자는 누구입니까?

AMD는 새로운 Bulldozer 아키텍처에 대해 완전히 다른 접근 방식을 취하기로 결정했습니다. 일부 리소스(L2 캐시, 부동 소수점 모듈)를 공유하지만 서로 완전히 독립적이지 않은 듀얼 코어 모듈을 만들기로 결정했습니다. (아래 그림 참조)
AMD에 따르면 이는 프로세서를 최적화하는 동시에 프로세서 가격을 낮추기 위해 수행되었습니다. 최적화는 기존 멀티 코어 프로세서에서 일부 모듈이 유휴 상태일 수 있으며 이러한 모듈을 Bulldozer 아키텍처에 결합할 수 있다는 것입니다. 그리고 모듈 수가 적다는 것은 재료가 덜 낭비된다는 것을 의미하며 이는 결과적으로 비용, 에너지 절약 및 열 감소에 긍정적인 영향을 미칠 것입니다.
따라서 AMD는 새로운 Bulldozer 프로세서를 듀얼 코어라고 부르겠지만 실제로는 완전히 독립된 코어를 갖지 않기 때문에 진정한 듀얼 코어는 아닙니다. 그리고 이름은 " 듀얼 코어 프로세서» 마케팅 목적으로 사용됩니다.

"를 생성하기 위해 쿼드 코어 프로세서", AMD는 이러한 장치 중 2개를 사용하므로 프로세서에는 실제로 4개가 아닌 2개의 "프로세서"가 내부에 있습니다(2개의 빌딩 블록은 아래 이미지에 표시됨). AMD는 계속해서 새로운 프로세서를 쿼드 코어라고 부를 것입니다.


Bulldozer 아키텍처 기반의 8코어 프로세서입니다.

이제 Bulldozer 아키텍처에 사용되는 Fetch 및 Decode 모듈을 자세히 살펴보겠습니다.

가져오기 및 디코딩 모듈

Fetch 모듈은 캐시에서 디코딩을 위한 명령을 가져오는 역할을 담당합니다. 랜덤 액세스 메모리.

모듈을 가져오고 디코딩합니다.

이미 언급했듯이 샘플링 모듈은 한 번에 두 개의 "코어"를 사용합니다. L1 명령 캐시는 두 개의 코어에서도 동시에 사용되지만 각 프로세서 코어에는 자체 L1 데이터 캐시가 있습니다.
AMD는 이미 Bulldozer 아키텍처에 사용되는 L1 명령어 캐시가 64KB 양방향 세트 연관 캐시로 구성되어 있다고 발표했습니다. 동일한 구성이 AMD64 아키텍처 프로세서에 사용되지만 차이점은 AMD64 프로세서에는 코어당 L1 캐시가 있는 반면 Bulldozer 프로세서에는 코어 쌍당 하나의 L1 캐시가 있다는 점입니다. 그러나 데이터 캐시의 크기는 16KB에 불과하며 이는 AMD64 아키텍처 기반 프로세서에 사용되는 코어당 64KB보다 훨씬 적습니다.

TLB (번역 참조 버퍼- 초고속 메모리 버퍼). TLB의 크기가 공개되었습니다. 가상 메모리 주소를 물리적 주소로 변환하도록 설계된 소량의 메모리를 가진 버퍼입니다.
페이지 파일로 더 잘 알려진 가상 메모리는 하드 드라이브의 특수 파일에 의해 RAM 용량이 "증가"되는 기술입니다.

컴퓨터 프로그램은 x86 명령어를 사용하여 작성되지만 현재 프로세서는 기본 RISC 명령어만 이해합니다. 디코딩 모듈은 x86 프로그램 명령어를 RISC 마이크로 명령어로 변환하는 역할을 합니다. 불도저 아키텍처에는 4개의 디코더가 있지만 이 순간 AMD는 각 디코더가 어떤 명령을 실행하는지 공개하지 않습니다. 일반적으로 이러한 디코더 중 하나는 제공된 ROM 마이크로코드("μ코드" 또는 "마이크로코드")를 사용하여 복잡하고 복잡한 명령을 실행합니다. 복잡한 명령어의 디코딩은 몇 번의 클록 사이클 후에 완료되며 그 후 여러 마이크로 명령어로 변환됩니다. 일반적으로 제조업체는 가장 일반적인 명령을 디코딩할 때 단 하나의 클록 주기에만 실행되는 방식으로 프로세서를 최적화합니다.

소개 Bulldozer 마이크로아키텍처를 기반으로 한 AMD의 새로운 프로세서가 올해뿐만 아니라 적어도 현재 5년 동안 가장 기대되는 제품 중 하나라는 점에는 의심의 여지가 없습니다. 여기에는 AMD 제품에 대한 엄청난 팬층이 존재하는 것뿐만 아니라 여러 가지 이유가 있습니다. 어떤 사람들은 이 회사의 프로세서가 모든 면에서 인텔보다 나았던 시절을 새롭게 기억합니다. 어떤 사람들은 가격과 성능의 균형 잡힌 조합으로 인해 AMD 제품을 좋아합니다. 그리고 일부는 회사 내에서 개발 중인 마이크로아키텍처의 장점에 대한 AMD의 감동적인 이야기에 깊은 인상을 받았습니다. 이 모든 것이 Bulldozer 세대 프로세서의 출시를 기다리는 수년 간의 지루한 기다림으로 이어졌고 그 결과는 다음과 같습니다. 여러분은 큰 관심과 은밀한 관심을 가지고 이 기사를 읽고 있습니다.

그러나 분명히 그만한 가치가 있습니다. 향후 몇 년 동안 프로세서 시장의 상황은 불도저 마이크로아키텍처가 얼마나 성공적인지에 달려 있습니다. 결국 Intel만이 2~3년마다 새로운 마이크로아키텍처 솔루션을 출시할 수 있는 엔지니어링 및 생산 리소스를 보유하고 있습니다. AMD는 개발에서 훨씬 더 신중한 속도를 고수해야 합니다. 기억하기가 무섭지만 오늘날의 Phenom II 및 Athlon II 프로세서에 사용되는 마이크로 아키텍처는 1999년으로 거슬러 올라갑니다. 그 이후로 AMD는 외관상 변경만 해왔습니다. 그러므로 우리는 불도저의 출시와 함께 개발 주기가 갑자기 더욱 활성화될 것이라는 특별한 환상을 갖고 있지 않습니다. Bulldozer가 향후 몇 년간 AMD 성능 제공의 핵심이 될 것은 분명합니다.

~에 현재 버전이 마이크로아키텍처 개발을 위한 회사의 계획은 2014년까지 작성되었지만 그 이후에도 계속될 것이 거의 확실합니다.

AMD가 매년 10~15%의 성능 향상을 약속한다는 사실은 고무적인 증상이라기보다는 오히려 우려스러운 증상입니다. 아마도 이러한 증가는 주로 클럭 주파수의 증가와 새로운 마이크로 아키텍처 개선에 의해 제공될 것입니다.

즉, 현재 형태의 Bulldozer 마이크로 아키텍처의 성공은 AMD의 향후 위치, 제품 경쟁력, 궁극적으로 프로세서 시장의 전반적인 상황에 결정적인 영향을 미칠 것입니다.

물론 AMD용 불도저가 유일한 핵심 제품이 아니라는 점은 부정할 수 없다. 이 마이크로아키텍처는 오늘날 고성능 데스크탑 및 서버 부문을 목표로 합니다. 동시에 AMD는 다른 시장 부문에 대한 다른 제안도 갖고 있습니다. 예를 들어, 올해 초 회사에서 출시한 Bobcat 마이크로 아키텍처 또는 Llano 제품군의 APU를 사용하는 저렴하고 비용 효율적인 프로세서는 회사에 그다지 중요한 영역이 아닙니다. 그리고 이러한 제안은 테스트 결과에서 알 수 있듯이 넷북 및 넷탑용 솔루션과 중저가 범위의 통합 플랫폼의 기반으로 적절하게 작동할 수 있는 성공적인 솔루션입니다.

그러나 불도저의 성공과 실패는 훨씬 더 중요한 의미를 갖는다. 첫째, 이 마이크로아키텍처는 서버 및 데스크탑 생산성 시스템과 같이 훨씬 더 높은 수익 마진을 가진 시장 부문을 대상으로 합니다. 따라서 이는 AMD의 재무 상태에 훨씬 더 큰 영향을 미칠 수 있습니다. 둘째, 성공 AMD 프로세서시리즈 C, E 및 A - 솔직히 이것은 마이크로 프로세서 설계 개발에 참여한 엔지니어의 장점이 아닙니다. 이러한 CPU(또는 AMD 용어를 사용하는 경우 APU)의 시장 성공은 적시에 ATI를 구매한 덕분에 AMD 프로세서에 탑재된 Radeon HD 제품군의 그래픽 코어가 있기 때문에 가능합니다. 불도저는 특히 컴퓨팅 코어의 마이크로 아키텍처를 연구하는 엔지니어링 팀을 위한 일종의 자격 시험입니다. 셋째, Bulldozer는 궁극적으로 에너지 효율적인 플랫폼을 위한 솔루션을 제외하고 전체 AMD 프로세서 제품군의 기반이 될 것입니다. 따라서 궁극적으로 Llano 프로세서를 포함하여 거의 모든 곳에서 K10을 대체하는 것은 하위 시장 부문에 등장할 마이크로 아키텍처입니다.



요컨대 불도저 마이크로아키텍처를 탑재한 프로세서의 성공적인 출시의 중요성은 아무리 강조해도 지나치지 않습니다. 감성적인 면과 물질적인 면 모두에서 상징적인 제품입니다. 그래서 비유적으로 말하자면, 신형 K7이나 K8을 실제로 만나보고 싶습니다.

그러나 테스트하기 전에도 그러한 현상이 반복될 가능성은 적다고 말할 수 있습니다. 인텔 자체는 AMD가 이상적인 NetBurst 마이크로아키텍처와는 거리가 먼 것을 홍보하기 위해 지난번에 AMD가 손바닥을 잡을 수 있도록 도왔습니다. 그런 다음 Intel 엔지니어는 클럭 속도를 높이는 데 중점을 두었지만 결국 엄청난 누출 전류 형태의 장애물에 부딪혔고 AMD는 클럭 주기당 더 많은 명령을 실행하는 것을 목표로 보다 균형 잡힌 마이크로 아키텍처를 제공했습니다. 그러나 Intel이 자신의 원칙을 수정하고 클럭 주기당 최대 명령 수 실행을 목표로 하는 새로운 Core 마이크로 아키텍처를 도입한 후 AMD는 지금까지 있었던 뒤처진 위치로 되돌아갔습니다.

클록 주기당 실행되는 명령 수 측면에서 최신 Intel 프로세서를 능가하는 것은 매우 어렵다는 것은 분명합니다. 오늘날의 Sandy Bridge 마이크로아키텍처는 본질적으로 효율적인 설계에 대한 최소 3가지 최적화 주기의 결과이므로 AMD로부터 더 높은 특정 코어 효율성을 기대할 수 없습니다. 더욱이 AMD 엔지니어들은 스스로 그러한 목표를 설정하지도 않았습니다.

불도저의 주요 아이디어는 다른 곳에 있습니다. 개발자에 따르면 이 마이크로 아키텍처를 기반으로 구축된 프로세서는 경쟁사 및 이전 제품보다 높은 클럭 속도와 더 많은 수의 컴퓨팅 코어로 인해 우수한 성능을 보여야 합니다. 동시에 생산 시 상당한 수익성을 유지해야 합니다. 즉, 반도체 결정이 너무 커서는 안 되며 개별 코어 측면에서 너무 높은 열 방출을 보여서는 안 됩니다.

AMD 멀티코어 디자인 비밀

프로세서 코어 수가 증가하면 필연적으로 프로세서 칩 영역이 증가한다는 것은 분명합니다. 결과적으로 생산의 복잡성과 최종 제품의 비용이 모두 증가합니다. 따라서 예를 들어 최대 컴퓨팅 코어 수를 갖춘 프로세서는 오늘날 서버 시장 부문에서만 사용됩니다. 기업 고객은 개인 사용자보다 훨씬 더 많은 돈을 지불할 의향이 있습니다. 결과 프로세서의 허용 가능한 비용을 유지하면서 코어 수를 늘리기 위해 AMD가 선택한 과정은 코어 자체의 단순화와 결합되어야 합니다. 그러나 반면에 커널을 단순화하면 바람직하지 않은 효과가 수반됩니다. 즉, 현재로서는 여전히 충분한 수의 약한 병렬 로드가 있는 애플리케이션의 성능 저하입니다.

따라서 AMD 엔지니어는 자신의 길을갔습니다. 개별 코어의 마이크로아키텍처는 더욱 복잡해졌으며 가능할 때마다 클록당 실행되는 명령 수가 늘어났습니다.



그러나 일반적으로 각 코어에 존재하지만 동시에 지나치게 효율적인 리소스의 일부를 컴퓨팅 코어 쌍 간에 공유하기로 결정했습니다.



그 결과 듀얼 코어 어셈블리는 불도저 프로세서의 기본 빌딩 블록이 되었습니다. AMD 용어로 모듈이라고 하는 이러한 노드에는 두 개의 전체 정수 액추에이터 세트가 있습니다. 그러나 동시에 부동 소수점 단위, 명령어 프리페칭 및 디코딩 장치, 두 번째 수준 캐시는 두 개의 코어에 대한 단일 복사본에 존재하며 이들 사이에서 리소스를 공유합니다. 개발자의 추정에 따르면 이러한 요소의 성능은 두 개의 코어에 충분합니다. 실제 생활에서 단일 코어를 서비스할 때 유휴 상태인 경우가 많기 때문입니다. 또한 중단 없는 작업의 지연은 결과 성능에 심각한 영향을 미치지 않습니다.

AMD 자체에 따르면 설명된 방식으로 설계된 하나의 듀얼 코어 모듈은 완전한 듀얼 코어 프로세서 성능의 최대 80%를 제공할 수 있습니다. 동시에 트랜지스터 예산(및 그에 따른 반도체 결정 영역)의 절감액은 44%에 이릅니다.

이러한 독창적인 코어 압축 덕분에 AMD는 불도저 반도체 다이의 기본 설계에 8코어(또는 쿼드 모듈) 설계를 통합할 수 있었습니다.



또한 크리스탈의 상당 부분이 캐시 메모리에 제공됩니다. 각 프로세서 모듈 내의 코어 쌍 간에 공유되는 두 번째 수준 캐시의 용량은 2MB이고 전체 프로세서의 총 L3 캐시 메모리는 8MB입니다. 따라서 전통적인 AMD 독점 캐시 구성을 고려하면 총 볼륨이 8코어 프로세서당 16MB라고 말할 수 있습니다. 동시에 불도저 반도체 크리스탈의 면적은 허용 가능한 한도 내에 유지되므로 AMD 개발자는 목표를 완전히 달성했습니다.



절대 수치로 볼 때 이는 8코어 불도저가 예를 들어 K10 마이크로 아키텍처를 기반으로 구축된 6코어 Thuban 프로세서(Phenom II X6)보다 더 작은 반도체 다이를 갖게 된다는 것을 의미합니다. 하지만 불도저는 32nm 표준을 갖춘 보다 진보된 기술 프로세스를 사용하여 생산된다는 점을 명심해야 합니다. 최신 쿼드 코어 Intel Sandy Bridge와 비교하여 AMD의 새로운 8코어 프로세서는 다이 면적이 45% 더 넓을 뿐입니다.

그러나 쿼드 코어 Sandy Bridge 프로세서는 Bulldozer와 마찬가지로 하이퍼 스레딩 기술 지원 덕분에 운영 체제에 8코어 프로세서로 표시될 수 있습니다. 이는 확실히 불도저를 본격적인 8코어 프로세서라고 부르는 적법성에 대한 논란을 불러일으킬 것입니다. 그러나 AMD와 Intel은 서로 다른 방식으로 8개의 컴퓨팅 스레드를 동시에 실행할 수 있다는 점을 이해해야 합니다. 인텔 개발자가 마이크로아키텍처를 망쳤습니다. 추가 기능, 두 개의 스레드가 하나의 실행 단위 세트에서 하나의 코어 내에서 실행될 수 있도록 합니다. 이와 반대로 AMD는 두 개의 본격적인 코어에서 "추가" 부품을 잘라냈지만 각 모듈 내부에는 두 세트의 액추에이터만 있었습니다.



결과적으로 Intel의 하이퍼스레딩 기술은 멀티스레드 성능을 15~20%만 향상시키는 반면, AMD의 솔루션은 4스레드에서 8스레드로 이동할 때 성능을 80% 향상시킵니다.

물론 8코어 불도저의 반도체 크리스탈은 모듈식 구조로 인해 쿼드코어와 매우 유사합니다.


사이클당 더 많은 명령이 필요합니까?

프로세서 코어 수를 늘리는 것만으로는 큰 효과를 얻을 수 없습니다. 이는 일반적으로 쿼드 코어 Sandy Bridge에 비해 성능이 떨어지는 6코어 Phenom II X6 프로세서가 출시된 후에도 분명해졌습니다. 따라서 AMD 개발자는 광범위한 디자인 변경에만 국한되지 않았습니다. K10에 비해 Bulldozer의 기본 마이크로 아키텍처는 완전히 재설계되지 않았으며 이는 멀티 스레드 작업뿐만 아니라 병렬 처리 수준이 낮은 응용 프로그램에서도 AMD 프로세서의 시스템 작동을 가속화할 수 있다는 희망을 제공합니다. 더욱이 이러한 희망은 완전히 객관적인 상황에 근거합니다. 이전 AMD 마이크로아키텍처는 클럭당 3개의 명령을 실행하도록 설계되었지만(1개의 코어에서) Bulldozer 마이크로아키텍처는 클럭당 4개의 명령을 실행한다고 가정하며 이러한 특성이 코어 마이크로아키텍처를 사용하는 경쟁사 프로세서에 더 가깝습니다.

질적 변화는 실행 파이프라인의 첫 번째 단계, 즉 명령어 프리패치 및 디코딩 단계부터 추적할 수 있습니다. 이러한 단계는 단일 모듈 내의 코어 쌍에 공통적이므로 AMD는 마이크로아키텍처 병목 현상이 발생하지 않도록 특별한 주의를 기울였습니다. 32바이트 블록으로 디코딩하기 위해 L1I 캐시에서 명령어를 가져옵니다. 이는 코어 마이크로아키텍처(2세대) 프로세서의 두 배 크기입니다. 첫 번째 레벨 명령 캐시 자체는 64KB의 용량과 2채널 연관성을 갖습니다. 디코딩을 위한 명령은 두 번째 수준 캐시에서 미리 로드됩니다.

샘플링 프로세스에 가장 직접적으로 관여하는 분기 예측 블록에는 서로 다른 코어의 활동을 독립적으로 모니터링하는 두 개의 버퍼 세트가 포함되어 있습니다. 따라서 불도저는 논리적 분기 결과를 예측할 때 스레드 간 혼동을 일으키지 않습니다. 새로운 마이크로 아키텍처는 높은 클럭 속도에서 작동하는 것을 목표로 하기 때문에 분기 예측 장치의 품질이 가장 중요합니다. 따라서 여기에 사용된 알고리즘은 완전히 재설계되었으며, AMD는 Bulldozer의 분기 예측 효율성이 향상되기를 바라고 있습니다.



Bulldozer의 x86 명령어 디코더는 리소스를 두 개의 코어로 분할하고 클록 주기당 최대 4개의 수신 명령어를 디코딩할 수 있습니다. 그러나 그 성능은 4개의 매크로 명령어(AMD 용어로 디코딩한 결과)만 발행하는 것으로 제한되는 반면, x86 명령어는 1-2개 또는 그 이상의 매크로 명령어로 분할될 수 있습니다. 따라서 디코더는 이전 세대의 마이크로 아키텍처에 비해 성능이 1/3 정도 향상되었지만 두 개의 정수 및 하나의 실수 컴퓨팅 클러스터를 지원해야 한다는 점을 감안하면 속도가 충분하지 않을 수 있습니다.

Bulldozer에서는 매크로 융합 명령 융합 기술의 특정 유사체가 사용되었다는 점에 유의해야 합니다. x86 명령의 일부 그룹은 단일 전체로 결합되어 하나의 명령으로 디코더를 통과할 수 있습니다. AMD는 이를 Branch Fusion이라고 부릅니다.

디코딩된 매크로 명령은 3개의 컴퓨팅 클러스터로 분산되며, 그 중 2개는 본격적인 컴퓨팅 코어의 잔재이고, 1개는 실수로 코어 간에 공유됩니다. 이러한 각 클러스터에는 자체 명령어 재정렬 논리와 자체 스케줄러가 있습니다. 이는 분명히 AMD가 향후 제품에서 이러한 클러스터 중 일부를 완전히 교체하거나 보완할 수 있는 능력을 보유하고 있음을 의미합니다.

각 클러스터의 명령어 재정렬은 레지스터 내용에 대한 참조를 저장하고 명령어 순서를 재정렬할 때 프로세서 내에서 지속적인 데이터 전송이 필요하지 않은 물리적 레지스터 파일의 사용을 기반으로 합니다. 이 접근 방식은 물리적 레지스터 파일이 전력 소비 측면에서 더 효율적일 뿐만 아니라 프로세서 클럭 속도를 높이는 데 더 유리하기 때문에 재정렬 버퍼를 대체했습니다.

정수 클러스터에는 두 개의 산술 실행 단위(ALU)와 두 개의 메모리 주소 단위(AGU)가 포함되어 있습니다. K10 마이크로아키텍처에 비해 장치 수는 ALU 1개, AGU 1개로 줄었지만 AMD는 이로 인해 성능이 크게 저하되지는 않지만 핵심 영역이 크게 절약될 것이라고 장담합니다. 우리는 각 정수 클러스터에 2개 이상의 ALU 및 AGU를 갖는 것이 실제로는 실용적이지 않다고 쉽게 믿습니다. 왜냐하면 클록 사이클당 4개 이하의 매크로 명령이 두 클러스터에 의한 실행을 위해 디코더에서 도착할 수 있기 때문입니다.



동시에 액추에이터는 더욱 보편화되었으며 실제로 기능면에서 차이가 없습니다.

캐시 메모리 하위 시스템의 구성이 크게 변경되었습니다. L1D 캐시는 64KB에서 16KB로 줄어들었고 연속 쓰기가 포함되었습니다. 동시에 "경로 예측기"가 추가된 채널과의 연관성이 4채널로 증가했습니다. 첫 번째 수준 데이터 캐시의 크기 감소는 처리량의 상당한 증가로 보상되며, 이제 최대 3개의 128비트 작업(2개 읽기 및 1개 쓰기)을 동시에 처리할 수 있습니다.

분명히 L1D 캐시 대역폭의 변화는 마이크로 아키텍처에서 256비트 AVX 명령을 구현해야 하는 필요성과 크게 관련되어 있으며, 이는 코어 간에 공유되는 FPU 장치에 지원됩니다. 그러나 이것이 실수 액추에이터가 256비트가 되었다는 의미는 아닙니다. 실제로 불도저 모듈에는 128비트 장치 2개가 있으며, AVX 명령어는 128비트 명령어의 연결된 쌍으로 디코딩됩니다. 따라서 이를 실행하기 위해 FMAC 장치(부동소수점 곱누산)를 결합하고, 실수 클러스터의 성능은 클럭 사이클당 프로세서 모듈당 하나의 AVX 명령으로 감소됩니다.



FPU에는 자체적인 1차 캐시가 없으므로 이 클러스터는 정수 장치를 통해 데이터와 함께 작동합니다.

AMD 엔지니어는 이미 Intel에서 제안한 AVX 지침에 대한 지원을 구현하는 작업을 수행했기 때문에 암호화 작업 가속화를 목표로 하는 SSE4.2 및 AESNI 지침과 같은 다른 관련 세트가 Bulldozer 프로세서에 추가되었습니다. 또한 AMD는 3개의 피연산자 곱셈-덧셈 FMA4와 AVX-XOP의 추가 개발에 대한 자체 비전 등 몇 가지 자체 명령을 도입했습니다.



Bulldozer의 L2 캐시는 프로세서 모듈 내에서 공유되고 코어 간에 공유됩니다. 용량은 2MB로 인상적이며 연관성은 16채널입니다. 그러나 버스 폭이 이전과 동일하게 128비트로 유지되었음에도 불구하고 이 방식에 따라 작동하는 캐시의 대기 시간은 18-20사이클로 증가했습니다. 즉, Bulldozer의 L2 캐시는 크기는 크지만 그다지 빠르지는 않습니다. 경쟁사 및 이전 프로세서는 대기 시간이 약 절반인 L2 캐시를 제공합니다. 4주기의 대기 시간(K10 마이크로 아키텍처보다 높음)의 작은 L1D 캐시와 결합하면 이 모든 것이 그다지 고무적이지 않습니다. 그러나 AMD는 Bulldozer가 높은 클럭 속도에서 작동할 수 있는 기능을 제공하기 위해서만 캐시 대기 시간이 늘어났다고 주장합니다.



또한 AMD 엔지니어는 필요한 데이터를 첫 번째 및 두 번째 수준 캐시에 미리 로드하도록 설계된 효율적인 프리페치 장치를 구현했습니다. 이들 블록의 성능은 향상됐으며, 이제는 불규칙한 데이터 구조도 인식할 수 있게 됐다고 한다.

이론적으로 불도저는 좋은 인상을 줍니다. AMD는 프로세서 마이크로아키텍처에 대한 기존 접근 방식을 완전히 수정하고 완전히 재설계된 디자인을 구현했습니다. 새로운 마이크로아키텍처는 하나의 프로세서 코어에서 클럭 사이클당 3개가 아닌 4개의 명령을 실행하도록 최적화되어 있기 때문에 언뜻 보면 매우 유망해 보입니다. 또한 디코딩 프로세스 중에 명령의 매크로 병합을 지원하여 특정 성능을 더욱 향상시킵니다.

그러나 우리가 하나의 핵만 보고 실제로 그러한 핵이 쌍으로 결합되어 있다는 사실을 생각하지 않는 한 모든 것이 좋아 보입니다. 그리고 듀얼 코어 불도저 모듈은 몇 개의 코어에 비해 공통 부품이 너무 많습니다. 특히, 이러한 모듈에는 명령 가져오기 장치가 하나만 있고 디코더도 하나뿐이므로 클록 사이클당 실행되는 최대 명령 수는 전체 듀얼 코어 어셈블리에 대해 4개로 유지됩니다. 이는 이론적 성능 측면에서 단일 Sandy Bridge 코어에 대한 논리적 등가물은 불도저 코어가 아니라 모듈이라는 것을 의미합니다. 이 경우 두 개의 스레드를 실행하는 모듈의 기능은 하이퍼 스레딩 기술에 대한 AMD의 완전히 논리적인 응답처럼 보입니다.

물론 실제 프로세서를 테스트하면 모든 것이 제자리에 놓이겠지만 이미 마이크로아키텍처를 고려하는 단계에서 Bulldozer를 본격적인 8코어 프로세서로 포지셔닝하는 것이 마케팅 전략이라고 생각해야 합니다. 이러한 프로세서의 컴퓨팅 기능에 대한 보다 안정적인 평가는 이론적 성능 관점에서 2세대 Intel Core 마이크로 아키텍처를 기반으로 구축된 코어와 완벽하게 비교할 수 있는 모듈 수를 기반으로 해야 합니다.

이와 관련하여 완전히 논리적인 질문이 제기됩니다. 왜 AMD가 단일 프로세서 모듈 내에서 듀얼 스레드 처리 구현에 신경을 썼습니까? 두 개의 코어에 분산된 액추에이터를 단일 클러스터로 결합하는 것이 왜 불가능합니까? 여기에는 몇 가지 이유가 있습니다.

첫째, 일반적으로 많은 수의 액추에이터에 작업을 동시에 로드하려면 고급 내부 프로세서 로직이 필요합니다. 분명히 AMD는 Bulldozer 마이크로아키텍처에서 매우 효율적인 분기 예측, 명령 및 데이터 프리페칭 장치를 구현할 수 없었습니다. 따라서 작업을 병렬화하고 실행 장치를 보다 최적으로 사용하는 작업은 Bulldozer에 대한 멀티스레딩을 지원하는 제품을 공급해야 하는 소프트웨어 제조업체로 옮겨졌습니다.

둘째, 동시에 실행되는 스레드 수를 늘리는 것도 나쁘지 않습니다. 데스크톱 사용자, 특히 게이머의 경우 매우 단순한 8개의 Bulldozer 코어가 특별한 이점을 약속하지 않는다면 서버 애플리케이션에서 이러한 마이크로 아키텍처가 매우 유리하게 충족되어야 합니다. 따라서 Bulldozer 개발의 주요 목표는 마니아들의 열망을 충족시키는 것이 아니라 서버 시장에서 AMD의 위치를 ​​​​회복하는 것이었을 가능성이 높습니다.

터보 코어, 그 이상의 터보

에너지 효율성은 그 중 하나입니다. 가장 중요한 특성현대 프로세서. 예를 들어, 그들의 미래의 마이크로아키텍처인텔은 무엇보다도 에너지 소비를 줄이는 데 중점을 두고 있습니다. AMD는 아직 이 지점에 도달하지 않았으며 이 회사의 엔지니어들은 주로 성능을 위해 싸우고 있습니다. 그러나 이것이 개발자가 불도저의 열 및 에너지 특성에 전혀 신경 쓰지 않았다는 의미는 아닙니다. 반대로 Llano에 이어 에너지 효율성을 높이기 위한 근본적으로 새로운 접근 방식이 불도저 프로세서에 적용되었습니다. 그러나 이 경우 엔지니어들은 비용을 절약하기 위해서가 아니라 클럭 주파수를 높여 추가 성능을 짜내기 위해 해방된 잠재력을 사용했습니다.

물론, 새로운 생산 기술은 에너지 소비와 열 방출 측면에서 어느 정도 개선을 가져왔습니다. 불도저는 고유전체 재료, 메탈 게이트 트랜지스터, SOI 기술을 이용한 32nm 공정 기술을 사용합니다. 즉, 이는 Llano 프로세서를 생산하는 GlobalFoundries의 기술 프로세스와 동일합니다. 덕분에 새로운 기술 32nm 표준을 사용하면 직렬 8코어 불도저 프로세서의 작동 공급 전압은 1.4V를 초과하지 않습니다.

그러나 Llano에서 Bulldozer로 전달된 주요 혁신은 프로세서의 특정 부분에서 전력을 차단하도록 설계된 파워 게이트 트랜지스터입니다. Bulldozer에서는 개별 듀얼 코어 모듈과 캐시 메모리의 전압을 독립적으로 완화할 수 있습니다.



모듈의 두 컴퓨팅 코어가 모두 절전 상태 C6에 진입하면 모듈의 전원이 차단됩니다. 불행하게도 Bulldozer 내부에는 전용 코어가 없기 때문에 이 기술을 프로세서 코어에 적용할 수 없습니다. Bulldozer는 일부 리소스를 이웃 모듈과 공유합니다.

C6 코어의 에너지 절약 상태는 불도저 및 터보 코어 기술로 제어됩니다. Bulldozer 프로세서 모듈의 절반 이상이 절전 꺼짐 상태에 있는 순간에는 공급 전압과 클록 주파수가 증가합니다. 이 강제 작동 모드를 Max Turbo Boost라고 합니다.

그러나 Max Turbo Boost는 새로운 것이 아니며, 이러한 자동 오버클러킹은 K10 마이크로아키텍처를 기반으로 구축된 Thuban 프로세서에서 AMD에 의해 도입되었습니다. 실제로 새로운 점은 모든 프로세서 코어가 활성화된 경우에도 클럭 속도가 공칭 값 이상으로 증가할 수 있는 All Core Boost 모드입니다. Bulldozer에 도입된 향상된 버전의 Turbo Core를 통해 프로세서는 특정 블록의 작업 부하에 대한 정보를 기반으로 실제 전력 소비 및 열 방출을 매우 정확하게 판단할 수 있습니다. 따라서 이 평가에 따르면 현재 열 방출 및 전력 소비가 한도보다 훨씬 낮으면 프로세서는 단일 코어가 수동 상태가 아니더라도 공급 전압 및 클록 주파수를 높일 수 있습니다.



따라서 Bulldozer 마이크로아키텍처를 갖춘 프로세서의 작동 주파수는 매우 가변적인 값입니다. 실행되는 알고리즘의 "심각도"와 관련된 코어 수에 따라 매우 넓은 범위에서 동적으로 변경되어 900MHz에 도달할 수 있습니다.

업데이트된 데스크톱 플랫폼

AMD는 새로운 마이크로 아키텍처를 도입하면서 플랫폼의 디자인을 바꾸지 않았을 뿐만 아니라 Bulldozer 프로세서와 기존 인프라의 호환성까지 유지했습니다. 따라서 이전 프로세서와 마찬가지로 새 프로세서에는 3단계 캐시, 메모리 컨트롤러 및 Hyper-Transport 버스 컨트롤러를 포함한 통합 노스 브리지가 포함되어 있습니다. 동시에 새로 출시된 모든 AMD 및 Intel 프로세서에는 내부에 PCI Express 그래픽 버스 컨트롤러가 내장되어 있음에도 불구하고 Bulldozer에는 이러한 기능이 없습니다.



K10 마이크로 아키텍처를 기반으로 구축된 프로세서와 마찬가지로 Bulldozer에 내장된 노스브리지는 모델마다 2.0-2.2GHz로 설정된 자체 클럭 주파수를 사용합니다. 이 빈도는 L3 캐시 속도에 직접적인 영향을 미치기 때문에 성능에 어느 정도 영향을 미칩니다. 현재 버전의 프로세서에서는 볼륨이 8MB로 증가하고 64채널 연관성을 갖습니다. 기업 사용자의 요구에 부응하여 이 캐시에 저장된 데이터는 ECC 오류 수정 코드로 보호됩니다.

Bulldozer에 내장된 메모리 컨트롤러에는 근본적으로 새로운 기능이 없습니다. 이전과 마찬가지로 DDR3 SDRAM을 지원하고 듀얼 채널 설계를 사용하며 실제로 페어링 모드 또는 언커플링 모드에서 작동할 수 있는 두 개의 독립적인 단일 채널 컨트롤러로 구성됩니다. AMD는 DDR3-1867과의 호환성을 선언하면서 고속 메모리 유형에 대한 지원만 추가했으며 작동 전압이 1.25V 및 1.35V인 에너지 효율적인 모듈과의 호환성을 처리했습니다.

자체 코드 이름 Zambezi를 가진 데스크톱 수정 Bulldozer에 대해 말하면 새로운 것을 목표로한다는 점에 유의해야합니다. 소켓 플랫폼 AM3+는 코드명 Scorpius로도 알려져 있습니다. 프로세서 소켓 AM3+에는 소켓 AM3보다 핀이 1개 더 많은 942개의 핀이 있습니다. 그러나 그럼에도 불구하고 Zambezi는 이전 Socket AM3 보드와 여전히 호환됩니다. 실제로 기존 마더보드에 새 프로세서를 설치하면 특정 전원 관리 기능만 손실됩니다. 따라서 Turbo Core 및 Cool"n"Quiet 기술이 실행 중이고 Vdrop이 작동하지 않으면 주파수 전환 속도가 감소합니다.

그러나 Zambezi가 출시될 무렵 AMD와 제조업체는 마더보드새로운 900 시리즈 로직 세트를 기반으로 다양한 신제품을 준비했습니다. Zambezi 프로세서를 기반으로 하고 새로운 칩셋을 기반으로 구축된 일반적인 시스템의 구조는 아래 블록 다이어그램에 나와 있습니다.


새로운 AMD 990FX 칩셋(및 단순화된 버전인 AMD 990X 및 AMD 970) 간의 차이점은 오로지 Socket AM3+의 특정 전기적 속성을 지원하는 데에만 있으며 새로운 인터페이스를 제공하지 않습니다. 800 시리즈 칩셋과 마찬가지로 새로운 사우스 브리지에는 6개의 SATA 6Gbps 포트와 14개의 USB 2.0 포트가 있습니다. 새로운 시스템 로직 세트에서 PCI Express 3.0 사양이나 최악의 경우 USB 3.0 포트에 대한 지원을 아무리 보고 싶어도 이번에는 그런 종류의 것이 없습니다. 그런데 USB 3.0 지원이 하위 수준 소켓 FM1 플랫폼용 칩셋에 도입되었기 때문에 이것은 매우 이상합니다.

새로운 일련의 시스템 로직 세트 수정 간의 차이점은 다양한 다중 GPU 구성 지원에만 있습니다.


잠베지 프로세서 제품군

Zambezi 프로세서의 출시로 업데이트가 완료되었습니다. 모델 범위, AMD에서 제공합니다. Bulldozer 마이크로아키텍처를 기반으로 한 데스크탑 프로세서는 이 제조업체의 새로운 주력 제품이 될 것이며 시장에서 모든 종류의 Phenom II 수정 사항을 빠르게 대체할 것입니다.

AMD는 새로운 마이크로아키텍처의 혁신을 강조하면서 Zambezi 데스크탑 프로세서에 새로운 마케팅 이름인 FX를 사용할 예정입니다. 한편으로는 프로세서에 문자를 표시하는 새로운 명명법에 완벽하게 들어맞고, 다른 한편으로는 6~7년 전 가장 빠른 데스크톱 CPU였던 전설적인 Athlon 64 FX 프로세서에 대한 참조입니다. 그러나 그런 시절은 돌이킬 수 없이 지나갔습니다. 이제 AMD가 우리에게 무엇을 제공할 준비가 되어 있는지 살펴보겠습니다.

가까운 미래에 FX 시리즈 프로세서 제품군에는 4가지 모델이 포함될 예정입니다.



Zambezi 프로세서 모델 간의 차이는 클럭 속도뿐 아니라 활성 컴퓨팅 코어 수에도 불구하고 모두 동일한 통합 반도체 칩을 기반으로 합니다. 여기있어:



코어가 8개 미만인 프로세서를 얻기 위해 AMD는 반도체 칩에서 일부 프로세서를 비활성화합니다. K10 마이크로아키텍처를 갖춘 프로세서에서 가능했던 것처럼 다시 잠금을 해제할 가능성은 여전히 ​​의문입니다. 그러나 우리 실험실을 통과한 900 시리즈 로직 세트 기반 마더보드의 BIOS에는 해당 옵션이 있으므로 이 문제에 대한 유리한 해결책이 있을 것으로 기대됩니다.

6코어 및 쿼드코어 프로세서 수정을 위해 코어를 비활성화하면 "모듈별로" 발생합니다. 즉, 차단되는 것은 내부의 "두 번째" 코어가 아니라 전체 듀얼 코어 모듈이 될 것이지만, 이러한 전술은 성능 측면에서 훨씬 더 유리할 것입니다. 그러나 Bulldozer 마이크로 아키텍처를 기반으로 구축된 6코어 및 쿼드 코어 프로세서의 출시는 마케팅 고려 사항이 아니라 칩의 크기가 상당히 크고 새로운 기술 프로세스를 고려할 때 거부 구현의 필요성으로 설명됩니다. 꽤 많을 겁니다.

AMD가 높은 클럭 주파수에서 작동하도록 새로운 마이크로 아키텍처를 개선했음에도 불구하고 아직 달성된 값을 인상적인 혁신이라고 부를 수는 없습니다. 4기가헤르츠 장벽은 여전히 ​​정복되지 않았으며 구형 FX 프로세서의 공칭 주파수는 예를 들어 Phenom II X4 980보다 훨씬 낮습니다. 생산 기술의 향상으로 Zambezi 주파수가 빠르게 올라갈 수 있기를 바랍니다. . 그러나 현재 버전의 AMD 계획을 믿는다면 라인은 2012년 1분기 이전에 가속화될 것입니다.

열 방출과 에너지 소비 측면에서 획기적인 발전이 없습니다. AMD는 Bulldozer 마이크로 아키텍처가 어떻게 에너지 효율성을 높일 수 있는지 오랫동안 이야기해 왔지만 실제로 구형 8코어 모델은 구형 Phenom II와 동일한 TDP 수준을 갖습니다. 사실, 얼마 후 회사는 95와트 버전의 FX-8120과 동일한 열 방출 계산 기능을 갖춘 FX-8100 프로세서를 제품에 추가해야 합니다.

그러나 새로운 FX 시리즈 프로세서의 가격은 그 이상으로 매력적입니다. AMD는 경쟁사보다 더 유리한 가격으로 플랫폼을 제공하는 과정에서 벗어나고 싶지 않기 때문에 구형 8코어 Zambezi 모델은 구형 Intel Core i5 프로세서에 반대합니다. 일반적으로 AMD는 자사 제품에 대해 다음과 같은 포지셔닝 체계를 준수할 계획입니다.



즉, AMD는 인텔의 6코어 프로세서 및 유망한 LGA2011 플랫폼과 경쟁할 생각이 없고, 중저가 부문을 정복하는 데 집중하고 싶어합니다.

매니아들에게 좋은 소식은 모든 FX 시리즈 프로세서에서 승수가 차단되지 않는다는 사실입니다. 모든 Zambezi는 단순히 기본 배율을 변경하여 쉽게 오버클럭할 수 있을 뿐만 아니라 Turbo Core 기술을 사용하여 유사하게 재구성할 수도 있습니다. 또한 메모리 하위 시스템의 오버클러킹과 프로세서에 내장된 노스 브리지의 주파수도 가능합니다.

테스트 프로세서: AMD FX-8150

AMD는 편집자들에게 Zambezi 제품군의 고급 프로세서인 FX-8150을 보냈습니다.



공칭 클럭 속도는 3.6GHz 이상입니다. 자세한 정보해당 특성은 CPU-Z의 스크린샷을 통해 확인할 수 있습니다.



프로세서는 B2 스테핑을 기반으로 하며 이는 첫 번째 버전이 아닙니다. 반도체 크리스탈의 이전 수정 사항은 원래 계획된 클록 주파수에서 작동할 수 없기 때문에 제조업체에서 거부되었습니다. 이로 인해 당초 봄, 여름에 예정됐던 발표가 다소 지연됐으나 실제로는 10월 중순에 이뤄졌다.

그러나 오늘날 달성된 3.6GHz 주파수는 그다지 인상적이지 않습니다. AMD 자체와 Intel 모두 더 빠른 속도로 실행되는 제품을 보유하고 있습니다. 그러나 FX-8150에는 낮은 부하에서 프로세서 주파수를 최대 4.2GHz까지 자동으로 높일 수 있는 매우 유망한 Turbo Core 기술이 있습니다.



모든 컴퓨팅 코어에 부하가 걸려도 3.9GHz의 주파수를 달성할 수 있으면서도 동시에 전력 소비 및 열 방출의 한계를 넘지 않고 자동 오버클러킹을 위한 여지를 남겨둔다는 점은 주목할 만합니다.



유휴 상태에서는 Cool"n"Quiet 기술이 FX-8150의 주파수를 1.4GHz로 줄입니다. 공급 전압은 0.85V로 떨어집니다.


테스트 방법

우리는 Bulldozer 마이크로아키텍처를 기반으로 구축된 새로운 8코어 AMD FX-8150 프로세서를 이전 프로세서 중 하나인 6코어 Phenom II X6 및 경쟁사(가격)의 Intel 제품인 쿼드 코어와 비교했습니다. 코어 프로세서 i5-2500 및 코어 i7-2600. 또한 명확성을 높이기 위해 6코어 Core i7-990X 프로세서에 대한 성능 지표가 결과에 추가되었습니다.

결과적으로 테스트 시스템에는 다음과 같은 소프트웨어 및 하드웨어 구성 요소가 포함되었습니다.

프로세서:

AMD FX-8150(잠베지, 8코어, 3.6GHz, 8MB L2 + 8MB L3);
AMD Phenom II X6 1100T(Thuban, 6코어, 3.3GHz, 3MB L2 + 6MB L3);
Intel Core i7-2600K(Sandy Bridge, 4코어, 3.4GHz, 1MB L2 + 8MB L3);
Intel Core i5-2500K(Sandy Bridge, 4코어, 3.3GHz, 1MB L2 + 6MB L3);
인텔 코어 i7-990X 익스트림 에디션(걸프타운, 6코어, 3.46GHz, 1.5MB L2 + 12MB L3).

CPU 쿨러: NZXT Havik 140;
마더보드:

기가바이트 990FXA-UD5(소켓 AM3+, AMD 990FX + SB950);
ASUS P8Z68-V PRO(LGA1155, Intel Z68 Express);
기가바이트 X58A-UD5(LGA1366, Intel X58 Express).

메모리:

2 x 2GB, DDR3-1600 SDRAM, 9-9-9-27(Kingston KHX1600C8D3K2/4GX);
3 x 2GB, DDR3-1600 SDRAM, 9-9-9-27(Crucial BL3KIT25664TG1608).

그래픽 카드: AMD 라데온 HD6970.
하드 드라이브: Kingston SNVP325-S2/128GB.
전원 공급 장치: Tagan TG880-U33II(880W).
운영 체제: 마이크로소프트 윈도우 7 SP1 얼티밋 x64.
드라이버:

인텔 칩셋 드라이버 9.2.0.1030;
인텔 관리 엔진 드라이버 7.1.10.1065;
인텔 빠른 스토리지 기술 10.6.0.1022;
AMD Catalyst 11.10 디스플레이 드라이버.

테스트는 현재 버전의 Windows 7 운영 체제에서 수행되었지만 AMD는 이 OS의 작업 관리자가 컴퓨팅 스레드를 가장 최적의 방식으로 배포하지 않는다고 밝혔습니다. Windows 7은 주로 스레드를 다른 모듈에 있는 커널로 보내는 것을 선호합니다. 그리고 이는 모듈 내부에 분할된 블록의 부하를 줄여주기 때문에 실제로 더 높은 특정 성능을 제공합니다. 그러나 이 전략은 듀얼 코어 모듈 중 일부가 절전 상태에 있는 경우 프로세서에서 사용할 수 있는 터보 모드를 포함하지 못하게 합니다.

유망한 수술실 윈도우 시스템 8에서는 다른 전술을 따르며 스레드는 동일한 모듈 내의 코어에 먼저 할당됩니다. 결과적으로 AMD는 다양한 애플리케이션에서 Zambezi 기반 시스템의 성능이 최대 10%까지 향상될 수 있다고 약속합니다.

성능

불도저 마이크로아키텍처의 효율성에 대한 예비 평가

프로세서의 "실제" 테스트를 시작하기 전에 원칙적으로 Bulldozer 마이크로 아키텍처에서 기대할 수 있는 것이 무엇인지 파악하기로 결정했습니다. 이를 위해 우리는 인위적으로 생성된 동일한 조건(동일한 클록 주파수 및 동일한 수의 활성화된 코어)에서 이 마이크로아키텍처를 갖춘 프로세서와 K10 및 Sandy Bridge 마이크로아키텍처를 갖춘 다른 CPU를 간략히 비교했습니다.

보다 구체적으로, 우리는 2개의 프로세싱 코어만 활성화한 상태에서 3.6GHz에서 AMD FX-8150, Phenom II X6 1100T 및 Core i7-2600을 비교했습니다. 실험의 순수성을 위해 모든 에너지 절약 및 자동 오버클럭 기술은 자연스럽게 비활성화되었습니다. 유틸리티에 포함된 일련의 간단한 합성 벤치마크가 테스트 도구로 선택되었습니다. SiSoft 산드라 2011년에는 SSE3 이전의 모든 명령어 세트가 K10 마이크로아키텍처에서 지원되지 않기 때문에 강제로 비활성화되었습니다.



표에 있는 숫자는 어떤 단어보다 더 크게 말합니다. Bulldozer 마이크로 아키텍처의 성능은 이전 프로세서보다 훨씬 낮아졌습니다. 공유 리소스를 사용하여 코어 쌍을 하나의 모듈로 결합하고 그에 따른 마이크로 아키텍처 단순화로 인해 동일한 주파수에서 코어당 Bulldozer의 특정 성능이 이전 세대 AMD 마이크로 아키텍처에 비해 25-40% 감소했습니다. 결과적으로 Bulldozer 코어는 Sandy Bridge 코어보다 거의 절반 정도 느립니다. 더욱이 2개의 코어를 포함하는 불도저 프로세서 모듈의 성능은 하이퍼 스레딩 기술이 활성화된 단일 Sandy Bridge 코어의 속도보다 훨씬 낮습니다. 그러한 마이크로아키텍처를 기반으로 구축된 프로세서에서 성능 기록을 기대해야 합니까? 질문은 수사적입니다.

길을 따라 살펴 보겠습니다. 실용적인 특성캐시 및 메모리 하위 시스템. 이러한 기능 유닛의 작동 속도를 평가하기 위해 Aida64 패키지의 Cachemem 유틸리티에서 테스트를 수행했습니다. 모든 경우에 DDR3-1600 메모리는 9-9-9-27-1T의 대기 시간으로 사용되었습니다. 이전 사례와 마찬가지로 프로세서 주파수는 3.6GHz로 정렬된 상태를 유지했습니다.



Zambezi에서는 Phenom II 프로세서에 비해 모든 캐시와 메모리 하위 시스템의 실제 대기 시간이 증가했습니다. 우리는 Bulldozer 마이크로아키텍처를 고려할 때 이에 대해 이야기했습니다. 그러나 캐시 메모리의 논리적 구성을 변경하면 거의 모든 경우에 처리량이 증가했습니다.

동시에 가장 빠른 듀얼 채널 메모리 컨트롤러와 가장 빠른 캐시 하위 시스템이 Sandy Bridge에 구현됩니다. 물론 캐시 용량 측면에서 Intel 프로세서는 Bulldozer 마이크로 아키텍처 미디어보다 다소 열등합니다.

전반적인 성과

일반적인 작업에서 프로세서 성능을 평가하기 위해 우리는 전통적으로 일반적인 현대 작업에서 사용자 작업을 시뮬레이션하는 Bapco SYSmark 2012 테스트를 사용합니다. 사무실 프로그램디지털 콘텐츠를 생성하고 처리하기 위한 애플리케이션 등이 있습니다. 테스트의 아이디어는 매우 간단합니다. 일반적인 응용 프로그램에서 컴퓨터의 가중 평균 속도를 특성화하는 단일 측정 항목을 생성합니다.

얼마 전 AMD가 SYSmark를 트롤링하려고 시도하여 실제 애플리케이션의 "잘못된" 세트 사용으로 인해 편향되었다는 주장을 퍼트렸다는 것을 기억해 보십시오. 그러나 우리의 의견으로는 그러한 판단은 성능을 평가하는 데 사용되는 일반적이고 매우 인기 있는 프로그램이기 때문에 정당화되지 않으며 최종 결과에 대한 각 프로그램의 기여도는 다음 다이어그램에 표시됩니다.



따라서 우리는 SYSmark 2012의 사용을 포기하지 않았으며 계속해서 해당 지표를 사용하여 일반적인 성능을 평가하고 있습니다.



첫 번째 테스트는 정말 실망스럽습니다. 8코어 FX-8150의 결과는 6코어 Phenom II X6 1100T의 성능보다 10%만 향상되었으며 당연히 쿼드 코어 Intel 프로세서의 성능에는 전혀 도달하지 않습니다. 따라서 일반적으로 적당한 수의 복잡한 코어 대신 프로세서에서 특정 성능이 낮은 다수의 코어를 구현하기 위해 AMD가 선택한 전술은 긍정적인 결과를 제공하지 않습니다.

SYSmark 2012 결과를 더 깊이 이해하면 다양한 시스템 사용 시나리오에서 얻은 성능 점수에 대한 통찰력을 얻을 수 있습니다.

사무 생산성 시나리오는 텍스트 준비, 스프레드시트 처리, 작업 등 일반적인 사무 작업을 시뮬레이션합니다. 이메일로그리고 인터넷 사이트를 방문합니다. 스크립트는 ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, 어도비 플래시플레이어 10.1 마이크로 소프트 엑셀 2010년, 마이크로소프트 인터넷 익스플로러 9, 마이크로소프트 아웃룩 2010, 마이크로 소프트 파워 포인트 2010, 마이크로 소프트 워드 2010 및 WinZip Pro 14.5.



미디어 생성 시나리오는 사전 촬영된 디지털 이미지와 비디오를 사용하여 광고 생성을 시뮬레이션합니다. 이를 위해 Photoshop CS5 Extended, Premiere Pro CS5 및 After Effects CS5와 같은 널리 사용되는 Adobe 패키지가 사용됩니다.



웹 개발은 웹 사이트 생성을 모델링하는 시나리오입니다. 사용된 애플리케이션: 어도비 포토샵 CS5 확장, 어도비 프리미어 프로 CS5, 어도비 드림위버 CS5, 모질라 파이어 폭스 3.6.8 및 Microsoft Internet Explorer 9.



데이터/재무 분석 시나리오는 Microsoft Excel 2010에서 수행되는 시장 동향의 통계 분석 및 예측 전용입니다.



3D 모델링 스크립트는 3차원 객체를 생성하고 정적 및 동적 장면을 렌더링하는 데 전적으로 전념합니다. Adobe를 사용하여 Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 및 Google SketchUp Pro 8.



마지막 시나리오인 시스템 관리에는 백업 생성, 소프트웨어 및 업데이트 설치가 포함됩니다. 여기에는 여러 사람이 관련되어 있습니다. 다른 버전 Mozilla Firefox 설치 프로그램 및 WinZip Pro 14.5.



~에 다양한 모델 Bulldozer 마이크로아키텍처와 함께 프로세서를 사용하면 근본적으로 다른 결과가 나타납니다. 어떤 경우에는 Phenom II X6보다 훨씬 느린 것으로 밝혀졌지만 반대 상황도 있습니다. 일반적으로 일반적인 규칙은 다음과 같습니다. FX-8150의 장점은 작업 부하가 다중 스레드이고 병렬화되어 있지만 계산이 복잡하지 않은 경우 특히 두드러집니다.

그러나 가장 유리한 상황에서도 FX-8150은 Core i5-2500보다 뒤떨어집니다. 이러한 프로세서의 속도가 비슷한 유일한 시나리오는 3D 렌더링입니다. 평균적으로 Intel의 제안은 AMD의 신제품보다 25%나 앞서 있습니다. 슬프게도.

게임 성능

아시다시피, 대부분의 최신 게임에서 고성능 프로세서가 탑재된 플랫폼의 성능은 그래픽 하위 시스템의 성능에 따라 결정됩니다. 그렇기 때문에 프로세서를 테스트할 때 비디오 카드의 부하를 최대한 제거하는 방식으로 테스트를 수행하려고 합니다. 프로세서에 가장 많이 의존하는 게임을 선택하고 안티를 켜지 않고 테스트를 수행합니다. -앨리어싱 및 가장 멀리 떨어진 설치 고해상도. 즉, 얻은 결과를 통해 최신 비디오 카드가 있는 시스템에서 달성할 수 있는 fps 수준이 아니라 원칙적으로 프로세서가 게임 부하에서 얼마나 잘 작동하는지 평가할 수 있습니다. 따라서 제시된 결과를 바탕으로 더 빠른 그래픽 가속기 옵션이 시장에 나타날 때 프로세서가 미래에 어떻게 작동할지 추측하는 것이 가능합니다.


















게임은 병렬화된 다중 스레드 로드를 생성하는 작업 범주에 속하지 않습니다. 따라서 오늘날의 게임 애플리케이션에는 AMD가 제공하는 멀티 코어 몬스터가 아닌 4개의 코어를 갖춘 프로세서가 더 적합합니다. 아래 다이어그램에서 이 진술에 대한 명확한 그림을 볼 수 있습니다. 새로운 8코어 FX-8150은 6코어 이전 모델인 Phenom II X6보다 빠르지 않습니다.

Zambezi와 Sandy Bridge의 게임 성능 비율에 대해서는 AMD가 신제품에 대해 여전히 훨씬 더 비관적입니다. 현재 Intel 프로세서 마이크로아키텍처는 3D 게임에서 생성되는 일반적인 작업 부하를 훨씬 더 잘 처리하며, AMD가 이 작업 범주에서 경쟁사 프로세서를 따라잡을 수 있을 것이라는 희망은 없습니다. 즉, 게임 시스템에서 Bulldozer를 사용하는 것은 특정 프로세서의 성능이 특정 게임 세트의 특정 비디오 하위 시스템에 충분하다는 확신이 있는 경우에만 의미가 있습니다. 그러나 이 경우에도 다음 비디오 가속기 업그레이드에서는 처음에 플랫폼과 최신 Intel 프로세서를 선호했던 사용자에 비해 여전히 심각한 불리한 입장에 있을 수 있다는 점을 깨달아야 합니다.

게이밍 테스트 외에도 Extreme 프로필로 출시된 합성 벤치마크 Futuremark 3DMark 11의 결과도 제시할 예정입니다.



이러한 결과를 추가한 목적은 비디오 하위 시스템이 프로세서 성능을 완전히 실현할 수 없는 FX-8150의 매우 이상적인 상황을 보여주는 것이었습니다. 여기서 주요 부하는 비디오 카드에 해당하며 프로세서는 지원 역할만 수행합니다. 이러한 경우 Bulldozer와 Sandy Bridge 프로세서의 동일한 성능에 대해 이야기할 수 있지만 물론 이것이 전적으로 사실은 아닙니다.



하지만 FX-8150은 3DMark 11 물리적 테스트에서도 (이전 결과에 비해) 좋아 보였습니다. 물리적 모델 AMD의 새로운 8코어 프로세서는 쿼드코어 Core i5-2500에 필적하는 속도로 실행됩니다.

애플리케이션 테스트

전반적으로 Bulldozer의 데스크탑에서의 가중 평균 및 게임 성능은 우리 기대보다 훨씬 낮았습니다. 그러나 절망하지 말고 새로운 AMD 마이크로아키텍처가 그 장점을 보여줄 수 있는 사례를 찾아보도록 합시다. 강점.

정보를 압축할 때 프로세서의 속도를 측정하기 위해 다음을 사용합니다. WinRAR 아카이버, 이를 통해 최대 압축 수준으로 총 1.4GB의 다양한 파일이 포함된 폴더를 보관합니다.



FX-8150의 결과는 Core i5-2500에 가깝습니다. WinRAR은 8개의 불도저 코어 전체에 걸쳐 계산을 병렬화할 수 있는 애플리케이션 중 하나는 아니지만, 거대한 캐시 메모리가 문제를 해결하는 것 같습니다.

보관 속도에 대한 두 번째 유사한 테스트는 LZMA2 압축 알고리즘을 사용하여 7-zip 프로그램에서 수행됩니다.



7-zip에서는 FX-8150의 성능이 훌륭합니다. 이 8코어 프로세서는 하이퍼 스레딩 지원을 포함하고 Bulldozer와 같이 8개의 스레드를 동시에 실행할 수 있는 쿼드 코어 Core i7-2600의 속도에 접근합니다.

프로세서의 암호화 성능은 널리 사용되는 암호화 유틸리티인 TrueCrypt의 내장 벤치마크를 통해 측정됩니다. 작업을 통해 여러 코어를 효율적으로 로드할 수 있을 뿐만 아니라 특수한 AES 명령어 세트도 지원한다는 점에 유의해야 합니다.



잘 병렬화된 간단한 정수 알고리즘은 Bulldozer 마이크로아키텍처에 필요한 것입니다. 이러한 경우 우리가 볼 수 있듯이 매우 뛰어난 성능을 얻을 수 있습니다. 특히 암호화 측면에서 FX-8150은 6코어 Core i7-990X보다 뒤처지고 LGA1155 플랫폼의 모든 프로세서보다 앞서 있습니다.

오디오 트랜스코딩 속도를 테스트할 때 유틸리티를 사용하십시오. 애플 아이튠즈, CD의 내용을 AAC 형식으로 변환합니다. 이 프로그램의 특징은 한 쌍의 프로세서 코어만 사용할 수 있다는 것입니다.



적은 수의 계산 스레드를 생성하는 프로그램을 Bulldozer에서 멀리 두는 것이 좋습니다. 이 CPU의 일부 코어는 너무 약해서 이러한 경우 적절한 결과를 보여주지 못합니다.

우리는 창의적으로 재작업된 자체 테스트를 사용하여 Adobe Photoshop의 성능을 측정합니다. 리터치 아티스트 포토샵 속도 테스트, 여기에는 디지털 카메라로 촬영한 4개의 10메가픽셀 이미지를 일반적으로 처리하는 과정이 포함됩니다.



Photoshop에서 FX-8150의 성능은 K10 마이크로아키텍처를 탑재한 프로세서만큼 나쁘지는 않지만 여전히 Core i5-2500에 비해 훨씬 부족합니다. 분명히 이 경우 큰 캐시 메모리는 Bulldozer 마이크로 아키텍처에 좋은 도움이 되지만 이것만으로는 멀리 갈 수 없습니다. 컴퓨팅 코어의 효율성과 구체적인 성능은 여전히 ​​가장 중요합니다.

우리는 또한 테스트를 수행했습니다. 어도비 프로그램 Photoshop Lightroom 3. 테스트 시나리오에는 RAW 형식의 1200만 화소 이미지 100개에 대한 후처리 및 JPEG 내보내기가 포함됩니다.



Lightroom은 여러 코어에서 사진 처리를 병렬화할 수 있으므로 8코어 FX-8150은 여기서 좋은 결과를 보여줍니다. 하지만 이 경우 '나쁘지 않다'는 것은 상대적인 개념으로, 사실 성능은 코어 i5-2500과 맞먹을 정도다. 즉, Hyper-Threading을 지원하지 않는 Bulldozer 코어 2개는 Sandy Bridge 코어 1개와 동일합니다.

Adobe Premiere Pro의 성능은 다양한 효과가 적용된 HDV 1080p25 비디오가 포함된 프로젝트의 H.264 Blu-Ray 형식에서 렌더링 시간을 측정하여 테스트되었습니다.



이전 세대 AMD 프로세서도 비디오 트랜스코딩을 잘 처리했습니다. Bulldozer 마이크로아키텍처는 이러한 성격의 애플리케이션에서 약간의 성능 향상을 허용했으며 결과적으로 FX-8150은 Core i5-2500보다 훨씬 빠릅니다.

Adobe After Effects를 사용한 비디오 편집 속도는 흐림, 범프 생성, 프레임 블렌딩, 글로우 생성, 모션 디포커스 추가, 음영 처리, 2D 및 3D 조작, 반전 등을 포함하여 사전 정의된 필터 및 효과 세트의 실행 시간을 측정하여 평가되었습니다. 등.



로드가 잘 병렬화되어 있음에도 불구하고 FX-8150은 After Effects에서 Intel 경쟁사보다 뒤떨어집니다.

H.264 형식으로의 비디오 트랜스코딩 속도를 측정하기 위해 x264 HD 테스트가 사용되었으며, 이는 MPEG-2 형식의 소스 비디오 처리 시간을 측정하고 4Mbit/sec 스트림으로 720p 해상도로 기록되었습니다. 이 테스트에 사용된 x264 코덱은 HandBrake, MeGUI, VirtualDub 등과 같은 널리 사용되는 수많은 트랜스코딩 유틸리티의 기초가 되므로 이 테스트의 결과는 실질적으로 매우 중요하다는 점에 유의해야 합니다.






x264 코덱으로 비디오를 트랜스코딩할 때 AMD 프로세서는 항상 좋은 성능을 보여주었습니다. 8코어 마이크로아키텍처가 출시되면서 결과가 더욱 향상되었으며 이제 FX-8150은 두 번째로 리소스 집약적인 인코딩 패스에서 Core i7-2600보다 성능이 뛰어납니다. 그래서 상당한 어려움을 겪으면서 마침내 TrueCrypt 외에 불도저 마이크로아키텍처를 갖춘 프로세서의 성능이 호평을 받을 만한 두 번째 응용 프로그램을 찾았습니다.

우리는 전문적인 SPECapc 테스트를 사용하여 Autodesk 3ds max 2011의 컴퓨팅 성능과 렌더링 속도를 측정합니다. 이 테스트를 시작으로 우리는 3ds Max 2011용 SPECapc의 새로운 전문 버전을 사용하기 시작했습니다.






렌더링 역시 멀티코어 마이크로아키텍처의 최적화 대상 작업 중 하나입니다. 그러나 그럼에도 불구하고 FX-8150은 Core i7-990X는 말할 것도 없고 Core i5-2500 및 Core i7-2600보다 여전히 느립니다. 반면, 새로운 AMD 프로세서가 이전 제품에 졌다고 해서 부끄러운 상황은 없습니다.

개별 애플리케이션의 평균 결과를 보면 FX-8150은 우리 애플리케이션 세트에서 Phenom II X6 1100T보다 약 14% 더 빨랐습니다. 그리고 이로 인해 절반도 안되는 경우에서 Core i5-2500보다 나쁘지 않은 성능을 발휘할 수 있었습니다. 그러나 차기 Sandy Bridge 모델인 Core i7-2600과의 격차는 여전히 상당하며 10% 이상에 달합니다.

에너지 소비

Bulldozer의 성능이 적절하다고 할 수 있는 일련의 작업을 찾을 수 있었음에도 불구하고 새로운 마이크로 아키텍처를 기반으로 한 프로세서는 전혀 혁신적인 프로세서처럼 보이지 않습니다. 이전에 AMD 프로세서가 이 매개변수에서 경쟁사보다 훨씬 열등했기 때문에 전력 소비에 대한 유일한 희망이 남아 있습니다. 이제 개발자의 약속을 믿는다면 마이크로 아키텍처는 에너지 효율성에 더욱 중점을 두었고 새로운 32nm 기술 프로세스는 개선에 기여했어야 합니다. 전기적 특성. 그럼 와트당 성능이라는 렌즈를 통해 FX-8150을 살펴보겠습니다.

다음 그래프는 별도의 언급이 없는 한 전원 공급 장치 "이후" 측정된 총 시스템 소비량(모니터 제외)을 표시하며 시스템에 관련된 모든 구성 요소의 전력 소비량 합계를 나타냅니다. 이 경우 전원 공급 장치 자체의 효율성은 고려되지 않습니다. 측정 중에 프로세서의 로드는 LinX 0.6.4 유틸리티의 64비트 버전에 의해 생성되었습니다. 또한 유휴 전력 소비를 정확하게 예측하기 위해 C1E, C6, AMD Cool"n"Quiet 및 Enhanced Intel SpeedStep 등 사용 가능한 모든 에너지 절약 기술을 활성화했습니다.



유휴 상태에서는 Bulldozer 마이크로아키텍처 기반 프로세서를 탑재한 시스템의 소비량이 Phenom II 제품군 CPU를 탑재한 유사한 시스템의 소비량보다 낮았습니다. 그러나 최신 Intel LGA1155 시스템은 유휴 모드에서 훨씬 적은 양을 소비합니다.



컴퓨팅 로드가 단일 스레드인 경우 Turbo Core 기술의 높은 공격성으로 인해 소켓 AM3+ 시스템의 소비가 급격히 증가합니다. 구축된 시스템으로 인텔 프로세서, 이는 관찰되지 않으며 다시 훨씬 더 높은 에너지 효율을 자랑할 수 있습니다.



전체 멀티스레드 로드를 사용하는 경우에도 상황은 크게 다르지 않습니다. "앞서가는" 것은 LGA1366 Core i7-990X 프로세서를 탑재한 시스템뿐인가요? 그렇지 않으면 모든 것이 이전과 같습니다. 전력 소비 측면에서 FX-8150은 특별한 성공을 거두지 못했습니다. Phenom II X6 1100T보다 약간 적게 소비하기 시작했지만 Sandy Bridge 프로세서는 최소 1.5배 더 경제적입니다.

AMD는 새로운 마이크로 아키텍처를 도입하여 얻은 모든 에너지 효율성을 사용하여 클럭 주파수를 높였습니다. 결과적으로 우리는 아무것도 볼 수 없습니다. 새로운 레벨효율성도, 근본적으로 성능도 향상되지 않습니다. 따라서 와트당 성능 측면에서 Bulldozer는 이전 제품과 마찬가지로 Intel의 경쟁 마이크로 아키텍처보다 심각하게 열등합니다.

참고로 프로세서와 마더보드의 전원 공급 회로에서 별도로 측정된 최대 부하에서의 소비량을 제시합니다.






8코어 FX-8150의 "순" 소비량이 소비량을 초과합니다. 샌디 프로세서브릿지 약 2회. 두 프로세서가 동일한 기술 프로세스를 사용하여 제조되고 유사한 코어 전압을 가지고 있다는 점을 고려하면 AMD가 Bulldozer 마이크로 아키텍처의 에너지 효율성에 대해 이야기할 때 의미한 바가 매우 흥미로워집니다.

오버클러킹

Socket AM3+ 플랫폼과 FX 시리즈 프로세서는 처음에는 오버클러커로 포지셔닝되었습니다. 이는 FX-8150 프로세서 중 하나를 사용하여 세계 오버클러킹 기록을 세운 AMD의 후원으로 수행된 모든 승수 및 실험의 완전한 잠금 해제로 입증됩니다. 새로운 마이크로아키텍처가 높은 클럭 주파수에서의 작동에 최적화되어 있다는 회사의 설명도 유망해 보입니다. 우리는 정말로 AMD로부터 새로운 오버클럭의 기적을 얻을 수 있을까요? 점검 해보자.

FX 프로세서를 오버클러킹하는 것은 매우 간단합니다. 로고에 "Unlocked"라고 직접 쓰여 있는 것은 아무것도 아닙니다. 프로세서 주파수는 BIOS 설정이나 AMD 자체(Overdrive Utility) 및 마더보드 제조업체에서 제공하는 특수 유틸리티를 통해 승수로 변경할 수 있습니다. 마찬가지로 소켓 AM3+ 시스템에서는 노스브리지와 프로세서에 내장된 메모리를 오버클럭할 수 있습니다.

테스트하는 동안 4.6GHz 주파수에서 FX-8150의 안정적인 작동을 달성할 수 있었습니다. 이 상태에서 안정성을 보장하려면 프로세서 공급 전압을 1.475V로 높여야 하고, 추가로 로드 라인 보정 기능을 활성화해야 했습니다. 안정성 테스트 동안 이 주파수에서 작동하는 프로세서의 온도는 소켓 센서에 따르면 85도를 초과하지 않았으며 프로세서에 내장된 센서에 따르면 75도를 초과하지 않았습니다. 열을 제거하기 위해 효율적인 공기 냉각기 NZXT Havik 140이 사용되었음을 기억합니다.



동시에 우리는 CPU에 내장된 노스 브리지를 오버클럭하려고 시도했습니다. 주파수를 높이면 세 번째 레벨 캐시와 메모리 컨트롤러의 속도에 긍정적인 영향을 미치기 때문입니다. 그러나 불행히도 이 프로세서 노드의 상당한 오버클럭킹은 눈에 보이지 않는 장벽에 부딪혔고 동시에 공급 전압을 높이려고 시도했지만 2.4GHz 이상의 주파수에 도달할 수 없었습니다.

어쨌든 FX-8150을 4.6GHz로 오버클럭하는 것은 좋은 결과입니다. 특히 Phenom II 제품군의 AMD 프로세서가 4.0GHz를 초과하는 공기 중에서 오버클럭되는 경우가 거의 없다는 사실을 고려하면 더욱 그렇습니다. 즉, 불도저 마이크로아키텍처는 실제로 주파수 제한을 약간 더 높이는 것을 가능하게 했습니다.

그러나 FX 프로세서의 오버클러킹은 우선 기존 Phenom II가 아니라 LGA1155 시스템용 경쟁 Core i5 및 Core i7 프로세서와 비교해야 합니다. 그러나 그들은 분명히 더 나쁘지는 않습니다. 예를 들어 공칭보다 0.15V 높은 전압 증가와 공기 냉각기를 사용하는 Core i5-2500K의 매우 일반적인 오버클럭은 4.7GHz입니다. 그리고 이러한 배경에서 FX-8150의 결과는 더 이상 그렇게 훌륭해 보이지 않습니다.

오버클럭된 FX-8150과 오버클럭된 Core i5-2500K의 성능을 비교하면 Zambezi 오버클럭에 대한 인상은 더욱 악화됩니다(공칭 모드에 비해 성능 증가는 괄호 안에 표시됨).



일반적으로 오버클러킹은 결과의 품질을 변경하지 않습니다. 그러나 FX-8150이 공칭 모드에서 더 빠른 경우에는 격차가 좁아졌습니다. 그리고 Core i5-2500이 선두에 있던 곳에서는 장점을 통합했습니다. 오버클럭 시 FX-8150의 주파수는 28% 증가한 반면 Core i5-2500K의 주파수는 42% 증가한 것은 놀라운 일이 아닙니다. 그리고 일반적으로 오버클럭으로 인한 성능 향상의 크기로 판단할 수 있듯이 Sandy Bridge 마이크로 아키텍처는 주파수 증가에 더 민감하게 반응합니다. 즉, 오버클럭을 고려하더라도 Bulldozer 마이크로 아키텍처를 갖춘 프로세서는 오버클럭이 꽤 잘 되지만 Intel의 경쟁사보다 강력해 보이지는 않습니다.

결론

성공인가 실패인가? 확실히 많은 분들이 기사 끝부분에서 명확한 판결을 보고 싶어합니다. 그러나 이 경우 모든 것이 매우 모호하며 AMD는 Bulldozer로 리뷰어를 매우 어려운 위치에 놓았습니다.

사실 AMD는 마이크로아키텍처 개발에 대해 완전히 비표준적인 접근 방식을 보여주었습니다. 프로세서 성능이 클록 주기당 프로세서 코어에서 실행되는 명령 수, 주파수 및 코어 수의 세 가지 구성 요소로 구성된다는 점을 고려하여 개발자는 우선 순위를 코어 수로 전환했습니다. 동시에 개별 코어의 특정 성능은 감소했지만 결과 디자인은 저렴한 8코어 또는 훨씬 더 복잡한 프로세서를 만들 수 있는 길을 열었습니다. 이는 멀티스레드 로드와 프로세서가 탑재된 서버 시장에서 매우 강력한 움직임입니다. 큰 금액코어 수요가 심각합니다. 따라서 새로운 Bulldozer 마이크로 아키텍처를 통해 AMD는 고성능 서버 시장에서 입지를 크게 향상시킬 가능성이 매우 높습니다.

그러나 오늘 우리는 이 마이크로 아키텍처를 기반으로 구축되었지만 데스크톱 컴퓨터를 겨냥한 FX 프로세서에 대해 알게 되었습니다. 그리고 바로 여기서 Bulldozer의 하드웨어 기능과 일반적인 데스크톱 작업 부하 간의 차이가 완전히 드러났습니다. 특히 많은 사람들이 불도저를 데스크탑 시장의 떠오르는 스타로 믿었던 방식으로 마케팅 캠페인이 구성되었다는 점은 실망스럽습니다. 그러나 이러한 희망은 실현될 운명이 아니 었습니다.


Bulldozer 마이크로아키텍처를 기반으로 하는 FX 프로세서는 일반 사용자가 해결하는 일부 작업에서만 그 강점을 발휘할 수 있었습니다. 일반적인 일반적인 애플리케이션 중에는 단순한 정수형 멀티스레드 워크로드를 생성하는 사례가 많지 않은데, 불도저의 높은 성능은 이 경우에서만 드러난다. 결과적으로 어떤 경우에는 Bulldozer가 Intel의 경쟁 솔루션보다 느릴 뿐만 아니라 이전 세대 마이크로 아키텍처를 기반으로 구축된 Phenom II X6 프로세서보다 더 나쁜 것으로 나타났습니다. 이는 AMD가 혁신적인 데스크탑 프로세서를 생산하지 못했다는 것을 의미합니다.

사실 FX는 차기 신동일 뿐인데, 특히 이전 제품에 비해 그 자체로는 상당히 좋은 것 같습니다. FX 프로세서는 일반적으로 Phenom II보다 빠르고 오버클럭이 훨씬 더 좋으며 소비량이 약간 낮기 때문에 오래된 K10 마이크로 아키텍처의 캐리어를 대체하는 것으로 간주될 수 있습니다.

그러나 AMD는 자체뿐만 아니라 AMD와도 전쟁을 벌이고 있음을 상기시켜 드리겠습니다. 인텔. 따라서 우리는 FX 프로세서가 비디오 처리 및 트랜스코딩에 중점을 둔 데스크톱에서만 실제로 의미가 있다는 실망스러운 결론을 여전히 표명할 수밖에 없습니다. 다른 경우에는 Sandy Bridge 프로세서와 비교할 때 성능이 거의 좋아 보이지 않습니다. 전력 소비와 오버클러킹에 대해서도 마찬가지입니다. 이와 별도로 최신 3D 게임은 실제로 진정한 멀티 스레드 알고리즘을 사용하지 않기 때문에 예상대로 AMD FX 프로세서가 게임 시스템에 나쁜 옵션으로 판명되었다는 점을 추가해야 합니다. 그러나 게임의 초당 프레임 수가 프로세서가 아닌 그래픽에 의해 제한되는 경우가 많다는 점을 고려하면 AMD 제품 팬이라면 이를 참을 수 있을 것입니다.

즉, FX 프로세서의 시장 전망은 두 가지 요소에 따라 달라집니다. 즉, AMD 지지자의 규모가 얼마나 되는지; 제조업체가 가격 지렛대를 얼마나 능숙하게 관리할 것인지에 대한 것입니다. 그러나 Bulldozer 마이크로아키텍처를 탑재한 데스크탑 프로세서는 분명히 널리 보급될 것으로 예상되지 않습니다.

AMD는 새로운 프로세서 아키텍처에 거의 빠지지 않습니다. Intel이 2년마다 구조를 업데이트한다면 경쟁사는 2007년에 이전 K8을 재설계한 버전인 K10을 출시하면서 마지막으로 언급했습니다. 그래서 새로운 불도저의 등장은 의미 있는 사건이다. 향후 몇 년 동안 이 아키텍처는 모든 AMD 크리스탈의 기반이 될 뿐만 아니라 성능 경쟁에서 Intel과 경쟁할 수 있는 오랜 최초의 기회가 될 것입니다.

우리는 커플로 간다

Bulldozer를 만들면서 AMD 엔지니어는 기존 개발을 개선하고 부분적으로 복사하는 입증된 전략을 포기했습니다. 돌의 구조는 우리가 x86 시스템에서 보던 것과 근본적으로 다릅니다.

첫 번째이자 가장 중요한 혁신은 원래 레이아웃입니다. Bulldozer의 모든 상위 버전에는 공식적으로 8개의 코어가 장착되어 있습니다. 그러나 실제로는 4개의 완전한 모듈이 있으며 각 모듈에는 2개의 컴퓨팅 장치가 있습니다. 두 개의 정수 산술 클러스터(코어라고 하며 계산을 직접 담당함)는 프런트 엔드, 부동 소수점 클러스터(FPU) 및 2MB로 증가된 두 번째 수준 캐시를 공유합니다.

이러한 탠덤의 이점은 공간을 절약하고 에너지 소비 및 생산 비용을 줄이는 것입니다. 단점 - 동일한 세트를 공유하면 최종 성능에 나쁜 영향을 미칩니다. 부하가 심한 경우 하나의 프런트엔드가 두 개의 코어를 처리하지 못할 수도 있습니다. AMD는 성능 저하를 부정하지 않습니다. 이에 따르면 듀오는 본격적인 듀얼 코어 프로세서보다 약 20% 더 약합니다.

의사소통의 어려움

병목 현상을 제거하기 위해 프런트엔드는 두 코어 간에 리소스를 효율적으로 공유하는 방법을 배워야 했습니다. 이를 달성하기 위해 분기 예측 장치와 명령 디코더가 재설계되었으며 이는 처리 명령(Sandy Bridge에서와 같이)과 기술을 위한 네 번째 채널을 수신했습니다. 지점 융합. 후자를 사용하면 지침의 일부를 하나의 작업으로 묶을 수 있습니다. 이 모든 것이 프런트 엔드 작업 속도를 높이고 크리스탈이 유휴 상태가 되는 것을 방지해야 합니다.

코어 자체는 Out-of-Order, 로드/언로드, L1 캐시 및 두 개의 컴퓨팅 클러스터 세트입니다. 비순차적 실행 장치에는 이제 물리적 파일 레지스터가 있습니다. Sandy Bridge와 마찬가지로 작업 데이터를 저장하기 위한 주소가 여기에 포함되어 있어 기본 Out-of-Order 파이프라인을 언로드할 수 있습니다. 로딩/언로딩 프로세서는 버퍼 증가, 용량 두 배 증가 및 작업 능력을 받았습니다. 가상 주소이는 이론적으로 L1 데이터 캐시 작업 속도를 높여야 합니다. Bulldozer의 후자는 K10의 64KB에 비해 4배 더 작아졌습니다. 손실은 작업 속도로 보상되었습니다. L1 연관성이 2개 채널에서 4개 채널로 증가했습니다. 영형검색 효율성이 높아집니다.

하나의 모듈에는 3개의 컴퓨팅 클러스터가 있습니다. 정수 2개와 부동 소수점 데이터 작업용 1개입니다. K10과 비교하여 첫 번째 쌍은 하나의 ALU(계산에 참여)와 AGU(메모리 주소 처리)를 잃었습니다. 이론적으로 이는 최대 성능이 감소함을 의미합니다. 실제로는 변경 사항이 거의 눈에 띄지 않습니다. 정수 클러스터를 완전히 로드하는 것은 어렵습니다.

주요 변경 사항은 복잡한 부동 소수점 계산을 담당하는 FPU에 영향을 미쳤습니다. K10에서는 훨씬 더 강력해졌습니다. 덧셈과 곱셈 연산을 수행하기 위해 한 쌍의 MMX 및 128비트 FMAC 장치를 받았습니다. K10과 달리 FMAC는 범용화되어 서로 교체할 수 있어 계산 속도에 긍정적인 영향을 미칩니다. 또한 연산을 하나의 표현식으로 결합하는 방법을 배워 계산의 정확성을 높였습니다.

또한 FPU는 업데이트된 지침 세트를 받았습니다. 첫째, 프로세서는 이제 256비트 레지스터를 지원하는 AVX와 함께 작동합니다. 계산을 위해 Sandy Bridge에서와 같이 두 개의 FMAC가 결합됩니다. 둘째, Bulldozer는 SSE 4.2, AENSI, FMA4 및 XOP 지침과 함께 작동할 수 있습니다. 마지막 두 세트는 AMD에 고유합니다. 여러분과 나에게 이러한 모든 변경 사항은 단 하나의 의미만을 의미합니다. 이전에 여러 클럭 사이클에 걸쳐 이루어진 명령이 이제 하나로 계산되며 이는 성능에 직접적인 영향을 미칩니다. 사실, 속도 향상을 경험하려면 소프트웨어의 지침 지원이 필요합니다.

접착제와 가위

결과적으로 각 Bulldozer 모듈은 하나의 프런트엔드, L2 및 L1 데이터 캐시, 두 개의 정수 클러스터 및 부동 소수점 숫자 작업을 위한 블록으로 구성됩니다. 전체적으로 하나의 돌에는 이러한 세트가 최대 4개까지 포함될 수 있습니다. 동시에, 그들 각각은 다수의 공통 요소에 접근할 수 있습니다. 첫 번째는 DDR3-1866MHz를 지원하는 듀얼 채널 메모리 컨트롤러입니다. 두 번째는 K10에 비해 볼륨이 6MB에서 8MB로 증가하고 연관성이 48채널에서 64채널로 증가한 L3 캐시입니다. Sandy Bridge와 달리 L3 캐시의 주파수는 코어 속도와 일치하지 않습니다. 상위 모델이 3.6GHz의 속도로 작동한다면 최신 수준의 메모리는 2.2GHz입니다. 이로 인해 성능에 부정적인 영향을 미치는 눈에 띄는 지연이 발생합니다. AMD에 따르면 이러한 희생은 고주파수에서의 안정적인 작동을 위해 이루어졌습니다.

타담!

건축적 트릭과 32nm 공정 기술에도 불구하고 Bulldozer는 인상적인 315평방미터를 차지합니다. 밀리미터. 이는 쿼드코어 샌디브릿지 이상에 비해 약 1.5배 더 많은 수치이다. 라노. 다행히 전력 소비는 합리적인 한도(125W) 내에서 유지되었습니다.

8코어 모델 외에도 6코어, 4코어 버전이 있습니다. 컴퓨팅 유닛. 동생들은 동일한 8코어 설계를 기반으로 하지만 하나 또는 두 개의 모듈이 비활성화되어 있습니다.

기본 주파수는 3.1~3.6GHz까지 다양합니다. Sandy Bridge와 마찬가지로 Bulldozer에는 자동 오버클럭 기술이 있습니다. 담당하는 특수 칩 터보 코어 2.0, 현재 코어 로드 및 TDP 수준을 모니터링하고 기회가 발생하는 즉시 프로세서 주파수를 높입니다. 탑 크리스털의 경우 모든 모듈을 사용하면 300MHz까지 속도를 높일 수 있다. 일부 리소스가 유휴 상태인 경우 - 600MHz. 낮은 부하에서는 불도저가 에너지 절약 모드로 들어가며 이를 담당하는 기술이 있습니다. 쿨"n"조용함.

수동 오버클럭은 간단합니다. 첫째, 전체 라인에는 잠금 해제된 승수가 있습니다. 둘째, 신규 이민자는 고도를 잘 얻습니다. 액체 질소 하에서 구형 불도저는 8429MHz라는 새로운 세계 기록을 세웠습니다.

동반자

불도저는 소켓 AM3+에서 실행됩니다. 본질적으로 이것은 하나의 핀이 추가된 약간 향상된 AM3입니다. 새로운 프로세서 소켓이 있는 칩셋을 호출합니다. 990FX, 990X그리고 970 . PCIe 2.0 컨트롤러에서는 다릅니다. 구형 모델에는 32개 라인, 젊은 모델에는 16개 라인이 장착되어 있습니다. 또한 990FX 및 990X는 CrossFireX를 지원합니다. 칩셋의 기능 중에는 6개의 SATA Rev 포트가 있습니다. 3과 14 USB 커넥터 2.0. USB 3.0 컨트롤러가 없습니다.

불도저는 오래된 보드에서도 작동할 수 있습니다. 업데이트된 BIOS만 있으면 됩니다. 제한 사항: Turbo Core 및 Cool"n"Quiet은 응답 속도가 감소했으며 일부 에너지 절약 기능을 사용할 수 없습니다.

Bulldozer 프로세서 아키텍처는 흥미로운 것으로 나타났습니다. 마침내 AMD는 자기 복제를 중단하고 완전히 새로운 것을 내놓았습니다. 불행히도 경쟁사에 비해 확실한 이점은 거의 없습니다. 선언된 8개 코어가 없습니다. 좋은 의미에서 우리는 Intel Hyper-Threading과 같이 컴퓨팅 장치 수가 증가했지만 하드웨어 수준에서는 쿼드 코어 모델을 보유하고 있습니다. 아이디어는 좋지만 성능은 프런트엔드 속도에 따라 달라집니다. Bulldozer의 진정한 장점은 부동 소수점 계산을 위한 강력한 FPU와 K10에 비해 향상된 작동 주파수입니다.

그것을 출시하자! 묻어버리자!

AMD는 다음과 같은 프로세서 제품군을 출시할 계획을 발표했습니다. 회사는 매년 아키텍처를 업데이트하여 매번 와트당 약 15%의 성능 향상을 달성할 것으로 기대하고 있습니다. AMD가 계획을 고수한다면 2012년에 아키텍처를 보게 될 것입니다. 말뚝 박는 기계(“koper”), 1년 후 - 증기 롤러(“스팀 롤러”), 2014년은 발표로 기억될 것입니다 굴착기. 건축공사란 이런 것입니다.

잘못된 창문

AMD에 따르면, 윈도우 7새로운 창작물의 잠재력을 최대한 발휘할 수 없습니다. OS 스케줄러는 Bulldozer의 기능을 고려하지 않습니다. 예를 들어, 새로운 프로세서의 경우 상호 연결된 스레드를 하나의 모듈에 할당하는 것이 중요합니다. 그렇지 않으면 코어는 빠른 L2 캐시가 아닌 세 번째 수준 메모리를 통해 데이터를 교환합니다. 일부 분할 스트림도 유사한 방식으로 더 잘 처리되어 Turbo Core 2.0의 효율성을 향상시킵니다. 동시에 특정 작업프런트엔드 블록에 더 큰 부하가 발생하므로 이를 여러 모듈에 분산시키는 것이 좋습니다. 와의 협력 덕분에 마이크로소프트이러한 뉘앙스는 플래너에서 고려됩니다. 윈도우 8. 그러나 성능이 크게 향상될 것으로 기대해서는 안 됩니다.

사전

정수 컴퓨팅 클러스터- 정수(1, 2, 10)를 사용한 연산을 다룹니다.

프런트엔드- 프리페치 블록. 프로그램으로부터 명령을 받아 프로세서가 이해할 수 있는 언어로 번역합니다.

FPU- 부동 소수점 데이터 계산 클러스터. 분수(1.2345)와 거듭제곱(1.2345E-10)이 있는 큰 값으로 계산을 수행합니다.

분기 예측 블록- 다음 순간에 프로그램에 필요할 수 있는 데이터와 작업을 미리 예측합니다. 프로세서가 유휴 상태가 되는 것을 허용하지 않습니다.

명령 디코더- 프로그램을 마이크로 작업으로 나누어 컴퓨팅 클러스터에서 사용합니다.

고장난- 특별 실행 블록. 코어 간의 동작 분배를 처리합니다. 데이터가 있는 명령만 계산을 위해 보냅니다.

블록 로드/언로드 (LSU) - 컨베이어의 출력과 L1 데이터 캐시 사이의 데이터 이동을 모니터링합니다.

캐시 연관성- 캐시 라인과 컬럼을 연결합니다. 연관성이 높을수록 검색 속도는 느려지지만 효율성은 높아집니다.

MMX- 최대 8바이트의 숫자로 작업하기 위한 블록 세트입니다.

명령어 세트- 하나의 명령으로 여러 데이터에 대한 작업을 수행할 수 있습니다.

1 번 테이블

AMD 불도저 프로세서 사양

컴퓨팅 코어 수

기본 주파수

터보 코어 주파수

메모리 지원

에너지 소비

기술적인 프로세스

2011년 11월 기준 가격

알려지지 않은

프로세서 성능은 어떻게 구성되나요? 이전에는 성능을 클록 사이클당 실행된 명령 수와 이 프로세서가 작동하는 빈도의 곱으로 설명하는 공식이 사용되었습니다. 이제 이 공식에는 컴퓨팅 코어 수라는 세 번째 요소가 나타났습니다. 따라서 빠른 제품을 출시하려는 프로세서 개발자에게는 이를 수행할 수 있는 몇 가지 옵션이 있습니다.

그러나 모든 것이 그렇게 단순하지는 않습니다. 클럭 사이클당 컴퓨팅 코어에 의해 실행되는 명령어 수를 늘리는 것은 다소 어려운 작업입니다. 클래식 x86 프로그램 코드명령의 순차적 실행이 필요하므로 병렬 처리를 달성하려면 프로세서에 매우 효율적인 분기 예측 및 명령 재정렬 장치가 장착되어야 하며 이를 구현하려면 상당한 엔지니어링 노력이 필요합니다. 동시에 마이크로 아키텍처의 복잡성은 결정의 물리적 크기에 영향을 미치고 코어 수를 늘릴 때 제한이 발생합니다. 따라서 제조업체가 많은 수의 코어를 갖춘 프로세서를 만들려면 반대로 마이크로 아키텍처를 단순화해야 합니다. 와는 쉽지 않네요 클럭 주파수. 성장을 위해서는 다시 프로세서의 내부 블록을 변경하고 실행 파이프라인을 연장해야 합니다. 결과는 다음과 같습니다. 프로세서가 성능 메달을 획득하려면 개발자가 여러 매개변수를 동시에 최적화하기 위해 열심히 노력해야 합니다.

문제는 또한 프로세서 성능을 향상시키기 위해 선택한 방법 중 하나가 특별한 경우에만 성공할 수 있다는 사실에도 있습니다. 모든 프로그램이 많은 수의 코어에서 효과적으로 작동할 수 있는 것은 아닙니다. 일부 알고리즘에서는 전환을 정확하게 예측하고 지침을 재정렬하는 것을 허용하지 않습니다. 그리고 어떤 경우에는 시스템에 다른 병목 현상이 있기 때문에 클럭 주파수를 높여도 성능이 향상되지 않습니다.

최적의 균형을 찾는 것은 쉽지 않습니다. 최적의 기준은 무엇입니까? 한정된 수의 프로그램에서만 프로세서의 성능을 비교할 수 있으며 주어진 특정 사례에 대해 가장 빠른 프로그램을 선택할 수 있습니다. 그러나 이것이 다른 테스트 도구 세트를 사용하면 완전히 반대되는 추정치를 얻지 못할 것이라는 보장은 전혀 없습니다. 오늘 우리는 코드 이름 Zambezi로 널리 알려진 AMD의 주력 제품인 새로운 AMD FX 프로세서 시리즈에 대해 알게 될 것이기 때문에 여기서 이렇게 긴 소개를 제공합니다. 이 프로세서는 논란의 여지가 많은 Bulldozer 마이크로 아키텍처를 기반으로 하며 이미 많은 불쾌한 리뷰를 수집했습니다. 그러나 요점은 이 마이크로아키텍처가 완전히 나쁘다는 것이 아닙니다. 특성의 최상의 균형을 선택할 때 개발자는 대다수 사용자의 요구 사항을 잘못 평가하고 "기본 공식"의 잘못된 요소에 중점을 두었습니다. 그 결과, 새로운 세대의 고성능 솔루션을 출시하려는 초기 계획은 어긋나고, 획기적인 발전에 흥미를 느낀 AMD 지지자들은 기대했던 것과는 전혀 다른 것을 얻게 되었습니다. 그러나 이것이 실망에 대한 심각하고 객관적인 이유입니까? 이 자료에서 이에 대해 이야기하겠습니다.

⇡ 커널 개수: 8개 또는 4개?

고성능 프로세서를 위한 새로운 설계를 진행하는 동안 AMD는 프로세싱 코어 수에 우선순위를 두기로 결정했습니다. 이것은 수년에 걸쳐 점점 더 많은 멀티 스레드 소프트웨어가 있고 수년간의 개발을 위해 설계된 마이크로 아키텍처의 개발이 주로 시장의 현재 상태가 아니라 고려해야 한다는 사실에 기초한 완전히 논리적인 선택입니다. 관찰된 경향. 새로운 프로세서의 기본 버전에 제공되는 8개의 코어는 AMD가 시장을 정복하려는 것입니다. 지금까지 칩만 제시되었으며 최대 코어 수는 6개로 제한되었습니다. ( 여기서는 데스크톱 컴퓨터에 대해서만 이야기하고 있습니다. — 대략. 에드. )

동시에 개발자들은 기존 K10 마이크로 아키텍처의 코어를 사용하고 싶지 않았습니다. 너무 클 뿐만 아니라 물리적 크기, 또한 Llano가 판단할 수 있듯이 최신 32nm 기술로 전환된 후에도 높은 클럭 주파수에서 작동하는 경향이 없습니다. 또한 AVX 명령어와 같은 많은 최신 기능을 지원하지 않습니다. 따라서 8코어 프로세서를 조립하기 위해 AMD는 새로운 마이크로 아키텍처인 Bulldozer를 만들었습니다. 회사 대표자들은 개발이 처음부터 수행되었다고 말하는 것을 선호하지만 실제로 Bulldozer 코어에서는 올해 발표된 또 다른 마이크로 아키텍처인 Bobcat에 대한 많은 참조를 찾을 수 있습니다. 이는 작고 에너지 효율적인 장치에 사용하기 위한 것입니다. 그러나 Bulldozer와 Bobcat의 관계는 상당히 멀기 때문에 일반적인 아이디어를 명확하게 하기 위해 언급할 뿐입니다. Bulldozer는 비교적 간단한 코어를 많이 결합합니다.

동시에 우리는 하나의 반도체 칩에 8개의 단순 코어가 결합된 원시적인 조합에 대해 말하는 것이 아닙니다. 이 상황에서 결과 프로세서는 단일 스레드 성능이 매우 낮고 로드를 여러 계산 스레드로 분할하지 않는 프로그램이 적지 않기 때문에 이는 다소 심각한 문제가 됩니다. 따라서 먼저 코어는 높은 클럭 속도에서 작동하도록 최적화되었습니다. 둘째, 단일 스레드를 제공하기 위해 리소스를 공유할 수 있는 듀얼 코어 모듈로 쌍을 이루었습니다. 결과는 다소 흥미로운 디자인입니다. 이러한 듀얼 코어 모듈의 실행 파이프라인의 입력 부분은 공통적이며 추가 명령 처리는 두 세트의 실행 장치 간에 나누어집니다.

불도저 설계의 기본은 일반적으로 듀얼 코어 모듈이라고 불리는 것입니다.

데이터 처리 과정을 기억하세요. 최신 프로세서캐시 메모리에서 x86 명령어 가져오기, 디코딩, 내부 매크로 연산으로 변환, 실행, 결과 기록 등 여러 단계가 포함됩니다. Bulldozer 모듈의 처음 두 단계는 한 쌍의 코어에 대해 함께 수행되고 정수 명령의 경우 실행은 두 개의 클러스터 코어에 분산되거나 실수 산술의 경우 부동 소수점 연산 블록에서 수행됩니다. 두 개의 코어에 공통입니다.

불도저 모듈은 클록 주기당 4개의 명령을 처리하도록 설계되었으며, 매크로 병합 기술 덕분에 일부 x86 명령 쌍은 프로세서에서 하나의 작업으로 간주될 수 있습니다. 즉, 일반적으로 듀얼 코어 불도저 모듈은 클록 주기당 4개의 명령을 처리하고 매크로 병합도 지원할 수 있는 최신 Intel 프로세서의 단일 코어와 성능이 유사합니다.

그러나 Bulldozer 모듈과 Sandy Bridge 코어 사이에는 이론적 속도가 거의 동일하다는 점에 의문을 제기할 수 있는 상당한 차이가 있습니다. 새로운 AMD 프로세서의 모듈에는 두 개의 동일한 코어가 남아 있기 때문에 한 쌍의 스레드를 처리할 때만 최대 성능을 발휘할 수 있습니다. 단일 스레드 로드를 지원하는 경우 서비스 속도는 클러스터 하나 내의 실행 장치 수에 따라 제한됩니다. 그리고 개별 코어를 단순화하려는 AMD의 열망을 고려할 때 그 수가 그리 많지 않습니다. Sandy Bridge 또는 K10 마이크로 아키텍처가 있는 프로세서보다 1.5배 적습니다. 즉, 두 개의 산술 ALU와 두 개의 주소 AGU가 있습니다.

불도저 마이크로아키텍처를 기반으로 구축된 모듈의 기능적 구조는 다음과 같습니다. 두 개의 코어에서 두 세트의 정수 액추에이터만 남습니다.

프로세서 모듈에 공통된 부동 소수점 연산 블록도 상대적으로 복잡성이 낮습니다. 여기에는 2개의 128비트 FMAC 실행 장치가 포함되어 있으며 이를 단일 장치로 결합하여 256비트 명령을 처리할 수 있습니다. 특히 한 쌍의 코어로 나뉘어져 있다는 점을 고려하면 여기에는 액추에이터가 그리 많지 않은 것 같습니다. 그러나 이는 별도의 승수와 가산기를 사용하는 이전 및 경쟁 마이크로 아키텍처보다 더 보편적입니다. 덕분에 실수로 작업할 때 듀얼 코어 Bulldozer 모듈은 비슷한 수준의 더 많은 기능을 제공할 수 있습니다. 고성능예를 들어 하나의 Sandy Bridge 코어보다 말이죠.

128비트 장치를 결합하여 256비트 명령어와 작동하는 비슷한 아이디어가 Sandy Bridge에서도 사용됩니다.

하지만 불도저 모듈은 듀얼 스레드 로드에서 가장 큰 장점을 발휘해야 합니다. 하나의 Sandy Bridge 코어는 두 개의 계산 스레드를 처리할 수도 있으며, 이를 위해 하이퍼스레딩 기술이 적용됩니다. 그러나 모든 명령은 하나의 액추에이터 세트로 전송되므로 실제로 수많은 충돌이 발생합니다. Bulldozer 모듈에는 스레드를 병렬로 실행할 수 있는 두 개의 독립적인 정수 클러스터가 포함되어 있으며, 그 안에 있는 총 실행 장치 수는 Sandy Bridge 커널에 있는 이러한 장치 수의 1.5배를 초과합니다.

왼쪽에는 불도저 모듈이 있고 오른쪽에는 하이퍼스레딩을 지원하는 일부 경쟁 코어가 있습니다. 사실 샌디브릿지와 별로 비슷해 보이지는 않지만, 문제의 본질을 그림으로 전달하고 있습니다.

결과적으로 Bulldozer 모듈은 Sandy Bridge 코어보다 최고 성능이 높지만 이 성능을 잠금 해제하는 것이 다소 어렵습니다. Sandy Bridge 코어는 단일 스레드 코드를 독립적으로 구문 분석하고 전체 실행 장치 세트에서 병렬로 실행하는 고급 온칩 로직 덕분에 자체 리소스를 지능적으로 로드합니다. 불도저에서는 액추에이터를 효과적으로 사용하는 작업이 부분적으로 프로그래머에게 맡겨져 프로그래머는 자신의 코드를 두 개의 스레드로 분할해야 합니다. 전체 다운로드그래야만 모든 모듈 용량이 가능해집니다.

그리고 그것이 전형적인 것입니다. 듀얼 코어 Bulldozer 프로세서 모듈을 고려할 때 우리는 이를 단일 Sandy Bridge 코어와 지속적으로 비교했으며 동시에 매우 정확한 평행선을 그릴 수 있었습니다. 이는 우리에게 새로운 마이크로 아키텍처의 "8코어" 특성을 마케팅 담당자의 상상의 산물로 간주해야 하지 않을까 하는 의문을 갖게 합니다. AMD는 모듈이 두 개의 독립 코어 성능의 최대 80%를 제공할 수 있다고 주장하면서 코어는 정수 클러스터 수로 계산되어야 한다고 말합니다. 그러나 Bulldozer의 기반이 되는 코어는 다른 프로세서의 코어보다 훨씬 단순하다는 점을 잊어서는 안 됩니다. 따라서 듀얼코어 모듈의 개수는 불도저의 성능을 훨씬 더 적절하게 반영하는 특징이다.

최대 프로세서 코어 수를 찾아 AMD 마케팅 부서에 취업하세요

⇡ 캐시 메모리

Bulldozer 프로세서의 캐시 메모리 구성은 개별 코어가 아닌 듀얼 코어 모듈에도 "연결"되어 있습니다. 실제로 각 코어에는 자체적인 첫 번째 수준 데이터 캐시만 할당되며, 다른 모든 수준의 캐시 메모리는 모듈 전체 또는 프로세서와 관련됩니다.

  • 각 코어에는 데이터용 자체 L1 캐시가 있습니다. 볼륨은 16KB이며 아키텍처에서는 4개의 연관 채널이 있다고 가정합니다. 이 캐시는 연속 쓰기 알고리즘으로 작동합니다. 이는 포괄적임을 의미합니다.
  • 지침에 대한 첫 번째 수준 캐시는 각 이중 프로세서 모듈에 대한 단일 복사본으로 제공됩니다. 볼륨은 64KB이고 연관성 채널 수는 2개입니다.
  • 두 번째 수준 캐시도 모듈당 단일 인스턴스로 구현됩니다. 크기는 2MB로 인상적이며 연관성은 16채널이며 작동 알고리즘은 독점적입니다.
  • 또한 8코어 프로세서 전체에는 64채널 연관성을 갖춘 8MB L3 캐시가 있습니다. 이 캐시의 특징은 약 2GHz인 프로세서 자체에 비해 상당히 낮은 주파수에서 작동한다는 것입니다.

다음 표에서는 8코어 Bulldozer, 4코어 Sandy Bridge 및 Thuban 프로세서(6코어 Phenom II X6, K10 마이크로아키텍처 기반)의 캐시 메모리 볼륨 비율을 설명합니다.

캐시 유형 불도저(8코어/4모듈) 샌디 브릿지(4코어) 투반(6코어)
L1I(지침) 4x64KB 4x32KB 6x64KB
L1D(데이터) 8x16KB 4x32KB 6x64KB
L2 4x2MB 4x256KB 6x512KB
L3 8MB, 2.0~2.2GHz 8MB, 프로세서 속도로 실행 6MB, 2.0GHz

표에서 볼 수 있듯이 AMD는 대용량 상위 수준 캐시에 의존했는데, 이는 심각한 멀티스레드 로드의 경우 매우 유용할 수 있습니다. 그러나 새로운 프로세서의 캐시 메모리는 일반적으로 이전 및 경쟁 제품보다 느립니다. 이는 실제 대기 시간을 측정할 때 쉽게 감지됩니다.

Bulldozer에서 데이터에 액세스할 때 발생하는 큰 지연은 이러한 CPU의 높은 클럭 속도를 통해서만 보상될 수 있습니다. 그러나 원래 계획대로 주파수 측면에서 새로운 8코어 프로세서는 Phenom II를 30% 초과할 예정이었습니다. 그러나 AMD는 그러한 높은 주파수에서 안정적으로 작동할 수 있는 반도체 크리스털을 설계할 수 없었습니다. 결과적으로 캐시 대기 시간이 길어지면 Bulldozer 기반 시스템에 심각한 손상이 발생할 수 있습니다.