PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   系統組件 (https://www.pcdvd.com.tw/forumdisplay.php?f=19)
-   -   AMD Fusion第二波:CPU/GPU 2015年徹底融合 (https://www.pcdvd.com.tw/showthread.php?t=894507)

weirock 2010-05-14 11:22 AM

引用:
作者blair
推土機犧牲掉整數運算,也犧牲掉單線程能力,完全著重於多核心,這些是已知的

還有,請不要把多核心和超執行緒混在一起做牛丸了,這是兩回事
至今為止AMD也沒做過支援超執行緒(HT)的CPU


耶~我看到的好像有點不同!?
代碼:
一、推土機架構總覽

去年11月底的年度分析師會議上,AMD首次公佈了推土機架構的一些技術細節。今天,AMD提供了更詳細的架構圖。


每一個推土機模塊都包括兩個整數核心與一個浮點單元,其中每個整數核心有四條完整的整數管線,每條管線內又有一個算術邏輯單元(ALU)和一個地址生成單元(AGU),可以執行x86整數代碼、存儲指令以及合併執行SSE、AVX整數代碼,這也是最大的變化。

浮點單元內有兩個128位寬範圍的FMAC單元,可以執行新的積和熔加運(FMA)指令或者浮點加法與乘法操作,這樣既能降低功耗,也能提高簡單操作的吞吐量。據AMD解釋,兩個FMAC單元既可以被兩個核心整數的兩個線程並行使用,也能被一個線程循環使用。

每個整數核心內還都有自己的16KB一級緩存和載入存儲單元(LSU),其中後者負責管理來自自身所在整數核心以及浮點單元的所有存儲請求,每個核心能執行兩個在載入和一個存儲操作,都是最高128-bit。相比於K10架構,推土機的LSU還能執行數據和地址的推測。

為了減少分支預測的錯誤和由此造成的拾取操作延遲,分支預測單元也有所改進,能夠在每個時鐘週期內預測多個分支並發送代碼預取。

對性能提升貢獻很大的另一個重要特性是各個單元能運行在不同頻率上,可以關閉任何閒置的子單元並調整緩存容量(比如將一級緩存從四路16KB關閉成雙路 8KB),還有一個電源控制器負責跟蹤每個子單元的載入和功耗情況,這叫作應用電源管理(APM)。

最後是五級緩存架構:

- 零級緩存:每個線程(或核心)4KB 8路關聯;
- 一級緩存:每個核心16KB 4路關聯數據緩存,延遲1個循環;每個模塊128KB 4路關聯;
- 二級緩存:每個模塊2MB 8路關聯,兩個核心共享,全速;
- 三級緩存:所有核心共享8MB,延遲24個循環,每個時鐘循環可同時處理最多兩個請求;
- 四級緩存:桌面黑盒版以及服務器Opteron都將通過芯片堆棧新增四級緩存,容量32MB或者64MB。

二、新接口新工藝

推土機核心在基於32nm SOI工藝得初期試產中表現得異常可靠,因此AMD正在試驗使用28nm Bulk工藝進行小批量生產,但既未確認也未否認最終是否會使用28nm。


不過AMD確認,推土機處理器將採用Socket AM3+接口,941個針腳,不同於目前938個針腳的Socket AM3接口,其好處是可以支持DDR3-1866內存和高級節能技術,而且AM3+將是。

AM3+將是AMD的最後一代針腳柵格陣列(PGA)封裝,之後將改用觸點柵格陣列(LGA),等到Fusion融合處理器降臨的時候就會使用LGA AF1新接口,觸點多達1591個,支持DisplayPort 1.2標準、PCI-E 3.0規範(32條信道)、四通道內存。

三、智能加速

Intel Core ix家族支持Turbo Boost,AMD Phenom II X6也祭出了Turbo Core,都是多核心智能加速技術,可以自動關閉部分核心,並提高剩餘核心的頻率。

推土機則提供了兩個級別的智能加速,其一是在每個模塊內,可以動態調整每條整數管線的能耗,能將其中一個整數核心徹底關閉,並加速另一個整數核。

AMD保證這會帶來0.6-1.6GHz不等的模塊核心頻率提升,幅度30-35%,比如:

2.0GHz->2.6GHz +30%
2.4GHz->2.6GHz +33%
2.8GHz->3.8GHz +35%
3.2GHz->4.2GHz +31%
3.6GHz->4.6GHz +33%
4.0GHz->5.6GHz +30%

第二個級別則是針對整體主頻,會在高負載的時候有規律地逐步提高200MHz,直到上限。如果一個模塊在最低能耗狀態,其他模塊就能超頻兩三個級別。

一旦超過功耗或者散熱限制,主頻就會自動遞減200MHz,直到低於限制。比如:

2.0GHz->3.2GHz +60%
2.4GHz->3.8GHz +58%
2.8GHz->4.4GHz +57%
3.2GHz->4.8GHz +50%
3.6GHz->5.4GHz +50%
4.0GHz->5.8GHz +45%

dabochi 2010-05-14 12:28 PM

引用:
作者blair
推土機犧牲掉整數運算,也犧牲掉單線程能力,完全著重於多核心,這些是已知的


說老實話 在下覺得這樣講不大對
Bulldozer乍看之下一個核心是精簡化了 但是細看之後 會發現:
1.核心簡化了 但是Module沒簡化 反而還應該說變複雜了
2.承上 Bulldozer的執行能力由每週期3個完整指令變4個完整指令 其實是提升了
3.Bulldozer目前最令人擔心的問題是解碼/執行單元還是沿用由Hammers時代就開始用的設計 但是反過來說 也意味著單線程能力下降不太會發生

引用:
作者blair
還有,請不要把多核心和超執行緒混在一起做牛丸了,這是兩回事
至今為止AMD也沒做過支援超執行緒(HT)的CPU


Bulldozer用的CMT架構本來就是HT(SMT)架構的增強版
AMD說Bulldozer支援超執行緒個人以為並無不妥

粉紅呆瓜 2010-05-14 12:39 PM

引用:
作者weirock
耶~我看到的好像有點不同!?
你看到的那篇好像是4/1發佈的 :unbelief:

airitter 2010-05-14 12:39 PM

引用:
作者weirock
耶~我看到的好像有點不同!?
一、推土機架構總覽

去年11月底的年度分析師會議上,AMD首次公佈了推土機架構的一些技術細節。今天,AMD提供了更詳細的架構圖。


每一個推土機模塊都包括兩個整數核心與一個浮點單元,其中每個整數核心有四條完整的整數管線,每條管線內又有一個算術邏輯單元(ALU)和一個地址生成單元(AGU),可以執行x86整數代碼、存儲指令以及合併執行SSE、AVX整數代碼,這也是最大的變化。

浮點單元內有兩個128位寬範圍的FMAC單元,可以執行新的積和熔加運(FMA)指令或者浮點加法與乘法操作,這樣既能降低功耗,也能提高簡單操作的吞吐量。據AMD解釋,兩個FMAC單元既可以被兩個核心整數的兩個線程並行使用,也能被一個線程循環使用。

每個整數核心內還都有自己的16KB一級緩存和載入存儲單元(LSU),其中後者負責管理來自自身所在整數核心以及浮點單元的所有存儲請求,每個核心能執行...


這是愚人節笑話,還真有人當真 XD.

weirock 2010-05-14 12:43 PM

A害XP
對土推機的資料越來越混亂了XP

firmware 2010-05-14 01:47 PM

等推土機正式發表後再研究看看囉, 這幾天會去anandteck上查一下, 那邊比較專業.

至於HT或multi-core, 基本上HT只是intel創的一個名詞/一個概念, 倒是不必過度解讀.

Crazynut 2010-05-14 03:01 PM

早在CPU頻率飛速進展的時期,Cyrix就有MediaGX之類的產品推出過了,這並不是新奇的構想。

想當然耳,在那種時期當然是黯然退場,因為當時CPU進展的腳步太快了。

不過在這個時機點上,可能比當時好很多。

要想有多驚人的效能,可能是個奢望吧?不過滿足一般的需求,應該不成問題。畢竟現在的運算速度,超出"一般需求"已經很遠很遠了。

physx 2010-05-14 04:22 PM

引用:
作者blair
推土機犧牲掉整數運算,也犧牲掉單線程能力,完全著重於多核心,這些是已知的

還有,請不要把多核心和超執行緒混在一起做牛丸了,這是兩回事
至今為止AMD也沒做過支援超執行緒(HT)的CPU


不好意思我對超執行緒不是很懂:jolin:

我記得intel是把超執行緒定位成一個核心可以有兩個執行緒(HT)

而AMD的推土機架構是八核心八執行緒(還是四核心八執行緒?、四模塊八執行緒=_=?)

總之我記得intel的HT在軟體不支援的情況下好像就沒有作用

但是AMD的超執行緒是每條執行緒都有一顆實體核心

這樣還會發生軟體不支援沒有作用的情況嗎=_=?


----------------------------------

順便在問一下

像intel的HT,比如說一款原本只支援單核心的軟體

那只要支援HT,軟體就會變成能以雙核心的方式在單一顆核心上運作這樣嗎?

還是說HT是讓雙核心變成能支援四核心軟體這樣?

粉紅呆瓜 2010-05-14 04:54 PM

為什麼特別在意intel的HT
SUN的UltraSPARC T2這個CPU有8核心
每個核心有八條執行緒
比intel的HT多六條,是intel的HT的四倍
怎麼沒有人在意?

這AMD與intel兩家的專利都需要交叉授權
AMD要做的話,早就做了
多執行緒不一定適合每種CPU的架構
AMD在K7時代或之前就有對CPU多工特別設計
如果硬加進去增加設計與製造難度卻無法對效能提升有所幫助的話
簡單來說就是本來花100元可以買到100顆雞蛋
然後再花100元只能買到50顆雞蛋
傻子才會多花那100元
我看不出來為什麼一定要加入多執行緒?

visionary_pcdvd 2010-05-14 05:22 PM

沒記錯的話

HT 是因為 x86 超純量管線高度平行化以後,執行單元多的用不完(或說使用率偏低),Intel 為了提升管線使用率而開發的技術

只需增加約 5% 左右的製造成本(電晶體數量)就能讓一個核心同時執行兩個執行緒,也是 Intel 堅持把電晶體用在刀口上的偏執設計理念的實例之一...

但據說這種設計需要花費有如天文數字般的驗證成本,因此遠非研發經費相對有限的 AMD 所能辦到 :shock:
 
 


所有的時間均為GMT +8。 現在的時間是04:15 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。