PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 電腦硬體討論群組 > 系統組件
帳戶
密碼
 

  回應
 
主題工具
flatmode
*停權中*
 

加入日期: Apr 2015
文章: 58
引用:
作者nanri
instruction decoder,其實這部分之前的CPU就做得夠多了,
例如指令預解碼,
甚至是到了P4那階段,還用uOps cache來存之前解碼過的產生的uOps,
ALU的執行速度還是時脈的兩倍呢,
只不過單核效能還是上不去。


netburst之所以上不去除了pipeline太長外, 重要的是它並不是super scalar!! 只有一個issue port與一條20~31 stage pipeline(C2D開始一直是四條 12 stage pipeline除了短而有效率外 因issuer多而容錯率高也是重點), 可笑的是連個decoder都沒有! 一切instruction都塞給sequencer去解operand效率多好才怪更不用說這種實做方式超操branch prediction 也就是因為只有一條pipeline一旦出錯就GG了 而trace cache也算是這種設計的fail save 不過不像砂橋的uops cache那樣可以存取所有coding, trace cache的實作是有條件的也就是只能存取與上一個micro op有關聯的code 事後把好不容易取來的micro op照順序排列等下次不用解直接用 可是一旦遇到非data dependency就完了 一切重頭來. 之後的pipeline stall也是意料之中 這也是為什麼i社盡量鼓勵compiler使用simd來實作的原因 另外netburst並沒有真正意義的OoOE. 整個back end 就只有一堆shift register 跟 physical register file. 沒有OoOe 所必須要有的scheduler quote, reservation station, 以及能夠不按順序存取的 reorder buffer. 而physical register file能做的也只剩renaming而已 能夠把一直僅存於 out of order execution中的register renaming獨立出來也算是奇蹟



引用:
作者nanri
x86先天有很多eax,[記憶體位址]指令,
一旦執行到該指令,就卡,
就算解碼階段能避開,甚至是遇到要搬記憶體資料的指令就先跳過做別的(oooe),
不過還是卡卡卡,最終還是得要把記憶體頻寬加得很大,
既然這樣,再多的issue,再好的scheduler,也是沒用。


x86先天上太過於依賴accumulator這個stack machine時代遺留的余毒 之前老外也談到這個問題而結論只能在long mode/flat mode/abi x32上解決對accumulator的依賴 但是長久之計便是要改寫整個isa來解決其根本問題 畢竟x86在long mode 下仍然有 register starve問題 增加register也只能算是必要之惡

引用:
作者nanri
工程的東西,
其實極限就在那邊,
有些東西,你在設計圖上面畫得很爽、很漂亮、功能很好很完美,
可是在實際製作上,得要考慮到現有材料的特性到哪,
想要超越這個極限,就得要改用別的材料,
這時成本又不同了,甚至是找不到這種材料來做;
甚至是你畫得出來,製作過程根本會無法施工,
只能改設計,改一改原本的功能...


是因為IA32太過沒效率了才會用暴力硬上 基本上你絕對看不到有哪一個isa會比ia32更燒錢而且更疊床架屋. 雖然x64解決了些386一直以來的問題 但是效率還是很不好
     
      

此文章於 2015-04-03 06:34 PM 被 flatmode 編輯.
舊 2015-04-03, 06:32 PM #81
回應時引用此文章
flatmode離線中  
kuliu
Major Member
 

加入日期: Jul 2013
文章: 141
內顯可能有提升
但單核skylake效能應該提升不了多少
i系列 234代效能可視為相等
 
舊 2015-04-07, 09:51 AM #82
回應時引用此文章
kuliu離線中  
Stonehendge
Senior Member
 

加入日期: Jun 2003
文章: 1,366
引用:
作者firmware
基本上這些我大三上修完CO就知道了....難不成AMD那邊的神人會不知道嗎 ?
工程類 (不只電資類) 很多東西都是 : 大家都知道, 連落後國家都知道, 但實作不出來, 或是實作出來很不理想...
要去實作的時候, 才會發現會需要更多的周邊知識/背景知識...一個小小的例子 : CPU clock這麼快, 快到都可以看成 distributed circuit 了, 這時候又變成電磁學了....Orz
ps : 題外話, 以前我還是大學生的時候, 也對A/I的CPU運作超有興趣, 超愛在論壇上閱讀/談論這些內容...
後來碩班修了一些VLSI相關的課程後, 才發現自己連 "教科書的課後習題" 都寫得很辛苦了, 那更別說要去實作這種 : 全地球只有5間公司能做出來的東西了...
, 自此認清這是神人領域, 凡人庸才根本不可能觸及...


電資類學生通常會修個HDL/ASIC design之類的課程
然候作業大多是交個簡單8051 or 早期Sunspark or 早期MIPS之類的簡單的uARC來交交作業
其複雜度完全跟現代的高性能的uARC完全不能比
(更何況大部份人大概都是跟學長借code來"參考"--->照本宣科 )

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事
(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能..... )

從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化

事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)

此文章於 2015-04-07 11:39 AM 被 Stonehendge 編輯.
舊 2015-04-07, 11:36 AM #83
回應時引用此文章
Stonehendge離線中  
flatmode
*停權中*
 

加入日期: Apr 2015
文章: 58
引用:
作者Stonehendge

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事
(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能..... )


x-gene基本上是沒有跳脫embedded思維下的產品所以效能上並不意外 至少同期的cyclone還比較有誠意些 至於snapdragon, krait空有OoOe在單緒上還拼輸只有in order的45nm bonnell atom就只能拉時脈+堆核心數在ad/ppt上騙騙消費者罷了.

引用:
作者Stonehendge
從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化


90年代risc在於各公司政策錯誤並且沒有建立工業標準, complier,binary互不相容且各架構雖然都是reduced instruction但是差異極大甚至大過68k跟x86的差異 光是以上就玩死一堆program developer更不用說流入消費市場了. i社還沒動手他們就已經玩死自己了. 而且x86在risc誕生前已經幹掉不少對手了(6502/z80/transputer/68000)如果當年conventional risc作的起來像今天arm的話或許x86會更進化也說不定.

引用:
作者Stonehendge
事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)


事實上扣除itanium(Pennsylvania ), xeon phi "larrabee"(new york), quark(santa slara, 原本是xscale團隊)三個團隊外 主要團隊有:

austin(pentium p54, p54c, netburst willamette, teja, tulsa, bonnell, silvermont, baytrail)

hifa(pentium p5, p55c, pentium II klamath, deschute, P3 coppermine, tualatin timna, pentium m bania, dothan, core 2 conroe, wolfdale, sandy bridge, skylake)

oregon(386, 486, 486dx2, 486dx4, pentium pro "p6", pentium III katmai, netnurst northwood, prescott, paxvile, dunnington, nehalem, westmere haswell, broadwell)

基本oregon團隊是專職server solution所以並不只望在他們的consumer cpu有效能上的大躍進而他們的專長是修改i/o跟integration, add new instruction set在legacy code效能上沒有幫助是一定的 能在ipc上增長5%對這個團隊已經算是奇蹟了. austin近幾年來專注在mobile所以主流cpu也看不到他們的作品 所以i社目前能期待的只有hifa了
舊 2015-04-10, 06:01 AM #84
回應時引用此文章
flatmode離線中  
alucardlin
Major Member
 

加入日期: Oct 2001
文章: 184
引用:
作者kuliu
內顯可能有提升
但單核skylake效能應該提升不了多少
i系列 234代效能可視為相等


同頻性能提升不小
skylake 4c8t 2.6G 性能等同 E3-1230V3
舊 2015-04-10, 10:23 PM #85
回應時引用此文章
alucardlin離線中  
jjh80
*停權中*
 

加入日期: Apr 2015
文章: 22
陰特噁最強科技>> 凍結 過熱 高溫 usb缺陷
舊 2015-04-11, 09:24 AM #86
回應時引用此文章
jjh80離線中  
limit555
Senior Member
 

加入日期: Jul 2012
文章: 1,109
拿出來亮相才知道吧


速度哪有已經夠用了?

至少讓我載入遊戲不要等那麼久
舊 2015-04-11, 11:43 AM #87
回應時引用此文章
limit555離線中  
Reich 唐
Golden Member
 
Reich 唐的大頭照
 

加入日期: Oct 2000
您的住址: 台北市
文章: 3,232
引用:
作者alucardlin
同頻性能提升不小
skylake 4c8t 2.6G 性能等同 E3-1230V3

如果真的是這樣,就看超頻性如何了,何時能室溫5GHz up啊...

從2011年等到2016年,別再讓人失望啦...

__________________
舊 2015-04-12, 08:37 PM #88
回應時引用此文章
Reich 唐離線中  
zergqq
Major Member
 

加入日期: Jan 2002
文章: 159
intel的avx-512蠻強的,有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改
__________________
舊 2015-04-12, 10:33 PM #89
回應時引用此文章
zergqq離線中  
flatmode
*停權中*
 

加入日期: Apr 2015
文章: 58
引用:
作者Reich 唐
如果真的是這樣,就看超頻性如何了,何時能室溫5GHz up啊...

從2011年等到2016年,別再讓人失望啦...

http://i.imgur.com/cB6fGyY.jpg


netburst跟bonnell die shrink到22nm理論上能超到10ghz 但是你要嗎?? 如果2ghz能幹掉5ghz為何要選時脈高的cpu? cpu就是因為效率變好而不用太多cycle就能處理 cpu越爛才需要衝高時脈!!

引用:
作者zergqq
intel的avx-512蠻強的,有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改


聽說x86-64也會大改加入更多integer register(16 to 32)
舊 2015-04-13, 02:24 PM #90
回應時引用此文章
flatmode離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是09:04 PM.


vBulletin Version 3.0.1
powered_by_vbulletin 2025。