Intel下代Skylake時脈不高，但性能將會有明顯提升

flatmode

*停權中*

加入日期: Apr 2015

文章: 58

引用:

作者nanri

instruction decoder，其實這部分之前的CPU就做得夠多了，
例如指令預解碼，
甚至是到了P4那階段，還用uOps cache來存之前解碼過的產生的uOps，
ALU的執行速度還是時脈的兩倍呢，
只不過單核效能還是上不去。

netburst之所以上不去除了pipeline太長外, 重要的是它並不是super scalar!! 只有一個issue port與一條20~31 stage pipeline(C2D開始一直是四條 12 stage pipeline除了短而有效率外因issuer多而容錯率高也是重點), 可笑的是連個decoder都沒有! 一切instruction都塞給sequencer去解operand效率多好才怪更不用說這種實做方式超操branch prediction 也就是因為只有一條pipeline一旦出錯就GG了而trace cache也算是這種設計的fail save 不過不像砂橋的uops cache那樣可以存取所有coding, trace cache的實作是有條件的也就是只能存取與上一個micro op有關聯的code 事後把好不容易取來的micro op照順序排列等下次不用解直接用可是一旦遇到非data dependency就完了一切重頭來. 之後的pipeline stall也是意料之中這也是為什麼i社盡量鼓勵compiler使用simd來實作的原因另外netburst並沒有真正意義的OoOE. 整個back end 就只有一堆shift register 跟 physical register file. 沒有OoOe 所必須要有的scheduler quote, reservation station, 以及能夠不按順序存取的 reorder buffer. 而physical register file能做的也只剩renaming而已能夠把一直僅存於 out of order execution中的register renaming獨立出來也算是奇蹟

引用:

作者nanri

x86先天有很多eax,[記憶體位址]指令，
一旦執行到該指令，就卡，
就算解碼階段能避開，甚至是遇到要搬記憶體資料的指令就先跳過做別的(oooe)，
不過還是卡卡卡，最終還是得要把記憶體頻寬加得很大，
既然這樣，再多的issue，再好的scheduler，也是沒用。

x86先天上太過於依賴accumulator這個stack machine時代遺留的余毒之前老外也談到這個問題而結論只能在long mode/flat mode/abi x32上解決對accumulator的依賴但是長久之計便是要改寫整個isa來解決其根本問題畢竟x86在long mode 下仍然有 register starve問題增加register也只能算是必要之惡

引用:

作者nanri

工程的東西，
其實極限就在那邊，
有些東西，你在設計圖上面畫得很爽、很漂亮、功能很好很完美，
可是在實際製作上，得要考慮到現有材料的特性到哪，
想要超越這個極限，就得要改用別的材料，
這時成本又不同了，甚至是找不到這種材料來做；
甚至是你畫得出來，製作過程根本會無法施工，
只能改設計，改一改原本的功能...

是因為IA32太過沒效率了才會用暴力硬上基本上你絕對看不到有哪一個isa會比ia32更燒錢而且更疊床架屋. 雖然x64解決了些386一直以來的問題但是效率還是很不好

此文章於 2015-04-03 06:34 PM 被 flatmode 編輯.

2015-04-03, 06:32 PM #81

Stonehendge

Senior Member

加入日期: Jun 2003

文章: 1,366

引用:

作者firmware

基本上這些我大三上修完CO就知道了....難不成AMD那邊的神人會不知道嗎 ?
工程類 (不只電資類) 很多東西都是 : 大家都知道, 連落後國家都知道, 但實作不出來, 或是實作出來很不理想...
要去實作的時候, 才會發現會需要更多的周邊知識/背景知識...一個小小的例子 : CPU clock這麼快, 快到都可以看成 distributed circuit 了, 這時候又變成電磁學了....Orz
ps : 題外話, 以前我還是大學生的時候, 也對A/I的CPU運作超有興趣, 超愛在論壇上閱讀/談論這些內容...
後來碩班修了一些VLSI相關的課程後, 才發現自己連 "教科書的課後習題" 都寫得很辛苦了, 那更別說要去實作這種 : 全地球只有5間公司能做出來的東西了...
, 自此認清這是神人領域, 凡人庸才根本不可能觸及...

電資類學生通常會修個HDL/ASIC design之類的課程
然候作業大多是交個簡單8051 or 早期Sunspark or 早期MIPS之類的簡單的uARC來交交作業
其複雜度完全跟現代的高性能的uARC完全不能比
(更何況大部份人大概都是跟學長借code來"參考"--->照本宣科

)

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事

(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能.....

)

從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化

事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)

此文章於 2015-04-07 11:39 AM 被 Stonehendge 編輯.

2015-04-07, 11:36 AM #83

flatmode

*停權中*

加入日期: Apr 2015

文章: 58

引用:

作者Stonehendge

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事

(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能.....

)

x-gene基本上是沒有跳脫embedded思維下的產品所以效能上並不意外至少同期的cyclone還比較有誠意些至於snapdragon, krait空有OoOe在單緒上還拼輸只有in order的45nm bonnell atom就只能拉時脈+堆核心數在ad/ppt上騙騙消費者罷了.

引用:

作者Stonehendge

從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化

90年代risc在於各公司政策錯誤並且沒有建立工業標準, complier,binary互不相容且各架構雖然都是reduced instruction但是差異極大甚至大過68k跟x86的差異光是以上就玩死一堆program developer更不用說流入消費市場了. i社還沒動手他們就已經玩死自己了. 而且x86在risc誕生前已經幹掉不少對手了(6502/z80/transputer/68000)如果當年conventional risc作的起來像今天arm的話或許x86會更進化也說不定.

引用:

作者Stonehendge

事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)

事實上扣除itanium(Pennsylvania ), xeon phi "larrabee"(new york), quark(santa slara, 原本是xscale團隊)三個團隊外主要團隊有:

austin(pentium p54, p54c, netburst willamette, teja, tulsa, bonnell, silvermont, baytrail)

hifa(pentium p5, p55c, pentium II klamath, deschute, P3 coppermine, tualatin timna, pentium m bania, dothan, core 2 conroe, wolfdale, sandy bridge, skylake)

oregon(386, 486, 486dx2, 486dx4, pentium pro "p6", pentium III katmai, netnurst northwood, prescott, paxvile, dunnington, nehalem, westmere haswell, broadwell)

基本oregon團隊是專職server solution所以並不只望在他們的consumer cpu有效能上的大躍進而他們的專長是修改i/o跟integration, add new instruction set在legacy code效能上沒有幫助是一定的能在ipc上增長5%對這個團隊已經算是奇蹟了. austin近幾年來專注在mobile所以主流cpu也看不到他們的作品所以i社目前能期待的只有hifa了

2015-04-10, 06:01 AM #84

flatmode

*停權中*

加入日期: Apr 2015

文章: 58

引用:

作者Reich 唐

如果真的是這樣，就看超頻性如何了，何時能室溫5GHz up啊...

從2011年等到2016年，別再讓人失望啦...

http://i.imgur.com/cB6fGyY.jpg

netburst跟bonnell die shrink到22nm理論上能超到10ghz 但是你要嗎?? 如果2ghz能幹掉5ghz為何要選時脈高的cpu? cpu就是因為效率變好而不用太多cycle就能處理 cpu越爛才需要衝高時脈!!

引用:

作者zergqq

intel的avx-512蠻強的，有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改

聽說x86-64也會大改加入更多integer register(16 to 32)

2015-04-13, 02:24 PM #90

jjh80 停權中加入日期: Apr 2015 文章: 22	陰特噁最強科技>> 凍結過熱高溫 usb缺陷
2015-04-11, 09:24 AM #86

limit555 Senior Member 加入日期: Jul 2012 文章: 1,109	拿出來亮相才知道吧速度哪有已經夠用了? 至少讓我載入遊戲不要等那麼久
2015-04-11, 11:43 AM #87

zergqq Major Member 加入日期: Jan 2002 文章: 159	intel的avx-512蠻強的，有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改 __________________
2015-04-12, 10:33 PM #89