引用:
Originally posted by Reich 唐
不對,只要把L1的latency調低,L1基本上不會成為時脈的阻礙,Prescott的L1高達16KB,時脈卻絕對可以比Northwood核心的8KB L1飆的更高,時脈的飆升主要跟CPU內的管線階數有關。
不過Prescott那個廢物核心漏電太嚴重,能夠飆升的時脈都被熱給抵銷了。舉一個比較明顯的例子,Pentium M的核心是P6架構大家知道吧,P6架構的L1 cache只有16KB,但是最高只出到1.4GHz,但是Pentium M的L1高達32KB,現在已經出到2GHz(Dothan),而且還有很明顯往上攀升的空間。
如果不同核心也成,K6的L1是64KB喔,但只有6階管線,時脈最高撐到550MHz,K7的L1可是高達128KB,但十階管線,時脈可以飆到2.2GHz左右。
總之NetBurst架構,31階管線的Prescott P4,只要解決漏電的問題,就算L1高達128KB,只要給一個很高的遲延(例如20,20是Athlon XP L1+L2都遲延的情況的數字),他一樣可以飆到4GHz以上。
|
你沒有看明白我的意思,也不明白 L1 cache 的精神,L1 cache 最大的意義就是沒有 cache latency(或者是說十分低的 latency),也因此 L1 才成為時脈上升的阻礙,如果增加 L1 的 latency 就沒有意義了。以 P4 cache latency 來說,L2 會有大約 7~9 個 clock latency, 因此使得 L2 比 L1 慢十倍左右,所以為什麼加大 L1 比加大 L2 效能的提升還來得大,原因便在此。Latency 的增加會大大影響到效能。
L1 是 design in core 因此大 L1 會提高 design 的複雜度,對良率也會有不好的影響。看這裡,有 cache latency 的比較,可以看出為什麼 K8 在低時脈可以得到如此強大的效能,因為它有大 L1 和低 L1 cache latency, FX 系列的 L2 甚至比 P4 更低的 latency, 這也是 FX 如此兇猛的主因。
http://www.xbitlabs.com/articles/cp...n64-fx51_9.html
從這裡可以看出,K8 的 L1 access time 大約是 P4 的兩倍,但 K8 比 P4 大好幾倍的 L1 cache, 因此 miss rate 想必也低很多。
同樣比較 P4 的 L1, L2, L2 的 access time 大約是 L1 的十倍。
如我所說,K8 也不是那麼了不起,把 L1 砍到跟 P4 一樣,它也一樣屌不起來,不過能設計成這樣也是真的很了不起,Intel 撞上熱能之牆,才不得不對大 L1 低頭(Pentium M 系列)。
還有,Pentium M 的 L1 應該是 32+32 = 64K 才對。