瀏覽單個文章
Artx1
Master Member
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
話說THG刊出的NVIDIA Editor's Day關於NV35 Pixel Pipe的簡圖, 其實也是有暗樁的.

http://www20.tomshardware.com/graph...38-nv36-02.html

比如說, 它刊出Shader Core - 16Gflops, Combiner 32Gflops,
這部分的數字就有動手腳, 因為一來雖然Core可以做MAD, 但是兩個Combiner"合起來"才能做FP32 MAD, 分開來則只能做FP16的MAD.

MAD有8個flops, 所以總合就是8 + 8x2 = 24flops, 4條管線就是96flops, 500MHz的話才會跑出原圖的16G + 32Gflops = 48Gflops.
這是FP16才達得到的表現; FP32使用時會變成32Gflops.(2/3)
不過仍然是NV30的兩倍整....

-----
相比之下, R3x0則是在使用lrp指令時main ALU有12flops可用, 兩個full-FP(Vec + Scl, 有免費的ABS可用)與兩個mini-FP(Vec + scl)總共有4個flops, 管線總共16flops, 8條管線總共128flops, 目前的R9800XT有412MHz, 所以大約是52.736Gflops.

不過, 做MAD(8flops)的話會浪費主ALU的指令能力, 剩下的子ALU可以做ADD/SUB
, 要用完16flops還是需要一點最佳化才行.... 老實說, R300早出這點讓programmer習慣目前的寫作方法有很關鍵的作用, 更別提9月底DX9 update才加入vs_2_x/ps_2_x.

NVIDIA的register多量運用會減速的問題, 在NV35 optimize guide有額外的說明, 所以還是有方法迴避....

這兩家還是早點拋掉和cheating扯上關係的小動作吧.

----
話說這回NV36看起來非常好, 和NV31/34的VS被大刀闊斧地削減比起來,
NV36與NV30/35/38等高階產品相比, VS規模完全沒有縮減, 我覺得這也是NV36的效能攀升的主因.(整體吞吐量提升)
 
舊 2003-10-24, 11:31 AM #12
回應時引用此文章
Artx1離線中