瀏覽單個文章
Artx1
Master Member
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
引用:
作者orinsinal
根據目前最新的R520消息(Source:cXo),它的規格是625/1500Mhz 16ps 8vs
shader架構與R420大致相同

這是否可代表著,R520 shader單元的同頻效率並不會有太大的增進?(也就是落後於nv40與g70)
關於這點可能要待一些有研究的板友來解答了.

不過以這樣的規格來看,3DMark中與一些遊戲表現要超越G70是可預期的
因為它的頻率整整高出G70,儘管它只有16條管線


我想ATI 最後應該還是沒給 FP filter & blender,當然也不會有TMU的nrm_pp。
但是FP FSAA的話,其實只不過是"專給FSAA unit 專用的 sampler & blender",其實結構上沒太大差異.... (FSAA因為需求較小的關係,即使是同功能,也會稍微視需求簡化)

所以,回頭看Pixel Shader Performance吧。
以Cho的說法,照樣是R3x0/R4x0的設計的話,那就是main + mini,差在能不能FMA,
於是理論值算起來就會變成:[(3+1)x2+(3+1)]x16 x 625MHz = 120GFLOPs 。
G70則是 [(3+1)+(2+2)]x2 x 24 x 430MHz = 165.12GFLOPs。
這邊已經把TMU的7flops nrm_pp給除掉了,FP filter & blender也都除外不算。

VS的話,雙方都是4+1D,數量又都是8個.... 所以時脈高的R520佔絕對優勢。
連VS一起加進去的話,就是R520共(4+1)x2 x8 x625M = 50GFLOPs、120G+50G = 170GFLOPs,
對上G70共(4+1)x2 x8 x 430MHz = 34.4GFLOPs,165.12G+34.4G= 199.52GFLOPs。
(nrm_pp照樣除外、FP filtering & blending 也除外,因為這些都是FP16,不應該和上面的FP32並列)

所以除了ALU結構上取巧、透過增加功能減少pass數之外,其實拼運算資源的話R520真的會輸得蠻慘的....畢竟,本來要完整(24ps~32ps:180G~240GFLOPs @ 625MHz)的狀況下,R520才比較能和G70比運算資源。

總之,SM3+ 看來是有起一點作用.... 比方說那個600指令的Shader demo,ATI宣稱R520只需要14個pass、"以往的產品"需要20個pass。我相信那個"以往"指的是NV4x & G7x;當然啦,這又會回到 PS1.1 & PS1.4時期的競爭就是了,這回又是NVIDIA先出,所以大概還是會對廠商起一點影響吧....

不過,因為HLSL的關係,這回廠商要作多個path對應不同profile簡單很多的關係,影響應該會大大減小,也就是說應該還是有機會看到SM3+帶來好處。
舊 2005-09-29, 03:50 AM #244
回應時引用此文章
Artx1離線中