PCDVD數位科技討論區 - 轉貼-GeForce7900已設計完成 7600分兩版本

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 顯示卡討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=8)

- - 轉貼-GeForce7900已設計完成 7600分兩版本 (https://www.pcdvd.com.tw/showthread.php?t=586499)

引用:

作者Artx1

沒差，目前GPU的瓶頸大多在Pixel Shader跑不完(進展到30~40個code、所以fillrate大降)，24ps 650/1400的7900GT，在06的表現和和550/1800的GTX512不相上下甚至更高，就是因為這時記憶體頻寬不是瓶頸。

小弟有些問題想問一下大大...
您說的"Pixel Shader跑不完"是指說顯示卡的Pixel Shader Processor不夠用嗎？
意思也就是說像ATi這種只提昇Pixel Shader Processor而不同時增加Texture Processor Unit的這種作法其實是很正確的摟？
因為目前ATi的X1900跟X1600都是把Pixel Shader Processor提昇了三倍
不知道ATi這麼做到底是為了什麼？

引用:

作者竹雲公子

嗯....這樣說好了，實際上真的是需要這麼多的Pixel Shader，才有辦法對付未來越來越增加複雜度的DX9遊戲；而Pixel Shader會增加這麼快，其實最關鍵的問題就是：製程在這方面進步得比GPU其他的部份快，其他的部份包含有記憶體頻寬、上游匯流排的頻寬等等。

只要是"在晶片裡面"的話，就可以得利於製程：Pixel Shader目前是不存取記憶體的，所以大幅增加PS，並不會需要更大的記憶體頻寬才能去支撐；但是新增TMU和ROP/Backend需要記憶體頻寬、新增VS需要匯流排頻寬.... 結果當然會變成製程有進步優先加PS數量；而遊戲廠商也因此開始有越來越多的PS可用，就會先用。

這個跡象最早是來自6600(相比於PS、ROP大幅減少至一半)、只是6600的TMU和PS數量是綁在一起的，看起來好像看不太出這種性質；可是因為NV4x的TMU和PS ALU0是共用部分單元的，所以其實大部分狀況下還是一個雙重的PS結構，和R5x0現在的觀念仍然有其類似的地方。(G71增強至32管線的PS，應該也與這個觀念相符)

以ATI自己的說法而言，目前的遊戲大多進入到材質與Shader的使用率達到1:5前後，使用了30~40個以上的pixel shader code，也就是說會在Pixel Shader裡面跑40個指令，填充率跟著降到1/40.... 所以ATI是覺得像這樣大幅增加Pixel Shader的數量是很正確的。

當然啦，有時候就是沒有白吃的午餐可以吃：
R580和RV530(1600)一樣，都只增加了Pixel Shader ALU的數量，但是卻沒增加分配給Pixel Shader ALU的指令分配器的規模，主因當然是因為後者佔的電晶體數量非常大....
(R580相對於R520只增加了20%的電晶體，但是卻可以增加兩倍的PS ALU數量，當然可以推知一開始它的PS ALU可能就只佔全部的30%電晶體)

可是這樣一來，R580和RV530都有一個問題，就是有不少時候、他們的部份Pixel Shader可能其實是沒辦法動作的。
這個問題其實性質上和當初NV30/35的問題有點像....可能會變成，R580的部份指令可能需要以特定的順序進入，才能夠把Pixel Shader內的資源用完。

那為什麼不增加指令分配器(Dispatcher)的規模呢？
因為Dispatcher的規模伴隨著它所控制的大量的thread而成長、dispatcher需要記憶每個thread的內容，所以需要大量的SRAM....
如果R580隨著PS數量、而以R520的水準來擴充Dispatcher，那只怕R580早就超過500M電晶體了，哪會只有從320M增加到384M呢？

實質上，每個Dispatcher固定都只有128個thread，R520的時候每4個PS獨享這128個thread、R580與RV530時激增至12個PS來分享，變成1/3的資源.... 所以平行度下降本來就是可以預期的。

現在ATI晶片已經做好了，想要挖掘R580的潛力，只好拼命從Driver Optimize下手了....
目前暫且聽說R590是80nm版的高時脈版R580，目前說起來與R580/R590同時脈的G70有很大的可能超越R580，G70如果改用90nm，那時脈必然會有大幅的提升(前面ss9785兄提到很可能是700MHz以上)，所以R590只好進一步爭取時脈優勢.... 那32管的G71，我老實說就不知道怎麼對付了。

引用:

作者Artx1

感謝大大詳細的解說...又懂了不少
那看來R5X0新增加的那個Ultra-Threaded Pixel Shader Engine技術也是為了要提昇Pixel Shader的使用效率摟？
記得之前站上的大大(好像是三星大的樣子)也說過R580的效能還沒有完全發揮
這個說法跟大大您不謀而合阿~~~ :cool:
再次謝謝大大的解說

引用:

作者竹雲公子

可以參考一下Beyond3D的R580結構工程師訪談。
http://www.beyond3d.com//reviews/ati/r580/int/

其實那個不能算"新增"....
以往指令指令分派也都是以quad為單位，每4個"管線"為一組....
只是現在ATI每4個管線為一組，使用一個很注重Threading資源的處理器來分配指令，
並且還把這個處理器可以連接的ALU數量也跟著擴充(12個)....

基本上R580的每個ALU本身的效率因為threading資源被進一步瓜分的關係，和R520相比時變得較差；
不過基本上它仍然是增加了3倍的ALU、而在不少狀況下取得了相當的強化。
有些瓶頸於ALU的狀況下，R580可以達到R520的兩倍速度....而且至少沒有看到R580反而比R520來得慢的地方。

總和來說，多投資20%的電晶體，取得的確有20%的效能提升；
而如果增加R580的threading資源的話，很可能電晶體上的成本又不合算了....

所以，ATI的工程師認為，R580至少是個平衡度上比R520來得好的產品。
只是R520 delay的關係，看起來好像就很失敗....
如果R520順利在本來預定的2005年春~年中這段時間推出的話，看起來就不會那麼糟糕。
(當然現在講這個都來不及了)

----
反過來講G71。目前傳說它是32管的結構，比較合理的預測是8vs32ps16ROP，
亦即將G70現在的24ps增加到1.5倍。

可是ATI的工程師覺得，G7x的結構增加PS的數量就會增加TMU，
使得Tex與Pixel的比值又開始增加(如2:1)，他們認為這並不是個好的選擇，
因為材質目前使用量是比較少的。

注意：NV43/44的TMU:ROP比值是2:1、NV40/41/42的TMU:ROP比值則是1:1；
G70的TMU:ROP比值變為3:2，算是變得比以前高；
實質上目前Tex的使用比例減少的話，G70的這個比例可能有過高的嫌疑，G71就更高了。

當然了，NV4x/G7x的PS/TMU的比值基本上仍然是固定的，
光是TMU的增加也不會帶來很多問題(有個問題是NV4x/G7x的TMU和ALU0是互斥使用)，
只是如果記憶體頻寬沒有增加的話，光是增加TMU並不會帶來什麼特定的幫助。

----
這邊有個必須注意的地方：
因為雙方的結構設計上有很大的落差，細部設計上的差異更是所在多有，
所以ATI工程師的觀點，自然無法代表NVIDIA產品的優劣(反而常常應該要打上問號)；
不過仍然可以作為參考。

比方說，ATI認為他們的架構對未來的程式幫助較大，是個路遙知馬力的結構；
G7x則是個以往的程式也能跑得很好的結構，但是投注資源於以往的程式，ATI認為是沒什麼意義的。
(也就是說他們自認著眼未來)

但是，不論結構相對性上對現有、過去、或未來的程式較有助益，
"絕對性能"上的比較，也就是說到底誰快誰慢、還有誰提供的品質較好，
應該才是user所注目的地方....

所以，雙方理念上的差異、以及各自所選擇的道路是否正確，
只能以未來的考驗來決定了。