PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   顯示卡討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=8)
-   -   轉貼-GeForce7900已設計完成 7600分兩版本 (https://www.pcdvd.com.tw/showthread.php?t=586499)

竹雲公子 2006-01-31 01:20 AM

引用:
作者Artx1
沒差,目前GPU的瓶頸大多在Pixel Shader跑不完(進展到30~40個code、所以fillrate大降),24ps 650/1400的7900GT,在06的表現和和550/1800的GTX512不相上下甚至更高,就是因為這時記憶體頻寬不是瓶頸。

小弟有些問題想問一下大大...
您說的"Pixel Shader跑不完"是指說顯示卡的Pixel Shader Processor不夠用嗎?
意思也就是說像ATi這種只提昇Pixel Shader Processor而不同時增加Texture Processor Unit的這種作法其實是很正確的摟?
因為目前ATi的X1900跟X1600都是把Pixel Shader Processor提昇了三倍
不知道ATi這麼做到底是為了什麼?

Artx1 2006-01-31 03:59 AM

引用:
作者竹雲公子
小弟有些問題想問一下大大...
您說的"Pixel Shader跑不完"是指說顯示卡的Pixel Shader Processor不夠用嗎?
意思也就是說像ATi這種只提昇Pixel Shader Processor而不同時增加Texture Processor Unit的這種作法其實是很正確的摟?
因為目前ATi的X1900跟X1600都是把Pixel Shader Processor提昇了三倍
不知道ATi這麼做到底是為了什麼?


嗯....這樣說好了,實際上真的是需要這麼多的Pixel Shader,才有辦法對付未來越來越增加複雜度的DX9遊戲;而Pixel Shader會增加這麼快,其實最關鍵的問題就是:製程在這方面進步得比GPU其他的部份快,其他的部份包含有記憶體頻寬、上游匯流排的頻寬等等。

只要是"在晶片裡面"的話,就可以得利於製程:Pixel Shader目前是不存取記憶體的,所以大幅增加PS,並不會需要更大的記憶體頻寬才能去支撐;但是新增TMU和ROP/Backend需要記憶體頻寬、新增VS需要匯流排頻寬.... 結果當然會變成製程有進步優先加PS數量;而遊戲廠商也因此開始有越來越多的PS可用,就會先用。

這個跡象最早是來自6600(相比於PS、ROP大幅減少至一半)、只是6600的TMU和PS數量是綁在一起的,看起來好像看不太出這種性質;可是因為NV4x的TMU和PS ALU0是共用部分單元的,所以其實大部分狀況下還是一個雙重的PS結構,和R5x0現在的觀念仍然有其類似的地方。(G71增強至32管線的PS,應該也與這個觀念相符)

以ATI自己的說法而言,目前的遊戲大多進入到材質與Shader的使用率達到1:5前後,使用了30~40個以上的pixel shader code,也就是說會在Pixel Shader裡面跑40個指令,填充率跟著降到1/40.... 所以ATI是覺得像這樣大幅增加Pixel Shader的數量是很正確的。

當然啦,有時候就是沒有白吃的午餐可以吃:
R580和RV530(1600)一樣,都只增加了Pixel Shader ALU的數量,但是卻沒增加分配給Pixel Shader ALU的指令分配器的規模,主因當然是因為後者佔的電晶體數量非常大....
(R580相對於R520只增加了20%的電晶體,但是卻可以增加兩倍的PS ALU數量,當然可以推知一開始它的PS ALU可能就只佔全部的30%電晶體)

可是這樣一來,R580和RV530都有一個問題,就是有不少時候、他們的部份Pixel Shader可能其實是沒辦法動作的。
這個問題其實性質上和當初NV30/35的問題有點像....可能會變成,R580的部份指令可能需要以特定的順序進入,才能夠把Pixel Shader內的資源用完。

那為什麼不增加指令分配器(Dispatcher)的規模呢?
因為Dispatcher的規模伴隨著它所控制的大量的thread而成長、dispatcher需要記憶每個thread的內容,所以需要大量的SRAM....
如果R580隨著PS數量、而以R520的水準來擴充Dispatcher,那只怕R580早就超過500M電晶體了,哪會只有從320M增加到384M呢?

實質上,每個Dispatcher固定都只有128個thread,R520的時候每4個PS獨享這128個thread、R580與RV530時激增至12個PS來分享,變成1/3的資源.... 所以平行度下降本來就是可以預期的。

現在ATI晶片已經做好了,想要挖掘R580的潛力,只好拼命從Driver Optimize下手了....
目前暫且聽說R590是80nm版的高時脈版R580,目前說起來與R580/R590同時脈的G70有很大的可能超越R580,G70如果改用90nm,那時脈必然會有大幅的提升(前面ss9785兄提到很可能是700MHz以上),所以R590只好進一步爭取時脈優勢.... 那32管的G71,我老實說就不知道怎麼對付了。

竹雲公子 2006-02-01 01:37 PM

引用:
作者Artx1
嗯....這樣說好了,實際上真的是需要這麼多的Pixel Shader,才有辦法對付未來越來越增加複雜度的DX9遊戲;而Pixel Shader會增加這麼快,其實最關鍵的問題就是:製程在這方面進步得比GPU其他的部份快,其他的部份包含有記憶體頻寬、上游匯流排的頻寬等等。

只要是"在晶片裡面"的話,就可以得利於製程:Pixel Shader目前是不存取記憶體的,所以大幅增加PS,並不會需要更大的記憶體頻寬才能去支撐;但是新增TMU和ROP/Backend需要記憶體頻寬、新增VS需要匯流排頻寬.... 結果當然會變成製程有進步優先加PS數量;而遊戲廠商也因此開始有越來越多的PS可用,就會先用。

這個跡象最早是來自6600(相比於PS、ROP大幅減少至一半)、只是6600的TMU和PS數量是綁在一起的,看起來好像看不太出這種性質;可是因為NV4x的TMU和PS ALU0是共用部分單元的,所以其實大部分狀況下還是一個雙重的PS結構,和R5x0現在的...

感謝大大詳細的解說...又懂了不少
那看來R5X0新增加的那個Ultra-Threaded Pixel Shader Engine技術也是為了要提昇Pixel Shader的使用效率摟?
記得之前站上的大大(好像是三星大的樣子)也說過R580的效能還沒有完全發揮
這個說法跟大大您不謀而合阿~~~ :cool:
再次謝謝大大的解說

Artx1 2006-02-02 12:43 AM

引用:
作者竹雲公子
感謝大大詳細的解說...又懂了不少
那看來R5X0新增加的那個Ultra-Threaded Pixel Shader Engine技術也是為了要提昇Pixel Shader的使用效率摟?
記得之前站上的大大(好像是三星大的樣子)也說過R580的效能還沒有完全發揮
這個說法跟大大您不謀而合阿~~~ :cool:
再次謝謝大大的解說


可以參考一下Beyond3D的R580結構工程師訪談。
http://www.beyond3d.com//reviews/ati/r580/int/

其實那個不能算"新增"....
以往指令指令分派也都是以quad為單位,每4個"管線"為一組....
只是現在ATI每4個管線為一組,使用一個很注重Threading資源的處理器來分配指令,
並且還把這個處理器可以連接的ALU數量也跟著擴充(12個)....

基本上R580的每個ALU本身的效率因為threading資源被進一步瓜分的關係,和R520相比時變得較差;
不過基本上它仍然是增加了3倍的ALU、而在不少狀況下取得了相當的強化。
有些瓶頸於ALU的狀況下,R580可以達到R520的兩倍速度....而且至少沒有看到R580反而比R520來得慢的地方。

總和來說,多投資20%的電晶體,取得的確有20%的效能提升;
而如果增加R580的threading資源的話,很可能電晶體上的成本又不合算了....

所以,ATI的工程師認為,R580至少是個平衡度上比R520來得好的產品。
只是R520 delay的關係,看起來好像就很失敗....
如果R520順利在本來預定的2005年春~年中這段時間推出的話,看起來就不會那麼糟糕。
(當然現在講這個都來不及了)

----
反過來講G71。目前傳說它是32管的結構,比較合理的預測是8vs32ps16ROP,
亦即將G70現在的24ps增加到1.5倍。

可是ATI的工程師覺得,G7x的結構增加PS的數量就會增加TMU,
使得Tex與Pixel的比值又開始增加(如2:1),他們認為這並不是個好的選擇,
因為材質目前使用量是比較少的。

注意:NV43/44的TMU:ROP比值是2:1、NV40/41/42的TMU:ROP比值則是1:1;
G70的TMU:ROP比值變為3:2,算是變得比以前高;
實質上目前Tex的使用比例減少的話,G70的這個比例可能有過高的嫌疑,G71就更高了。

當然了,NV4x/G7x的PS/TMU的比值基本上仍然是固定的,
光是TMU的增加也不會帶來很多問題(有個問題是NV4x/G7x的TMU和ALU0是互斥使用),
只是如果記憶體頻寬沒有增加的話,光是增加TMU並不會帶來什麼特定的幫助。

----
這邊有個必須注意的地方:
因為雙方的結構設計上有很大的落差,細部設計上的差異更是所在多有,
所以ATI工程師的觀點,自然無法代表NVIDIA產品的優劣(反而常常應該要打上問號);
不過仍然可以作為參考。

比方說,ATI認為他們的架構對未來的程式幫助較大,是個路遙知馬力的結構;
G7x則是個以往的程式也能跑得很好的結構,但是投注資源於以往的程式,ATI認為是沒什麼意義的。
(也就是說他們自認著眼未來)

但是,不論結構相對性上對現有、過去、或未來的程式較有助益,
"絕對性能"上的比較,也就是說到底誰快誰慢、還有誰提供的品質較好,
應該才是user所注目的地方....

所以,雙方理念上的差異、以及各自所選擇的道路是否正確,
只能以未來的考驗來決定了。


所有的時間均為GMT +8。 現在的時間是03:23 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2026。