![]() |
PCDVD數位科技討論區
(https://www.pcdvd.com.tw/index.php)
- 顯示卡討論區
(https://www.pcdvd.com.tw/forumdisplay.php?f=8)
- - 轉貼-GeForce7900已設計完成 7600分兩版本
(https://www.pcdvd.com.tw/showthread.php?t=586499)
|
|---|
引用:
小弟有些問題想問一下大大... 您說的"Pixel Shader跑不完"是指說顯示卡的Pixel Shader Processor不夠用嗎? 意思也就是說像ATi這種只提昇Pixel Shader Processor而不同時增加Texture Processor Unit的這種作法其實是很正確的摟? 因為目前ATi的X1900跟X1600都是把Pixel Shader Processor提昇了三倍 不知道ATi這麼做到底是為了什麼? |
引用:
嗯....這樣說好了,實際上真的是需要這麼多的Pixel Shader,才有辦法對付未來越來越增加複雜度的DX9遊戲;而Pixel Shader會增加這麼快,其實最關鍵的問題就是:製程在這方面進步得比GPU其他的部份快,其他的部份包含有記憶體頻寬、上游匯流排的頻寬等等。 只要是"在晶片裡面"的話,就可以得利於製程:Pixel Shader目前是不存取記憶體的,所以大幅增加PS,並不會需要更大的記憶體頻寬才能去支撐;但是新增TMU和ROP/Backend需要記憶體頻寬、新增VS需要匯流排頻寬.... 結果當然會變成製程有進步優先加PS數量;而遊戲廠商也因此開始有越來越多的PS可用,就會先用。 這個跡象最早是來自6600(相比於PS、ROP大幅減少至一半)、只是6600的TMU和PS數量是綁在一起的,看起來好像看不太出這種性質;可是因為NV4x的TMU和PS ALU0是共用部分單元的,所以其實大部分狀況下還是一個雙重的PS結構,和R5x0現在的觀念仍然有其類似的地方。(G71增強至32管線的PS,應該也與這個觀念相符) 以ATI自己的說法而言,目前的遊戲大多進入到材質與Shader的使用率達到1:5前後,使用了30~40個以上的pixel shader code,也就是說會在Pixel Shader裡面跑40個指令,填充率跟著降到1/40.... 所以ATI是覺得像這樣大幅增加Pixel Shader的數量是很正確的。 當然啦,有時候就是沒有白吃的午餐可以吃: R580和RV530(1600)一樣,都只增加了Pixel Shader ALU的數量,但是卻沒增加分配給Pixel Shader ALU的指令分配器的規模,主因當然是因為後者佔的電晶體數量非常大.... (R580相對於R520只增加了20%的電晶體,但是卻可以增加兩倍的PS ALU數量,當然可以推知一開始它的PS ALU可能就只佔全部的30%電晶體) 可是這樣一來,R580和RV530都有一個問題,就是有不少時候、他們的部份Pixel Shader可能其實是沒辦法動作的。 這個問題其實性質上和當初NV30/35的問題有點像....可能會變成,R580的部份指令可能需要以特定的順序進入,才能夠把Pixel Shader內的資源用完。 那為什麼不增加指令分配器(Dispatcher)的規模呢? 因為Dispatcher的規模伴隨著它所控制的大量的thread而成長、dispatcher需要記憶每個thread的內容,所以需要大量的SRAM.... 如果R580隨著PS數量、而以R520的水準來擴充Dispatcher,那只怕R580早就超過500M電晶體了,哪會只有從320M增加到384M呢? 實質上,每個Dispatcher固定都只有128個thread,R520的時候每4個PS獨享這128個thread、R580與RV530時激增至12個PS來分享,變成1/3的資源.... 所以平行度下降本來就是可以預期的。 現在ATI晶片已經做好了,想要挖掘R580的潛力,只好拼命從Driver Optimize下手了.... 目前暫且聽說R590是80nm版的高時脈版R580,目前說起來與R580/R590同時脈的G70有很大的可能超越R580,G70如果改用90nm,那時脈必然會有大幅的提升(前面ss9785兄提到很可能是700MHz以上),所以R590只好進一步爭取時脈優勢.... 那32管的G71,我老實說就不知道怎麼對付了。 |
引用:
感謝大大詳細的解說...又懂了不少 那看來R5X0新增加的那個Ultra-Threaded Pixel Shader Engine技術也是為了要提昇Pixel Shader的使用效率摟? 記得之前站上的大大(好像是三星大的樣子)也說過R580的效能還沒有完全發揮 這個說法跟大大您不謀而合阿~~~ :cool: 再次謝謝大大的解說 |
引用:
可以參考一下Beyond3D的R580結構工程師訪談。 http://www.beyond3d.com//reviews/ati/r580/int/ 其實那個不能算"新增".... 以往指令指令分派也都是以quad為單位,每4個"管線"為一組.... 只是現在ATI每4個管線為一組,使用一個很注重Threading資源的處理器來分配指令, 並且還把這個處理器可以連接的ALU數量也跟著擴充(12個).... 基本上R580的每個ALU本身的效率因為threading資源被進一步瓜分的關係,和R520相比時變得較差; 不過基本上它仍然是增加了3倍的ALU、而在不少狀況下取得了相當的強化。 有些瓶頸於ALU的狀況下,R580可以達到R520的兩倍速度....而且至少沒有看到R580反而比R520來得慢的地方。 總和來說,多投資20%的電晶體,取得的確有20%的效能提升; 而如果增加R580的threading資源的話,很可能電晶體上的成本又不合算了.... 所以,ATI的工程師認為,R580至少是個平衡度上比R520來得好的產品。 只是R520 delay的關係,看起來好像就很失敗.... 如果R520順利在本來預定的2005年春~年中這段時間推出的話,看起來就不會那麼糟糕。 (當然現在講這個都來不及了) ---- 反過來講G71。目前傳說它是32管的結構,比較合理的預測是8vs32ps16ROP, 亦即將G70現在的24ps增加到1.5倍。 可是ATI的工程師覺得,G7x的結構增加PS的數量就會增加TMU, 使得Tex與Pixel的比值又開始增加(如2:1),他們認為這並不是個好的選擇, 因為材質目前使用量是比較少的。 注意:NV43/44的TMU:ROP比值是2:1、NV40/41/42的TMU:ROP比值則是1:1; G70的TMU:ROP比值變為3:2,算是變得比以前高; 實質上目前Tex的使用比例減少的話,G70的這個比例可能有過高的嫌疑,G71就更高了。 當然了,NV4x/G7x的PS/TMU的比值基本上仍然是固定的, 光是TMU的增加也不會帶來很多問題(有個問題是NV4x/G7x的TMU和ALU0是互斥使用), 只是如果記憶體頻寬沒有增加的話,光是增加TMU並不會帶來什麼特定的幫助。 ---- 這邊有個必須注意的地方: 因為雙方的結構設計上有很大的落差,細部設計上的差異更是所在多有, 所以ATI工程師的觀點,自然無法代表NVIDIA產品的優劣(反而常常應該要打上問號); 不過仍然可以作為參考。 比方說,ATI認為他們的架構對未來的程式幫助較大,是個路遙知馬力的結構; G7x則是個以往的程式也能跑得很好的結構,但是投注資源於以往的程式,ATI認為是沒什麼意義的。 (也就是說他們自認著眼未來) 但是,不論結構相對性上對現有、過去、或未來的程式較有助益, "絕對性能"上的比較,也就是說到底誰快誰慢、還有誰提供的品質較好, 應該才是user所注目的地方.... 所以,雙方理念上的差異、以及各自所選擇的道路是否正確, 只能以未來的考驗來決定了。 |
| 所有的時間均為GMT +8。 現在的時間是03:23 PM. |
vBulletin Version 3.0.1
powered_by_vbulletin 2026。