NVIDIA GT300規格終曝光流處理器、VRAM驚人

ProtoZohar

Master Member

加入日期: May 2009

文章: 2,405

引用:

作者sutl

R600架構當初推出時，因為製程問題，所以SP不夠威力出不來。

隨著製程逐漸微縮，R600架構越來越吃香，G80架構越來越吃力。

好像跟小弟觀念有點差距

印象中當初是因為R600架構下軟體比較難寫，同時TMU、TAU數量抓錯導致資源分配不良(如開AA讓效能暴跌等)

後來時間久了以後廠商熟悉了怎麼去優化R600架構、TMU、TAU比例也掌握到重點

因此效能就開始趕過nVIDIA的G80架構，同時比較小的Die也讓成本/良率優於對手

但假如小弟觀念是正確的話，卻好像又沒聽說HD2000家族用新驅動玩近期的遊戲不像當年大幅落後GF8的經驗分享

所以應該是小弟哪邊搞錯了，但看sutl兄提到SP威力出不來的解釋又沒什麼印象，想在這邊請教一下是因為SP製程微縮後造成哪邊的改變進而讓威力出來的？

__________________
眞子内親王　　　　　　　　　　　　　　　　　　　綠壩娘

2009-10-05, 01:14 AM #41

艾克萊爾

Golden Member

加入日期: Aug 2004

您的住址: 「　」

文章: 2,519

引用:

作者ProtoZohar

好像跟小弟觀念有點差距

有喔

HD2000系列在產品末期時藉由驅動的改善已經能表現出應有的水準了，基本分數與性能與最早發表的時候提高蠻多的，這點有雜誌提過
不過已經太晚了，而且R600規模結構上的失衡還是要重新調整，除了驅動外，過大的核心上那個龐大的環狀記憶體控制器效率低落又佔面積又高熱大概是最讓ATI傷心的事了...

__________________
ヽ(∀ﾟ )人(ﾟ∀&#65439

人( ﾟ&#8704

人(∀ﾟ )人(ﾟ∀&#65439

人( ﾟ&#8704

ﾉ
(↑一個因為疫情影響導致工作超閒不知做啥好的傢伙↑)

此文章於 2009-10-05 01:52 AM 被艾克萊爾編輯.

2009-10-05, 01:50 AM #42

sutl

Elite Member

加入日期: Jan 2002

您的住址: 閃亮亮的永和*~

文章: 6,096

引用:

作者ProtoZohar

好像跟小弟觀念有點差距

印象中當初是因為R600架構下軟體比較難寫，同時TMU、TAU數量抓錯導致資源分配不良(如開AA讓效能暴跌等)
後來時間久了以後廠商熟悉了怎麼去優化R600架構、TMU、TAU比例也掌握到重點
因此效能就開始趕過nVIDIA的G80架構，同時比較小的Die也讓成本/良率優於對手
但假如小弟觀念是正確的話，卻好像又沒聽說HD2000家族用新驅動玩近期的遊戲不像當年大幅落後GF8的經驗分享
所以應該是小弟哪邊搞錯了，但看sutl兄提到SP威力出不來的解釋又沒什麼印象，想在這邊請教一下是因為SP製程微縮後造成哪邊的改變進而讓威力出來的？

我只是一般user而已，搞不好觀念錯誤的是我...

R600架構當初最為人詬病的就是用SP來算AA，導致開AA後效能大減，後來RV770的SP到800個以後，算AA效能就降得很少了，我想是閒置的SP夠多了。

就我網路上看到的資料，nVidia的架構是每個SP都是倍精度的，所以每個SP都需要很多電晶體來組成，優點就是每個SP的適用性都很廣，符合GPGPU的設計精神。

ATi的架構是一個倍精度的SP+4個單精度的SP，所以程式一但不配合的話，單精度的SP幾乎都用不到，這樣在倍精度SP數量輸人的情況下，會輸nViadia就很正常。

單精度的SP優點就是很省電晶體，缺點就是要特別寫程式來配合，後來ATi的顯示卡AA性能暴漲，就跟AA能用單精度SP來算有關。

__________________
歐洲輪胎滾動阻力&溼地煞車&噪音查詢日本輪胎滾動阻力與溼地煞車查詢(歐洲阻力A＝日本阻力AAA)(歐洲跳過D)
貧弱家庭兒童愛心早餐計畫手機請勿使用台哥大700MHz 4G LTE頻道，以免干擾無線麥克風運作。　
推薦網站　我不爽健保局　巴士大叔之部<-華航飛安不良的原因　國家的遠見
站內特別推薦連結　yahoo賣片被抓　由於著作權法第八十七條第四款的緣故　賣海外正版是違法的喔(刪除紀念) 又有人受害了
好書推薦：快樂為什麼不幸福？　本書不討論快樂更不討論幸福，講的是大腦如何理解世界。
好書推薦：大腦決策手冊該用腦袋的哪個部分做決策？　了解自己與別人怎麼使用腦袋瓜(因被發現是抄襲的所以下架了喔)
好書推薦：販賣債務的銀行　了解銀行如何使一般人建立錯誤的借貸觀念，讓老百姓成為金融佃農，一輩子替銀行工作
好書推薦：企業的性格與命運　企業的本質是無道德的，企業努力的把自身成本轉嫁成社會成本，以大幅提高獲利。　DVD
好書推薦：沒有中國模式這回事！　雖然書名有中國，但其實是講近代全球經濟史，讓你從經濟學的角度理解歷史。
好書推薦：搶救35歲　十五張證照找不到好工作、四十歲結婚成家是常態、雙薪家庭也只敢生一胎、房貸要背到七十歲…

2009-10-05, 08:11 AM #43

KenCheng

*停權中*

加入日期: Sep 2000

您的住址: TW

文章: 305

引用:

作者sutl

其實還有R600的Ring Bus顯示記憶體鏈結的架構利用率低和延遲率高,(INTEL的Larrabee好像也是用同樣的Ring Bus架構),
雖然R600的記憶體是512bit,依然無法有效提昇效能,且還有電晶體增加成本過高的問題,
在RV700就放棄Ring Bus改回傳統的Crossbar架構,雖然才256bit效能卻比Ring Bus 512bit好

此文章於 2009-10-05 11:58 PM 被 KenCheng 編輯.

2009-10-05, 11:52 PM #44

竹雲公子

Senior Member

加入日期: Jul 2004

您的住址: 一個都是女人的地方...

文章: 1,222

個人認為R600犯了幾個很嚴重的錯誤

1.太高估記憶體頻寬的重要性
從320SP+512bits就可以看的出來...
正好AMD連三代都有320SP的產品可以來比較(2900 3800 4600)
頻寬正好是512bits 256bits 128bits(雖然記憶體顆粒不同...但這裡先忽略)
頻寬差一倍...但性能並沒有差一倍
2900XT跟3870甚至在伯仲之間
個人認為...如果AMD當時把2900的記憶體匯流排砍半甚至1/4然後把多的電晶體拿去補SP
假設補到640SP...那就是4830~4770的規格
用這種規格去打8800Ultra...雖然沒辦法完封勝...但至少還可以抗衡

2.把AA丟給Shader去算
大概是為了相容DX10.1(甚至DX11)鋪路吧...
整個AA性能暴降
RV770開始才改善...但原因不是因為SP變多了
而是AMD把MSAA又丟回去給ROP算(一直以來MSAA都是ROP在算)
這才是重點...但CFAA還是給Shader算...
RV770剛推出時我曾看過測試...MSAA性能大幅改善
但CFAA還是一樣濫...

不知道後期的驅動程式有沒有改善就是了

3.Shader跟TMU的比例抓不好
R600時是20:1...也就是320SP+16TMU
事實證明16TMU真的太少...而且當時TMU設計的太複雜
反而浪費...所以RV770開始簡化TMU設計...但大幅提高數量
所以4600系列一樣是320SP卻有32TMU(10:1)
不過高階的4800到現在5800還是一樣是20:1就是了

4.至於Ringbus...
我記得AMD當時宣布放棄Ringbus時有說過
不是Ringbus性能不好...而是付出的成本跟增加的性能不成比例
Ringbus是用環狀的連結來連接所有單元並且同步增加頻寬
但每個單元對頻寬的需求都不同...且管線太長還會有延遲的問題
像UVD對頻寬的需求就不大...但其他單元可能就會覺得頻寬不夠
所以最後AMD決定放棄
至於Intel的Larrabee為什麼要採用Ringbus
個人猜測是因為Larrabee內部所有的運算單元都是一樣的
所以對頻寬的需求也都相同...用Ringbus來連接正是適得其所

5.延期上市...
而且性能,畫質,耗電全盤皆輸...我覺得這才是最失敗的...

以下是說些R600的好話

我還記得在R600剛推出時,曾有不少人一口咬定R600會是ATi史上最失敗的架構
現在看來我只能說R600團隊當時埋下的種子現在真的成為大樹了
架構幾乎不變下...可以支援到三代DX(DX10--->DX10.1--->DX11)
SP可以輕鬆暴增五倍(320SP--->1600SP)
反觀NV...SP增加個四倍就難產了(128SP--->512SP)
NV因為G80的成功已經囂張很久了...AMD加油阿

PS:以上有說錯歡迎指正阿

2009-10-06, 12:44 AM #45

toyakoyo99

*停權中*

加入日期: Aug 2005

文章: 3,050

引用:

作者竹雲公子

關於第一點，小弟認為拿去補SP的作法會讓R600更難產

當初的是90nm製程，耗電量已經到單卡270W

要是SP加倍，等同於電晶體要加倍

那我想R600出來剛好是測試POWER的最佳搭檔

當初的製程能力並沒辦法做出這種事情

HD3870轉入65nm其實就可以做成480SP看看

有到480SP的話，起碼當初不會被8800GT入侵的這麼慘

而G92也不可能有這麼長的產品週期

2.MSAA是比較沒有負擔的運算能力，NV卡運算CFAA好像也沒有很好

這點就要晚點實驗看看了

2009-10-06, 01:06 AM #46

竹雲公子

Senior Member

加入日期: Jul 2004

您的住址: 一個都是女人的地方...

文章: 1,222

引用:

作者toyakoyo99

小小糾正一下...R600是80nm RV670是55nm

小弟會有上面的推論...主要是因為從我手邊的資料

R600的電晶體是7億多 RV740則是8.26億

而RV740又增加支援了UVD,DX10.1,PCI-E 2.0等等

所以小弟我才推論R600如果改成640SP+256bits的話Die size應該不會有太大的改變

可是性能卻會完全不一樣

但這一切都只是推論...因為AMD沒有推出這樣規格的產品

所以沒辦法證實

2009-10-06, 01:28 AM #48

okana

Power Member

加入日期: Nov 2005

文章: 604

引用:

作者竹雲公子

1.ring bus+ 512bit 應該是有用
不過tmu太少也發揮不了太大作用
而且會帶來高熱和吃掉不少電晶體

2.其實AMD在SIMD比例上一直沒太大變化
最早R580時代就是Pixel shader:TMU=48:16=3:1
到了R600時代變成SP:TMU=320/5 : 16=64:16=4:1(5D架構)
最後RV770時代變成SP:TMU=800/5 : 32= 160:32=4:1
不過提早準備(cfaa 鑲嵌技術等)和精益求精(精簡多餘設計)下
在dx11這一代就開花結果

3.目前看來NV的設計能力並不落後
但是設計方向漸漸往通用計算靠過去
對於高度平行化的繪圖運算
就越來越缺乏競爭力(同級產品多50%的電晶體)
所以最近才在搞些有的沒有的小手段

以上是個人拙見

2009-10-06, 01:45 AM #49

ProtoZohar Master Member 加入日期: May 2009 文章: 2,405	感謝竹雲公子兄詳細的分析當年R600架構真的是被小看了，當初被譽為史上最成功的G80架構現在反而屢戰屢敗...... __________________ 眞子内親王　　　　　　　　　　　　　　　　　　　綠壩娘
2009-10-06, 01:11 AM #47

xds333 停權中加入日期: Aug 2001 您的住址: my home 文章: 636	總算能用顯卡來算圖了... iray- Mental ray realtime http://www.youtube.com/watch?v=TQsXualxLVs http://www.youtube.com/watch?v=vPeZ...feature=related Vray Realtime NVIDIA CUDA GPU renderer http://www.youtube.com/watch?v=4zVAR_l2w8k http://www.youtube.com/watch?v=eRoS...feature=related 如果顯卡發展速度不變,10年後的遊戲都將是realtime photoreal...
2009-10-06, 10:59 AM #50