Nvidia 52.XX 的 Detonator 看來在Half Life 2上有點用了!!!!

BorgMu

Elite Member

加入日期: May 2002

文章: 7,865

引用:

Originally posted by HigH
ATI的小組當初對9700都不需要適應期,表示ATI driver team實力遠勝過nvidia囉?
怎麼可能

給你一篇文章,看起來是說R3X0基本架構就比NV3X還強(雖然我看不太懂)
http://www.beyond3d.com/forum/viewtopic.php?t=8005

不過以R300來說,它的八條像素管線每一週期只能著色一次來說,TOM那裡也提過如果遇上多層貼圖的遊戲,不見的能夠取得多少優勢,測試上也看到如果以多層貼圖的測試上看,Ti4600只輸R9700Pro一些,但是在單次貼圖的項目上R9700Pro確是大勝 Ti4600...R350在管線上是否更動,我是不清楚,不過以R300來說是這樣沒錯,所以現在NV搞的這個什麼陣列的真的有點給它搞不懂運作原理

2003-10-03, 01:04 AM #11

Artx1

Registered User

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

基本上, NV30在架構上的確資源比R3x0低落許多.
先前B3D的站長Dave有一篇post, 闡述了NV3x的架構與R3x0的架構,
也解釋了NV3x反常的行為原因.

(由Hotball兄所重新繪製)
這個架構圖在之後由LostCircuit方面做出更詳盡的比較.
LostCircuits刊出的架構資源比較圖.

所以, 基本上NV3x與R3x0在架構上有相當的資源落差,
單條管線的話並不是很大的差距(3ops/cycle vs 1~5ops/cycle), 通常是時脈可以解決的問題;
但是今天是四條管線(NV35)vs八條管線(R3x0), 於是落差就出現了.
於是出現了NV35之流的高階卡居然有可能輸給對手廠商中階卡(RV350)的效能表現的狀況.
(日前HL2的Vavle官方自主測試已經出現了這樣的狀況)

於是, 被指出是架構本身推力不足, 而非相容性問題, 最近nVIDIA只好開始消毒了.
成為了一個很麻煩的狀況....

主要的原因其實不少.
一來, CineFX(VS2.x/PS2.x)的規模過大, 而且有不少架構上的舊累贅,
(比如說在VS之外還內包了一個完整的T&L單元, 不過也因此OpenGL專業軟體超快)
二來, TSMC的製程也不足以讓nVIDIA持有製程技術優勢
(於是現在跑去找IBM)
最後, 因為NV30實在是Delay太久了.
以過去nVIDIA的步調而言, NV3x應該在比R300(9700)還要更早的時候,
也就是去年第一第二季(2002Q1~Q2)的時候就該生出來了, 結果整整Delay了兩季,
到去年底才生出來.

於是變成NVIDIA的產品線整整慢了對手一個產品週期的狀況.
如果我們將NV30/35現在的效能倒推回半年前的各家產品線對比看看,
其實會是個很好的產品, 狀況或許就不會像現在這麼慘了.

不過, 在這種狀況下, 或許正可以看出nVIDIA的Driver水準之高,
硬體資源差異這麼大的情況下, 居然還能不會輸得太難看....

只是, ATi 的Driver不停地在改善, 雖然專業市場短期內是很難扳得回來,
但是很快地, DX9遊戲會在今年底到明年中之間一個接一個上市,
這樣的遊戲市場可能會讓nVIDIA今明兩年過得很辛苦了.

另一個問題是, NV40如果是預期的2xNV35+GigaPixel(TBR)的話, 只怕與R420比起來還是勉勉強強,
和R360 -> R420的修改幅度比起來, NV35 -> NV40的修改幅度想必大得很多,
檯面下的資源損耗是很傷人的, 考慮到已經上市產品的週期變換,
NVIDIA遊戲卡的市場版圖可能會有極大的損害, 就算NV4x整個產品線完整推出可能都不會有顯著的起色,
甚至可能會拖到次次世代產品(DX10, R500 vs NV50?)才會比較有希望.

2003-10-03, 11:55 AM #14

Artx1

Registered User

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

至於NV35這回對HL2的效能提升, 到底是不是作弊得來的呢?
這個可能要從架構上去稍微解釋一下.

基本上, NV30與NV35的主要差異在於, NV35把NV30的兩個FX12(Register Combiner)擴充了浮點能力,
讓兩個MiniFP32可以做和Full FP32一樣的工作, 發揮類似4x2甚至4x3的作用,
而仍然保留原來FX12的功能.(不過Full-FP32倒是不能跑FX12)

所以, 過去NV30如果使用FX12時, 會發揮相當於4x2的效果;
但是使用FP32會變回類似4x1的狀況. (實質上的fillrate仍然是4管線)
NV35則使得FP32的運作仍然能有4x2的能力, 不過使用FP16仍然比FP32快.

所以, NV35比起NV30, 實體資源是有增加的, 所以針對NV35的Driver改善, 在NV30上可能不會發揮太大的作用,
原因是這部分的改善是為了提高對NV35增加出來的硬體資源, 提高其使用率.

----
所以我們看這回Det.50對HL2的效能改善.
其實從上面的管線架構圖可以看出, R3x0在最極端的狀況下能發揮8x5的效果(!!),
但是每個單元其實都只有部分的功能, 所以指令只有在特定的排列下
才能"剛好"達到全部使用, 絕大部分的狀況仍然都只會發揮類似8x1的效果,
其實算是一個效率不好的架構; 相比之下, NV3x的效率就高上許多.
NV30使用FP16的時候會是4x2, FP32的時候則接近4x1.
(這邊指的是color指令不是過去常提的texture指令),
NV35則是在任何狀況下都會是4x2, 甚至會有4x3的case發生(stencil-op).

於是, 針對NV35的Driver改善, 是使得NV35在Best Case時,
Shader執行能力上達到與R3x0的worst case的資源使用狀況相同.
基本上R3x0的這個架構, 資源使用率其實相當低, NV35的話則相對地比較高,
所以, 如果Driver能夠做到經常性的維持NV35在高使用率的狀況的話,
那麼一般狀況下NV35是可以在效能上與R3x0一拼的, 不需要去刻意的降低Texture品質,
甚至也可以開高解析度, 開AF也沒關係, 因為這部分比較和Shader Performance無關; 不過FSAA就難說了.

由於總執行能力確實比較低, 如果去提高負載的話, 受效能衝擊影響的狀況一定會比較嚴重, 這就沒辦法了.
Det.50著重的改善應該就在於改善compiler以提高對Mini32單元的使用率, 儘可能把效能擠出來,
R3x0則是本來平行度就很高, 而且這個架構其實也沒多少手段可以做最佳化,
因為目前的IMR不可能去做類似OOP的事情....

總之, 這回NV35的最佳化, 並不一定是作弊, 因為從架構上推, 有這種提升其實是合理的.
但是NV30的話, 可能就不會受惠了. 於是HL2直接將NV30定為DX8, 使用其FX12,
以使NV30的表現不會糟到影響遊戲進行的程度.

上頭是軟體使用FP的狀況, 比如說HL2....
如果是使用FX12(比如說Doom3的NV30 backend)的話, 則就不會有上述的問題,
一定會是全十全火力輸出, 這樣的話NV3x和R3x0的立足點是相同的(4x2 vs 8x1),
NV35就可能會因為Ultra Shadow之類的額外加值而勝出, 主因是因為Doom3沒有使用HDR.
而R3x0不論是在任何狀況下, 速度都一樣, 因為它的內部精確度就固定是FP24了.

以上是效能方面的討論, 已知NV38有另外的改善, 可能是針對暫存器方面的改善,
這樣的話就可能會進一步的提高使用FP32時的資源總量.

----
講了這麼多, 想講的其實很簡單.
NV3x會輸的主因並不在於對DX9的相容性好壞, 而在於硬體資源本身總量就真的比人少了(雙方的best case達到12vs40的誇張程度).
所以反過來說, 其實NV3x跑DX9也不應該會遇到多少相容性問題, 而是慢的時候真的就會比較慢.
套句David Kirk自己的台詞, "這是物理, 不是魔術"....

反而是nVIDIA如果放入了一些額外的不當最佳化, 就可能會造成相容性問題,
其實等於是自己把自己的狀況搞糟了.不過隨著NV40即將推出, 這個狀況理應會減少.

因為晚推出, 和人家比起來效能就被比了下去.
因為效能不好, 所以比較好的功能變得沒人用....
CineFX失敗的原因很多, 但是Delay絕對稱得上是主要因素.

其實也因為這樣, 已經有一些要nVIDIA直接放棄NV3x, 提早推出NV4x的聲音了,
不過看著NV38推出, NV40繼續delay, 看來nVIDIA當初也可能沒考慮到
NV3x的狀況會這麼糟糕.... 所以NV40還生不出來, 只好繼續死撐了?

2003-10-03, 11:56 AM #15

Lordcolus

Junior Member

加入日期: Jul 2001

您的住址: 地球

文章: 834

引用:

Originally posted by Artx1

主要的原因其實不少.
一來, CineFX(VS2.x/PS2.x)的規模過大, 而且有不少架構上的舊累贅,
(比如說在VS之外還內包了一個完整的T&L單元, 不過也因此OpenGL專業軟體超快)
二來, TSMC的製程也不足以讓nVIDIA持有製程技術優勢
(於是現在跑去找IBM)
最後, 因為NV30實在是Delay太久了.

這邊我有個問題
一般的說法都是指向TSMC的.13製程量率不佳
以致於NV轉單到IBM去了
倒是前陣子有消息傳出
IBM本身的高階製程量率極差
NV可能又會把單子轉回TSMC @@~
不知道是真的還假的
還是純粹是TSMC放出來的風聲

__________________
Lordcolus's Blog
>>http://lordcolus.blogspot.com/

Glory, glory, Man United,
Glory, glory, Man United,
Glory, glory, Man United,
And the reds go marching on, on, on.

2003-10-03, 12:35 PM #18

Artx1

Registered User

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

引用:

Originally posted by Lordcolus
這邊我有個問題
一般的說法都是指向TSMC的.13製程量率不佳
以致於NV轉單到IBM去了
倒是前陣子有消息傳出
IBM本身的高階製程量率極差
NV可能又會把單子轉回TSMC @@~
不知道是真的還假的
還是純粹是TSMC放出來的風聲

這我是不太清楚, 不過基本上現在的晶圓代工都是Cell Based,
元件庫由代工廠提供, 所以即使是同樣的晶片, 在兩個不同的代工商製造,
layout和性能仍然都有很大的差異, 因為元件根本都不一樣....
極端一點的話, 可以說根本就是從頭來了.

不太清楚IBM的高階製程目前狀況如何, 但是先前PCWatch也提到過,
ATi 雖然同時在TSMC和UMC雙方投產, 但是在UMC的產量穩定的同時,
TSMC方面卻常常出現Delay的狀況, 所以RV350的數量和價格都不是很好.

另外有一個自覺頗重要的地方, 就是台灣的代工商都以低價格與成本管理為主打,
而IBM先前代工的價格開得很高, 成本管理也不是很好....
不過, 話說先前NGC的問題也是出在代工(NEC).... 市場真是複雜啊.

2003-10-03, 02:00 PM #19

knift Master Member 加入日期: May 2000 文章: 2,446	感謝Artx1兄的解說… 其實nv把nv35的效能榨得愈乾，對消費者來說才是一件好事呢… 原來只以為效能和品質只能擇一，裡面竟還有這麼多道理，又上了一課！謝啦！如果真是這樣子，那nv這種就算是良性競爭了…
2003-10-03, 12:35 PM #17

Ghost Lee Junior Member 加入日期: Dec 2001 文章: 728	哇~~~~解說的有夠詳盡! 感謝Artx1兄的解說原來是執行效率的問題感謝感謝! 真猶如當頭棒喝
2003-10-03, 02:57 PM #20