PCDVD數位科技討論區 - 超微是線上３D遊戲之王？雙蕊K8＝K9?流行X87復古主義?

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 效能極限 (https://www.pcdvd.com.tw/forumdisplay.php?f=18)

- - 超微是線上３D遊戲之王？雙蕊K8＝K9?流行X87復古主義? (https://www.pcdvd.com.tw/showthread.php?t=333605)

不必在講下去, 你如果沒有能力證明 P4 跑天堂二是走 x87, 那就少在那邊廢話.

至於浮點整數化, 是常用的技巧, 不是所有運算都要浮點, SSE2 裡面, 六種data type裡, 只有一個是給浮點的 (128 Bits), 其餘的都是整數 (128Bits). 而最終輸出那管你什麼 Z 軸個屁, 3D一樣得對應到螢幕平面2D座標, 顯示在螢幕上就是整數座標, 看不懂嗎？螢幕上的 pixels 可沒有什麼0.xxxx的單位, pixel 就是最小單位.

而且, 就算是 SSE2 的浮點運算, 也不是跟 x87 劃上等號, 兩者的指令集是不同的, 你去證明給我看 P4 跑的是 x87 而不是 SSE 或 SSE2.

除了感覺 XP 比較快外, 你還有別的嗎!!

您所謂的實測根本不能證明，天堂II是跑X87，只能證明AMD跑天堂II會有比較好的效能！

X87在哪？:jolin:

天堂II也不需要用到256MB的顯示卡:think:

///不必在講下去, 你如果沒有能力證明 P4 跑天堂二是走 x87, 那就少在那邊廢話.

====要是跑SSE2,那麼我才不能理解。要是用SSE２,結局會想一般單機遊戲那樣。廢話的是你。

///至於浮點整數化, 是常用的技巧, 不是所有運算都要浮點, SSE2 裡面, 六種data type裡, 只有一個是給浮點的 (128 Bits), 其餘的都是整數 (128Bits).

====既然如你所說已經是跑SSE２,那P４怎樣這般廢。

而最終輸出那管你什麼 Z 軸個屁, 3D一樣得對應到螢幕平面2D座標, 顯示在螢幕上就是整數座標, 看不懂嗎？

====最後輸出是整數。但必須經過3D的運算,運算後取一個適當的整數,而不是無條件直接用整數。因為物體含Z軸的座標,在３D移動的過程中,頂點位置不是都通過整數位置的。

螢幕上的 pixels 可沒有什麼0.xxxx的單位, pixel 就是最小單位.

====那是最後約略在銀幕上的結果,要是不通過浮點運算,只會越差越遠。

而且, 就算是 SSE2 的浮點運算, 也不是跟 x87 劃上等號, 兩者的指令集是不同的, 你去證明給我看 P4 跑的是 x87 而不是 SSE 或 SSE2.

＝＝＝如要是你所說,有SSE2的優勢,就不會敗得這樣慘。而是反過來。４個３２位的操作並行運算,加上高時脈,還輸啊。

除了感覺 XP 比較快外, 你還有別的嗎!!

＝＝＝不只是感覺,已經給你鏈接了。在天堂２上面,P４不是小廢。是大廢。比XP低一個檔級。

引用:

Originally posted by 妞妞
[B]///不必在講下去, 你如果沒有能力證明 P4 跑天堂二是走 x87, 那就少在那邊廢話.

====要是跑SSE2,那麼我才不能理解。要是用SSE２,結局會想一般單機遊戲那樣。廢話的是你。

///至於浮點整數化, 是常用的技巧, 不是所有運算都要浮點, SSE2 裡面, 六種data type裡, 只有一個是給浮點的 (128 Bits), 其餘的都是整數 (128Bits).

====既然如你所說已經是跑SSE２,那P４怎樣這般廢。

又來, 你只會拿天堂二比而已嗎？

引用:

而最終輸出那管你什麼 Z 軸個屁, 3D一樣得對應到螢幕平面2D座標, 顯示在螢幕上就是整數座標, 看不懂嗎？

====最後輸出是整數。但必須經過3D的運算,運算後取一個適當的整數,而不是無條件直接用整數。因為物體含Z軸的座標,在３D移動的過程中,頂點位置不是都通過整數位置的。

告訴你就是可以用整數算, 方法很巧妙, 但我實在沒力氣跟你解釋, 以你程度, 怎麼講也不會懂. 頂點....小數點的部份, 不論是進還是捨, 都要變成螢幕座標的整數, 看不懂是吧??色彩 RGB, 255、255、255, 你看過什麼顯示卡有小數點的色階？

利用演算法, 讓整數的計算可以取得足夠的精確度, 並不是多難的事, 尤其是遊戲, 精度的要求, 並沒有 3D 軟體那麼高, 省下一點精度, 換來的是效率. 這也是為什麼專業繪圖卡跟一般3D顯示卡的差別.

你怎麼不去拿 3D MAX render 一個幾億個多邊形的模型看看速度 P4 跟 XP 誰比較快??拿天堂二比？

我也不喜歡 Intel , 我自己用的電腦從來不買 Intel. 如果你比的有道理, 那我還會替你叫好, 可惜, 你的程度只會讓 AMD Fans 徹底丟臉.

引用:

Originally posted by 妞妞

====要是跑SSE2,那麼我才不能理解。要是用SSE２,結局會想一般單機遊戲那樣。廢話的是你。

=====天堂2是針對英特爾處理器和NV卡最佳化的遊戲.你連程式都寫過, 組合語言每一行程式都看得懂,竟然不知道這個道理.

1.
如果天堂II跟其他單機版跑的結果不一樣，那是要質疑程式還是硬體？
2.
天堂II有沒有對Intel or Nvidia做最佳化在下不清楚，手上也沒資料證明，該不會這也是您推測的吧！:jolin:

----
您所有的結論這是您猜測的嗎？還是實地做過？
先PO出您自己實測天堂II是跑X87的證據出來吧！ :o
拿結果來臆測過程～:o

這邊很精采喔
呵呵
看起來樓主很主觀就是了
路過路過
各位大大繼續

講這麼多幹嘛?
反正照大蝨的講法,桌上的計概.程式語言參考書都可以拿去丟了
個人興趣購買的"電腦遊戲結構與設計~理論篇".GameDeveloper也該送去做資源回收了

對了,提到3D遊戲與線上遊戲,上回請教大蝨那幾家公司的豐功偉業,不知能否請大師給個總結

雲

1.
如果天堂II跟其他單機版跑的結果不一樣，那是要質疑程式還是硬體？

====每一種遊戲都結果不同。但沒像天堂２這樣的大大不同。也是經過你的提醒我才想到你說的１＋１等於２。問題是要是跑SSE２,哪有可能你所謂的１＋１＝２。而會是相反。

2.
天堂II有沒有對Intel or Nvidia做最佳化在下不清楚，手上也沒資料證明，該不會這也是您推測的吧！

＝＝＝遊戲網站入口就有他們英維兩家的配合廣告。Nvidia還搭售。你會對一個和你毫無關係的遊戲花錢出廣告費嗎。當初英特爾就出錢給DVD軟體廠商,要他們針對SSE２最佳化。

----
您所有的結論這是您猜測的嗎？還是實地做過？

＝＝＝我已經給過測試鏈接了。

先PO出您自己實測天堂II是跑X87的證據出來吧！
拿結果來臆測過程～

＝＝＝再說一次,你去前面翻我給的鏈接吧。至於跑X８７,我說過,K７本身的FPU就是針對X８７性能強化去設計的。所以XP跑SSE和跑X８７之間測的分數差距小。我這才會懷疑P４也是跑X８７才會這樣慘。　　AMD的Athlon系列CPU沒有採用傳統的X87浮點處理單元,而使用了自己研發的新型浮點處理機制。AMD 為Athlon設計了3個並行的浮點、多媒體執行單元。但一般K７只要不使用指令集,還是說它在跑X８７。實際上已經不一樣。

＝＝＝P4處理器的浮點單元設計中只有2個浮點執行單元，而其中一個單元要同時處理：FADD, FMUL, MMX, SSE, 和SSE2。

＝＝＝Intel在P4的浮點設計中不是走加強x87浮點處理單元的道路，而是希望利用SIMD的多媒體擴展提高浮點運算性能,P4中的x87 FPU功能較弱。

＝＝＝1. FXCH指令floating-point exchange,在 P4中比P3中受到更多限制，每個時脈只能發出一條指令到FXCH執行管線。比如，在FXCH指令發射後緊跟著一條FMUL指令，則必須等到FXCH指令執行結束，FMUL指令才能進入管線執行單元，造成遲延。

＝＝＝2. P４的FMUL不是全管線化單元。這也可能是原因。但也因為是這個非管線化的FMUL,才讓人更加懷疑他的SSE２去哪了。

＝＝＝3. P４中有兩個FPU單元，一個是FADD加法器和FMUL乘法器實作在一起，另一個是FSTORE和FLOAD作在一起，理論上每個周期只能執行一個浮點加或是一個浮點乘。沒有加乘並行的能力。

　　這樣，P4要實現優異的FPU性能，必須對浮點密集應用進行SSE1和SSE2最佳化，否則只能提供較低的浮點性能。

００００００００００００００

RogerShih

又來, 你只會拿天堂二比而已嗎？

＝＝＝不過我沒看過別人玩A３之類的其他即時線上３D遊戲。

告訴你就是可以用整數算, 方法很巧妙, 但我實在沒力氣跟你解釋, 以你程度, 怎麼講也不會懂. 頂點....小數點的部份, 不論是進還是捨, 都要變成螢幕座標的整數, 看不懂是吧??

＝＝＝銀幕座標的整數結果,那是捨和入的結果。而Z軸卻是在虛擬空間的。你不算過,你無法精確的捨或入。而３D座標在虛擬空間移動的結果是非整數的。是會移動的。封會吹動裙子。揮舞寶劍。這些的物體的頂點位置都不一定要通過整數座標。那些建模頂點不一定通過你設想的整數座標位置的。而且這是３D座標。例如求一個頂點的新位置會牽涉到大量的矩陣與乘法運算。比如如果一個步行的人物模型,他其中一個頂點受到 16 根線條的影響，那麽就要進行 16 次矩陣與向量相乘的運算，然後乘以影響權重又需要 16 次浮點數相乘，最後還需要 15 次浮點數相加來求得最終的頂點位置。

色彩 RGB, 255、255、255, 你看過什麼顯示卡有小數點的色階？

＝＝＝著色當然和處理器要算的３D頂點位置無關。著色可以用整數。

利用演算法, 讓整數的計算可以取得足夠的精確度, 並不是多難的事, 尤其是遊戲, 精度的要求, 並沒有 3D 軟體那麼高, 省下一點精度, 換來的是效率. 這也是為什麼專業繪圖卡跟一般3D顯示卡的差別.

＝＝＝對一個設定好的整數頂點座標,它在虛擬空間中移動的時候,是會通過非整數的座標的。所以即便最後輸出到銀幕上的平面座標的時候,他還是要取得適當的運算和數字。最後約成整數。

＝＝＝當你用２個６４位的整數運算的時候,實際只能操作２個運算,而 K７可以運算２個３２位浮點乘和２個３２位浮點加,總共有４個運算在進行,還不用去除小數點。３２位的單精度浮點也不慢。

你怎麼不去拿 3D MAX render 一個幾億個多邊形的模型看看速度 P4 跟 XP 誰比較快??拿天堂二比？

＝＝＝天堂２是線上遊戲。3D MAX render 是單機軟體。

我也不喜歡 Intel , 我自己用的電腦從來不買 Intel. 如果你比的有道理, 那我還會替你叫好, 可惜, 你的程度只會讓 AMD Fans 徹底丟臉.

＝＝＝說這話幹麻。你不是想討論嗎。討論和丟臉啥關係。

引用:

Originally posted by 妞妞
銀幕座標的整數結果,那是捨和入的結果。而Z軸卻是在虛擬空間的。你不算過,你無法精確的捨或入。而３D座標在虛擬空間移動的結果是非整數的。是會移動的。封會吹動裙子。揮舞寶劍。這些的物體的頂點位置都不一定要通過整數座標。那些建模頂點不一定通過你設想的整數座標位置的。而且這是３D座標。例如求一個頂點的新位置會牽涉到大量的矩陣與乘法運算。比如如果一個步行的人物模型,他其中一個頂點受到 16 根線條的影響，那麽就要進行 16 次矩陣與向量相乘的運算，然後乘以影響權重又需要 16 次浮點數相乘，最後還需要 15 次浮點數相加來求得最終的頂點位置。

你不是想討論嗎。討論和丟臉啥關係。

:shock: :shock: :shock:
:jolin: :jolin: :jolin:
大蝨這套說法還需要討論嗎?:o

引用:

Originally posted by 妞妞
====每一種遊戲都結果不同。但沒像天堂２這樣的大大不同。也是經過你的提醒我才想到你說的１＋１等於２。問題是要是跑SSE２,哪有可能你所謂的１＋１＝２。而會是相反。

1+1=2可是您的高見！
↓

引用:

Originally posted by 妞妞
尤其在網路上的即時３D遊戲,線上大量的建模資料一擁而上,在指令對齊上,我猜測很不容易做到高效平行運算．所以大家在網上看到的單機版遊戲測試是在單純環境下的測試吧．這樣英特爾的SSE２支援程度就有限．像線上的即時３戰略遊戲中古世紀總體戰－－全軍破敵,以及神話世紀都有大量人工智慧＋大量地圖與超鉅量３D士兵兵團建模．這都不是用SSE２可以立刻幹的．往往會用X８７或是加上SSE去跑．那樣奔騰４浮點運算單元的加法器與乘法器是一起設計的．而超微是分開設計的．這樣進行大量的建模加乘運算時候,超微就很有威力．等於有兩個算盤分工．我認為XP３２００＋的天堂２性能,相當於P４－４G－８００＋８６５PE．這樣看看,XP３２００＋實際時脈相當於２.２G．加乘運算是分開的．等於是XP的X８７跑４.４G．這很接近P４－４G的性能．這也是可以理解的．畢竟因為P４的外頻８００有一點優勢．

引用:

Originally posted by 妞妞
＝＝＝我已經給過測試鏈接了。
＝＝＝再說一次,你去前面翻我給的鏈接吧。至於跑X８７,我說過,K７本身的FPU就是針對X８７性能強化去設計的。所以XP跑SSE和跑X８７之間測的分數差距小。我這才會懷疑P４也是跑X８７才會這樣慘。　　AMD的Athlon系列CPU沒有採用傳統的X87浮點處理單元,而使用了自己研發的新型浮點處理機制。AMD 為Athlon設計了3個並行的浮點、多媒體執行單元。但一般K７只要不使用指令集,還是說它在跑X８７。實際上已經不一樣。

您的連結只有P4與K7之間效能差異，並沒有跑天堂II用X87的證據！
不要拿結果來臆測過程！

引用:

Originally posted by 妞妞 ＝＝＝Intel在P4的浮點設計中不是走加強x87浮點處理單元的道路，而是希望利用SIMD的多媒體擴展提高浮點運算性能,P4中的x87 FPU功能較弱。

Intel本來就要以SSE取代使用運算堆疊的X87
加強一個本身有缺陷的指令集做什麼？