PCDVD數位科技討論區 - AMD FX系列出新品...

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 系統組件 (https://www.pcdvd.com.tw/forumdisplay.php?f=19)

- - AMD FX系列出新品... (https://www.pcdvd.com.tw/showthread.php?t=1057113)

> 再說Kaveri沒了HSA實在想不出有什麼賣點
> AMD,我真是搞不懂你啊 :think:
很簡單因為HSA需要OS 跟軟體的支援;
沒有這兩個東西只有硬體也等於沒有HSA
現在兩個都沒有 ,有沒有GPU差異性不大(反正都沒HSA)
PS.這個沒軟體可用的狀況恐怕會持續一年左右(個人猜測)

> 有 HSA 一樣沒賣點啊，我覺得 HSA 在科學運算領域才比較有發揮空間
> GPU 相較於 CPU 的優勢在於 GPU 有相當大量的運算單元
> 所以必須丟可以高度平行化的工作給 GPU 計算，這時 GPU 的優勢才會展現出來
你講的這部分是過去GPU運算的方式,但HSA跟他有根本上的不同

以程式來說運算方式可以分成可平行化跟不可平行化
過去使用GPU的運算可以說是完全平行化,CPU沒有介入實質運算
即便CPU介入也因為延遲過高頻寬過低整體效能差,跟純CPU運算沒有太大差異(或者更慢)
所以看不到CPU+GPU這種應用方式

完全平行化的運算方式,在一般使用者環境很少見;
實際上不可平行化的運算佔了不少部分 (但還是有可平行化運算的部份存在)
HSA設計的目標是可平行化給GPU 不可平行化給CPU
讓CPU GPU各自負責他們適合的工作,徹底解決運算上的瓶頸
這在電腦史上很明顯是一場前所未見的大革命 (上一次革命很巧也是AMD掀起的:AMD64)
能不能成功就看AMD能熬多久,軟體是需要時間去堆出來的

> AMD從一開始就不該推兩個平台
y
> 資金、人力與對手的差距懸殊
不過你後面的發言似乎以socket區別平台
而我認為的兩個平台是bulldozer,bobcat
這兩個架構出發點相同,只是實現方式略微不同;就最終結果而言兩個執行效率非常接近
實在沒必要為此開發兩種架構

> 主機板的供電模組那就過不了關
> 架構、製程沒翻新進步
> APU很難達到R7-260的水準
其實你忘了一件事,DDR3記憶體頻寬太小;
即便塞個R7-260那樣大的GPU進去,發揮出來的效能跟A10 7850K 也不會有太大差異
也只有像PS4那樣系統記憶體採GDDR5 才能發揮GPU的極限
或者你可以反過來想,AMD就是因為記憶體頻寬問題才設計那樣的GPU

HSA弄得起來Intel就會弄個很像的東西出來 :p
感覺AMD很像Intel的實驗室

3DNow!->SSE
Cool'n'Quiet->SpeedStep拿到桌上型CPU
K8 CPU內建記憶體控制器->Intel Nehalem架構
HyperTransport->QuickPath
AMD64->Intel64(就是有小地方跟你不相容)
Phenom共用L3架構->Nehalem架構跟之後的Core
SSE5->AVX
APU->CPU內建顯示

引用:

作者bureia

AMD去探索另外一條路，
然後Intel再用資源壓過去... :laugh:

NintendoFamicom的發言讓我想到一件事
如果是以HSA為前提的狀態下,GPU的compute unit 要幾個才划算
(因為HSA運算有極限到一定程度效能增加很慢)

假設一個 compute unit下,GPU的效能是CPU的三倍

橫軸是GPU的compute unit(間隔2),縱軸是效能(間隔1)
顏色是可平行化程度(間隔10%)_80%(灰色) 70%(紅紫) 60%(黃)

如果只要求HSA程式跟intel 純CPU 差不多快,
以可平行化40%(紅)來說 1個CPU 配上2個cu(4個CPU就要8個cu) <-這比例剛好就是A10-7850K

如果講求划算的話,以可平行化50%(螢光藍)來說大概CPU:GPU=1:4
很明顯A10-7850K GPU的cu 少了一半
如果要補滿這一半換成AMD的說法應該就是20核心的APU (CPU:GPU=4:16)

引用:

作者orakim

你講的這部分是過去GPU運算的方式,但HSA跟他有根本上的不同

以程式來說運算方式可以分成可平行化跟不可平行化
過去使用GPU的運算可以說是完全平行化,CPU沒有介入實質運算
即便CPU介入也因為延遲過高頻寬過低整體效能差,跟純CPU運算沒有太大差異(或者更慢)
所以看不到CPU+GPU這種應用方式

完全平行化的運算方式,在一般使用者環境很少見;
實際上不可平行化的運算佔了不少部分 (但還是有可平行化運算的部份存在)
HSA設計的目標是可平行化給GPU 不可平行化給CPU
讓CPU GPU各自負責他們適合的工作,徹底解決運算上的瓶頸
這在電腦史上很明顯是一場前所未見的大革命 (上一次革命很巧也是AMD掀起的:AMD64)
能不能成功就看AMD能熬多久,軟體是需要時間去堆出來的

這樣的話，AMD 的處境就更加艱難了，因為程式不但要整個重寫，而且重寫難度大增，因為還要分別切割工作給 CPU 和 GPU

再說現在的 CPU 也足以應付一般應用了，工程師恐怕也不願意為了支援 HSA 重寫 Code..

想再請教一個問題，那就是 CUDA 6 支援統一尋址，也就是說 GPU 和 CPU 應該會共用 CPU Memory (Main Memory)

但 CPU 會同意讓 GPU 動它主管的 CPU Memory 嗎？CUDA 6 的統一尋址到底是怎麼辦到的啊？ :confused:

要推HSA
我認為最最重要的是AMD要拿出一個革命殺手級的應用軟體
像是轉檔
AMD若能找到廠商合作，給予軟體開發支援
能讓A10-7850K的HSA轉檔
時間縮到i7 QSV的一半
畫質是純CPU運算的水準
這樣其他轉檔軟體未來就會不得不推出支援HSA的版本
重點在於第一個齒輪要怎麼去推動它......

引用:

作者NintendoFamicom

不知跟boinc之類的科學運算結合有沒有搞頭
或是某些像PCB LAYOUT之類需要強大計算力的
(比特幣?)

越來越深奧了.....看不懂... :stupefy:

> 再說現在的 CPU 也足以應付一般應用了，工程師恐怕也不願意為了支援 HSA 重寫 Code..
有多的效能出現就可以有更多應用方式出現
而且效能需求從來沒少過,現在不重寫code 未來也要重寫
另外HSA也不只限制在x86上,ARM也有(AMD預計明年會推的skybridge framework)

> 但 CPU 會同意讓 GPU 動它主管的 CPU Memory 嗎？CUDA 6 的統一尋址到底是怎麼辦到的啊？ :confused:
傳統是不會同意(安全性問題)
CPU能處理的權限跟GPU不同資料頂多只能單方向傳輸
CUDA透過更換CPU函式庫的方式,讓權限不同的安全性問題得到解決
透過軟體方式將以往cuda要人工處理的部分讓它可以自動執行省掉麻煩

而AMD方面之前有寫過(在下面這邊)
http://www.pcdvd.com.tw/showthread.php?t=1028634
另外今年一月AMD有提到一件事,
他不只要在記憶體實現這種技術未來連cache也要做到這種雙向溝通
目前的kaveri 在cache方面還是只有單向傳輸(只有GPU 才可以從CPU cache拿資料)
AMD是說因為cache 雙向溝通的技術過於複雜會拖到kaveri的上市,所以放棄了但未來還是會有

> 我認為最最重要的是AMD要拿出一個革命殺手級的應用軟體
> 像是轉檔
這是一定的,AMD ppt裡提到一個HSA廠商就是在弄x265
可惜x265目前發展中畫質還比不上很成熟的x264
假設x265達到理想的畫質有試過x265的應該知道他真的很慢,
不會有人想用純CPU來跑4K video的x265編碼,一定會採取某種加速的方式

引用:

作者orakim

(恕刪)... 傳統是不會同意(安全性問題)
CPU能處理的權限跟GPU不同資料頂多只能單方向傳輸
CUDA透過更換CPU函式庫的方式,讓權限不同的安全性問題得到解決
透過軟體方式將以往cuda要人工處理的部分讓它可以自動執行省掉麻煩 ...(恕刪)

剛看了一下 Unified Memory in CUDA 6，資料似乎還是必須在 GPU 與 CPU 之間搬來搬去，只是之前必須手動搬移，現在有了 managed memory，系統會自動幫你搬

感覺有點像是"表面上的統一記憶體 (Unified Memory)"，只能用來減輕程式開發者的負擔以及讓程式碼不再那麼冗贅 (不會再有一堆 cudaMemcpyXXXXToXXXX() 了)

CUDA 以後有可能做到直接操作 CPU Memory，不用再把資料搬到 GPU Memory 嗎？

我在想即便可以，但 GPU 離 CPU Memory 那麼遠，這樣運算速度真的快得起來嗎？如果真的快不起來，那 CUDA 是不是前景堪慮了啊 (相較於 AMD 的 HSA) :stupefy: