PCDVD數位科技討論區 - AMD下代GPU將充分利用9系芯片組IOMMU技術

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 系統組件 (https://www.pcdvd.com.tw/forumdisplay.php?f=19)

- - AMD下代GPU將充分利用9系芯片組IOMMU技術 (https://www.pcdvd.com.tw/showthread.php?t=933538)

引用:

作者anderson1127

如果原本的設計是沒有的話,而APU裡的GPU有這設計 , 那可算是非常大的進步了...

黃色字是指在CPU L1,L2 cache發生的事
依據這篇寫的,Fusion Compute Link 就是把以前CPU,GPU溝通的 HT介面頻寬放大版
http://hothardware.com/Reviews/AMD-...-Review/?page=2

引用:

The Fusion Controller link is similar to the HT interface used to communicate to our Integrated Graphics Chips, but with the Physical layer stripped off. As such it uses an HT like protocol, but is implemented as a wide parallel bus interface

主要不是在利用CPU cache的容量跟頻寬來加速GPU運算,而是跟CPU cache上的資料達到zero-copy的目的
讓CPU,GPU運算交錯間資料流通順暢
(GPU算完的丟去CPU cache 讓CPU接手；CPU算完的丟去CPU cache 讓GPU接手)

我在想他(Fusion Compute Link)是跟opencl有關? 還是跟以後的APU發展有關? (or Both?)
http://pc.watch.impress.co.jp/img/p...tml/09.jpg.html
因為GPU 要有這麼大頻寬與CPU zero-copy,若只用在OPENCL的話就太牛刀小試了

引用:

至於第二個問題,是的,沒有錯,只是單純不想與MB DRAM共用...

如果只是容量上意義可能不太大
AMD說"APU跟MB上的RAM"跟"獨顯上GPU 跟VRAM"的記憶體頻寬是接近的

至於實際效能上嘛要看看Llano的6550M 跟獨顯的6550M 扣除掉時脈的差距
效能上的差距到底有多大，來決定AMD說的是不是對的
(目前我沒找到這方面的測試)

真的很巧，就在剛剛又放出來這個消息了
http://pc.watch.impress.co.jp/docs/...26.html?ref=rss
內容對於這兩個 path 再詳細說明了一下
全文就不貼了，重點大概有以下幾個
> Zacate/Ontario 的作法跟Llano 相同 (也有這兩個Path)
> Llano 不一樣的是他支援雙通道,也就是說記憶體頻寬會比Bobcat 大
所以要組Llano,建議還是要雙通道的方式來組
對於CPU雙通道也許影響不大,但是GPU可能就有差了
(上一篇寫得頻寬跟獨顯沒有太大差異是在雙通道之下的表現)

> Llano 是Fusion 中間解 (不是最終的作法)
> 最終的作法要靠AMD 下半年釋出的新型態GPU被整合進APU(2013?)才可能達成
換句話說明年的Trinity (採用VLIW4的GPU),也還不是Fusion 最終的作法
可能要等到2013年新的APU 才可能完成AMD想完成的Fusion 目標

引用:

作者orakim

你這個數據錯了
下面這一段有回答你的問題
Read 17 GB/sec,write 12GB/sec
Peak 29.8 GB/sec 是很符合6550M的頻寬(Llano內建6550M)

恩~我的確是錯的忘了讀加寫可以同時運作
所以我在看一下我的電腦pii 555

讀:6520MB/s
寫:6280MB/s
加起來~12.8GB/s
跟你的數據有很大的差距 :stupefy:

引用:

作者airitter

恩~我的確是錯的忘了讀加寫可以同時運作
所以我在看一下我的電腦pii 555

讀:6520MB/s
寫:6280MB/s
加起來~12.8GB/s
跟你的數據有很大的差距 :stupefy:

memory controller有被改造過了 GPU的頻寬比CPU大
上面那篇有寫到這點

引用:

LlanoのCPUコアは、単体ではメモリリード&ライトが8GB/secで、マルチコアアクセス時に13GB/secであるため、GPUコアの方がメモリ帯域では優遇されている。

Llano CPU的頻寬沒有多大變化
大致上跟你的差不多 12~13GB/s（多核心狀態下）

GPU的頻寬就不太一樣，幾乎就是29.8GB/s

引用:

GarlicバスのGPUコアからのピーク帯域は29.8GB/secで、メモリ帯域と一致している。しかし、通常、実効帯域はピーク帯域の70%以下に落ちるのが一般的なので、Garlicの帯域はフルに近い。

所以不用利用到顯示卡的Vram，APU光靠系統記憶體就可以達到同等級顯卡一樣的頻寬
(而且APU 實際上利用到的頻寬可能還比較獨顯快可達到幾乎100% peak的頻寬，而不是一般的70%以下)
雖然說還是跟高階顯卡有很大一段差距,不過應該算堪用

謝謝orakim兄的詳解,讓我對AMD APU有更深的瞭解了.... :D

剛看完資料,有點不解的是
http://hothardware.com/Reviews/AMD-...-Review/?page=2

在Graphics SIMD Array這個區域中, 因為只是單純的block圖,所以也不確定AMD HD Series chip 中
原始設計不確定有沒有存在cache memory (或者稱做高速的buffer),可以讓GPU順暢的運作

不過APU經過orakim兄的說明,確定GPU可以使用cache memory以加快速度了... :like:
----------
更正,剛剛才去google找了一下,是參考HD 6850 的布局圖,有看到L2 cache的block
資料引自 http://techreport.com/articles.x/19844

現在GPU與CPU融合成APU , 那GPU與CPU的cache可以互用,那麼成本可以有效降低了..
真是good idea !!

引用:

作者anderson1127

現在GPU與CPU融合成APU , 那GPU與CPU的cache可以互用,那麼成本可以有效降低了..
真是good idea !!

我覺得你可能還要再仔細看一下
因為cache zero-copy 只在特殊條件特殊用法下才有作用
而且他們之間不是共享資源的關係

GPU實際上不會用到CPU的cache來加速GPU的運算
Onion的zero-copy只是讓CPU資料快一點到達GPU,讓GPU更快一點開始計算而已
GPU運算速度沒有改變,只是讓資料傳遞變成幾乎零時差

而且這是在OpenCL,DirectCompute...之類的通用運算(算蛋白質,找外星人...那些)上才有作用
跟遊戲效能FPS 扯不上太大關係