引用:
作者skap0091
但問題在於2張3060 12G無法疊加VRAM變成24G
所以無法跟24 VRAM的卡相比
|
遊戲可能沒辦法,但很多開源模型都有支援多卡
假設GPU晶片一樣,兩張12G VRAM疊加成24G,不會像單張24G VRAM這麼好用,推理速度也比單張慢
https://github.com/THUDM/ChatGLM3
"多卡部署
如果你有多张 GPU,但是每张 GPU 的显存大小都不足以容纳完整的模型,那么可以将模型切分在多张GPU上。首先安装 accelerate: pip install accelerate,然后即可正常加载模型。"