PCDVD數位科技討論區 - AI生成影片大躍進SORA發表

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 七嘴八舌異言堂 (https://www.pcdvd.com.tw/forumdisplay.php?f=12)

- - AI生成影片大躍進SORA發表 (https://www.pcdvd.com.tw/showthread.php?t=1206877)

引用:

作者skap0091

其實Sora展示很多風格、很多運鏡形式

其中很多在傳統上都是需要3D建模+物理模擬才能正確產生

所以甚至有人懷疑Sora已經學會部分真實物理的表現方式

看這些影片在3D結構都沒有名顯破綻

不知道能不能生成影片同時把3D建模搞出來

或是請AI提供另一個攝影鏡頭的同樣片段影片

引用:

作者野口隆史

那我這個理論派有講錯甚麼嗎？
nvidia Jim Fan 有講錯甚麼嗎？
我很多基本都是引用 Jim Fan 講過的東西
Jim Fan 也是你眼中的理論派嗎？

Jim Fan 也目前也許不是宇宙第一強
但在地球上也是 AI 界喊得出名字的人物
人家的 AI 論文超多篇上期刊
可不是只會講理論出一張嘴而已
人家協助 nvidia 打造一堆 AI 模型跟應用服務

我沒說理論派錯啊

我只是要你拿出所謂超越Sora的影片

至於"光一個躍進在哪裡你就講不出來
馬斯克說特斯拉一年前就做得比 SORA 更真實？
你是同意還是不同意？
如果同意，那 SORA 躍進在哪裡？
你不同意是不同意在哪裡？"

好像我前面都白說了？
我提了多少Sora的優點？YT上說了多少比以前的強在哪？

那簡單，我直接給1個條件
狗狗玩雪，文字都給你了
影片來一個比Sora好的
狗狗玩雪的毛髮、雪花飛濺看起來以假亂真
這就是躍進，每個影片我都能講躍進在哪

至於特斯拉在行車記錄器方面更真實我認同
但Sora的狗狗玩雪他就生不出來，懂？

Jim Fan 的 AI 論文超多超厲害，我認同
然後請給我一個狗狗玩雪的影片證明一下
就這樣一個影片就好，比Sora好我馬上改變立場

剛好理論 vs 實務的事件就來了

Google Gemini文生圖功能緊急關閉：種族、性別大錯亂，口碑一夜崩壞
https://www.techbang.com/posts/1134...gently-and-word

Gemini 好像終於被玩壞了。去年年底，Google Gemini 震撼了業界，它是Google“最大、最有能力和最通用”的 AI 系統，號稱第一個原生多模態大型語言模型，能力超越 GPT-4，也被認為是Google反擊微軟和 OpenAI 的強大工具。

對此，在 2 月 8 日，Google還把自家對標 ChatGPT 的服務 Bard 更名為 Gemini，以著重體現新使命，上週Google還火速更新了 Gemini Pro 1.5 版。

結果，推出不到一個月，這個 Gemini 就翻車了。

馬斯克果然不會放過，也來踩又出包的 Google AI 模型一腳
https://technews.tw/2024/02/27/goog...5-joking-again/

國父變黑人！生成歷史人物卻太過政治正確 Google暫停Gemini AI人像生成
https://tech.udn.com/tech/story/123454/7791224

Gemini影像生成出槌、"數週後"重上架谷歌臉綠
https://www.moneydj.com/funddj/ya/y...15-460b88ea5f21

GoogleCEO內部信：AI大模型翻車「不可接受」將全面糾正錯誤
https://news.mydrivers.com/1/965/965901.htm

財聯社2月28日訊（編輯劉蕊）在谷歌人工智能產品Gemini的人物圖片生成功能功能上週“翻車”之後，美東時間週二，谷歌CEO桑達爾·皮查伊（Sundar Pichai）給員工發了一封內部郵件，首次就Gemini的問題進行了回應，稱這是「完全不可接受的」。

皮查伊在內部信中寫道，Google的AI團隊正在晝夜不停地糾正問題，並且已經取得進展。他強調，公司將對Gemini進行結構性改革，以防止類似事件的發生。

Gemini離譜錯誤“不可接受”

Gemini（原名Bard）是Google規模最大、功能最強大的多模態人工智慧模型。上週，這款產品因其生成的人物圖片過於「政治正確」而遭到不少非議：一些用戶近期發現，Gemini生成的大多數人物圖像基本上都是有色人種，甚至在被要求生成美國國父、教宗、二戰德國士兵等人物時，都會生成非裔和亞裔的形象。

---

模型很好很強大，但不代表輸出成果也很好很強大
Google發佈這個文生圖難道沒有內部測試？難道沒發現異狀？
一堆新聞標題都直接用"翻車"這麼重的詞形容

當然，這只是參數改改的問題，我相信能解決
但實務上能不能很有競爭力，還是看成果跟其他競爭對手相比
不是什麼模型超強、算力給足就一定怎樣怎樣

Sora那種品質，就有人懷疑是訓練的素材特殊
簡單說，都給電影級別影片素材，生出來自然也是電影級別
畢竟就是從素材去拼湊出來的
要是都給小朋友畫作等級素材，怎麼可能生成大師級畫作

當然，話也別說死，Sora實際開放使用才能見真章
而其他競爭對手能不能快速跟上甚至超越也可以等看看

會出包才表示欣慰，完全不出包的話，表示離天網更近了～
個人是偏好google的AI模型，因為他開源，可以自行下載安裝自己撰寫呼叫，也可以離線使用～
:D :D :D

引用:

作者skap0091

剛好理論 vs 實務的事件就來了

https://twitter.com/yggree/status/1762367528343679293

我前幾天在FB看到Google Gemini畫出了的二戰德軍士兵，有黑有黃就是沒有金髮碧眼... :laugh:

引用:

作者michelle-lai529

引用:

作者Hermit Crab

我前幾天在FB看到Google Gemini畫出了的二戰德軍士兵，有黑有黃就是沒有金髮碧眼... :laugh:

其實這可能不是有意為之
最早的 LLaMA 2 能夠回答應該如何製造核彈、冰毒、說出種族歧視的話語 etc.
但很多經過二次訓練的模型，這些都直接告訴你"它不能告訴你"
而不是"它不知道"
但實際上這些人並沒有要求進行這些項目的和諧
而是二次訓練帶來的後遺症

引用:

作者野口隆史

其實從測試結果來看
https://huggingface.co/blog/zh/gemma

PHI-2 2.7B 可能會是比較好的選擇
體量接近 Gemma 2B
但測試結果接近 Gemma 7B

Gemma 真正強的是 7B
2B 主要優點是一般消費級電腦跟筆電
都不須經過量化的模型就能跑起來

另外 Gemma 從 Google 自己透漏地資訊
Gemma 是一個以英語為主要訓練語言的模型
但它的中文理解能力屌打 LLaMA2
也能夠以中文回答問題
這算是我比較驚訝的部分

其實這可能不是有意為之
最早的 LLaMA 2 能夠回答應該如何製造核彈、冰毒、說出種族歧視的話語 etc.
但很多經過二次訓練的模型，這些都直接告訴你"它不能告訴你"
而不是"它不知道"
但實際上這些人並沒有要求進行這些項目的和諧
而是二次訓練帶來的後遺症

gemma-7b-it已經架起來用了，語法生成的部份是真的可以運作，稍加修改就可以實用了，開源的能到這種程度已經很滿意了
:D :D :D :like: :like: :like:

只能說AI進步實在有夠快

沒足夠資本去投資
相關的資料庫與龐大高階運算架構
注定沒有一席之地

Proof that Sora is a game-changer?
Comparing Sora prompts in Runway, Stable Video, Morph & more
https://youtu.be/nFGPoJ7_OTY?si=Yk80y8sBgP0nuy6y

剛好看到一個YT拿SORA提供的字詞去別套軟體生成影片

不敢說這YT是專家啦、發表多少論文啦、多權威性啦

但至少人家能找到好幾套AI生成影片工具

也真的用相同字詞去生成之後來比較

而不是光說有比SORA更好的然後一個影片例子都舉不出來

當然不管是影片中還是我都一再強調，這些SORA範例有挑過

SORA尚未公開給大眾測試、SORA範例也不是沒有錯誤

所以也不要說啥我一直吹捧SORA多棒多棒

而是"現階段"這品質明顯比其他套AI生成影片好