瀏覽單個文章
Hermit Crab
Golden Member
 

加入日期: Oct 2017
您的住址: 世紀公園
文章: 2,568
看到樓上關鍵字搜尋了一下...噢,明白了...

領導人是習近平?中研院語言模型出包
中研院開發AI語言模型下架 因各種測試皆表明自己是中國籍
【更新中研院聲明】繁中 LLM CKIP-Llama-2-7b 翻車?使用簡中資料集有什麼問題?

由於 CKIP-Llama-2-7b 還使用了 2 個「簡轉繁」後的資料,包括 COIG-PC 資料集、
dolly-15k 資料集,前者是由中國 AI 研究單位為首,由超過 20 所全球知名大學機構編制,
包含:北京人工智慧學院、北京大學、香港科技大學等;
後者則是以簡中為主的知識問答對話資料集,
因此在民生、文化、專業領域等各方面,
都容易回答出符合中國知識與情境的回答。

中研院指出,此研究僅用了約新台幣 30 萬元經費,
訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、
來自中國開源的任務資料集(CHINESE OPEN INSTRUCTION GENERALIST)、
詩詞創作、文言文和白話文互相翻譯等閱讀理解問答;在 Github網頁上也據實說明。
__________________
我的封鎖名單:
ankk
chumowu
cp03
jeffk
LDSKING
LDSKING II
leeking
leeko
MyChris
River Spinach
smoguli
Whole Truth
wpc0406
YorkHapy
冬之炎陽
冰的啦魔王大人
沒問題
爆走企鵝
tvt
hill45678
rcack
舊 2024-02-20, 07:34 PM #37
回應時引用此文章
Hermit Crab離線中