应用科技

中研院 AI 大翻车!繁中大型语言模型 CKIP-Llama-2-7b 下架

中央研究院词库小组(CKIP)最新释出可以商用的繁中大型语言模型(large language model)CKIP-Llama-2-7b,「孵‧大学」校长谢昆霖直言「中研院 AI 大翻车!」,在仔细端详内容後他立刻跟夥伴说「一定会出问题」,模型今日中午下架。

谢昆霖解释,这款语言模型的多任务微调训练,是使用「COIG-PC 资料集」和「dolly-15k 资料集」这两款简转繁资料集。前者是北京星尘数据 stardust.ai 提供网路资料集,以中国 AI 相关研究单位为首,超过二十所全球知名大学和机构共同编制。

根据 COIG-PC 资料集网站,重点机构包括北京人工智慧学院、北京大学、香港科技大学、北京邮电大学、中国LinkSoul.AI、中国 LinkSoul.AI、加拿大滑铁卢大学和英国谢菲尔德大学;至於 dolly-15k 资料集是一个以简体中文为主的一般性知识问答对话资料集。

谢昆霖认为,用简体中文的资料,再透过 OpenCC 翻译成繁体中文,就能训练出台湾可用的训练资集吗?答案绝对是否定的。除了用字遣词的差异,还包含很多的民生知识、文化知识,用北京研究机构校正是「适用於中国的民生、文化知识」,再修剪成「台湾版」,再监督与修正的总体成本会高於「认份做台湾的资料集」。

此外,评监也是个大问题。谢昆霖称,中央研究院词库小组说这款 LLM 经过C-Eval中文模型评测,但这是「中国清大」、「中国交大」开发的中文基础模型评量系统。简单来说,中研院用简转繁的资料集训练完他们认为适用台湾的基础模型,再派它考中国考试,计算分数。

中研院说明这款语言模型可用於「学术、商业使用、文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。」谢昆霖直言,一般商用的还好,但用於後面几项「会出事的」。

谢昆霖表示,台湾的确严重缺乏在地语言资料集的困境,因为真的超级烧钱,是以亿为单位计算的,要做好可能相当於好几个军购案做好多年,政府难编列预算、民意机关难说服投资、民间企业不可能投资做语言数位化,但资料集是AI时代的基础建设。

对此,谢昆霖表示自己建立一个开放社群「中华民国台湾开源语言资料集_建立、收集、标注、监督、评监」,在合法的范围内把建立台湾在地的训练资料集,用众人的力量做,这样台湾的商用的AI才有在地的训练资料可以用。

他也认为,AI 时代的竞争,需强化台湾在地用词的资料收集、建立资料集,建立熟悉台湾在地文化的 AI,视为国防/国安投资,有急迫性和必要性。

另有 PTT 网友做测试,发现问一些敏感问题,基本上回答都相当「出乎意料」,也不难理解语言模型紧急下架的原因。

(首图来源:Pixabay)

国内如何访问google