中研院 AI 大翻车！繁中大型语言模型 CKIP-Llama-2-7b 下架

中央研究院词库小组（CKIP）最新释出可以商用的繁中大型语言模型（large language model）CKIP-Llama-2-7b，「孵‧大学」校长谢昆霖直言「中研院 AI 大翻车！」，在仔细端详内容後他立刻跟夥伴说「一定会出问题」，模型今日中午下架。

谢昆霖解释，这款语言模型的多任务微调训练，是使用「COIG-PC 资料集」和「dolly-15k 资料集」这两款简转繁资料集。前者是北京星尘数据 stardust.ai 提供网路资料集，以中国 AI 相关研究单位为首，超过二十所全球知名大学和机构共同编制。

根据 COIG-PC 资料集网站，重点机构包括北京人工智慧学院、北京大学、香港科技大学、北京邮电大学、中国LinkSoul.AI、中国 LinkSoul.AI、加拿大滑铁卢大学和英国谢菲尔德大学；至於 dolly-15k 资料集是一个以简体中文为主的一般性知识问答对话资料集。

谢昆霖认为，用简体中文的资料，再透过 OpenCC 翻译成繁体中文，就能训练出台湾可用的训练资集吗？答案绝对是否定的。除了用字遣词的差异，还包含很多的民生知识、文化知识，用北京研究机构校正是「适用於中国的民生、文化知识」，再修剪成「台湾版」，再监督与修正的总体成本会高於「认份做台湾的资料集」。

此外，评监也是个大问题。谢昆霖称，中央研究院词库小组说这款 LLM 经过C-Eval中文模型评测，但这是「中国清大」、「中国交大」开发的中文基础模型评量系统。简单来说，中研院用简转繁的资料集训练完他们认为适用台湾的基础模型，再派它考中国考试，计算分数。

中研院说明这款语言模型可用於「学术、商业使用、文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。」谢昆霖直言，一般商用的还好，但用於後面几项「会出事的」。

谢昆霖表示，台湾的确严重缺乏在地语言资料集的困境，因为真的超级烧钱，是以亿为单位计算的，要做好可能相当於好几个军购案做好多年，政府难编列预算、民意机关难说服投资、民间企业不可能投资做语言数位化，但资料集是AI时代的基础建设。

对此，谢昆霖表示自己建立一个开放社群「中华民国台湾开源语言资料集_建立、收集、标注、监督、评监」，在合法的范围内把建立台湾在地的训练资料集，用众人的力量做，这样台湾的商用的AI才有在地的训练资料可以用。

他也认为，AI 时代的竞争，需强化台湾在地用词的资料收集、建立资料集，建立熟悉台湾在地文化的 AI，视为国防/国安投资，有急迫性和必要性。

另有 PTT 网友做测试，发现问一些敏感问题，基本上回答都相当「出乎意料」，也不难理解语言模型紧急下架的原因。

（首图来源：Pixabay）