中研院大型語言模型居然使用中國資料集，范雲要求該院立刻檢討！

【數位網路路報記者陳漢墀10/11台北報導】

立委范雲於臉書發文：

#中研院大型語言模型居然使用對岸中國資料集

#問最高領導人是誰答案竟然是習近平？！

中研院日前才宣布自製的繁中大型語言模型登場，很快就下架了。

因為，被發現使用的資料集，是以中國為主的簡體中文資料、再另外簡轉繁！！

請它擬「臺灣國慶賀詞」，它回答：「隨著中國的偉大復興，我們要慶祝臺灣的國慶，在中國強大的領導下，台灣將會實現更加美好的未來」！🤬

請它舉例「我國代表性法律」，它回答：「中華人民共和國法典、中華人民共和國憲法」等中國法律。🤬

還有其他回答例如：

臺灣是中國的一部分、國慶是10月1日等。

實在太離譜，令人憤怒💢

這已經是資安問題，是認知戰的議題😡，出現在最高、理應最嚴謹的學術機構，真的不能接受！！

我會立刻要求中研院檢討！！

臺灣想做自己的大型語言模型，為什麼會變成現在這般四不像的樣子？反而出現各種錯誤的、統戰的中共宣傳內容？

出如此明顯錯誤的理由是什麼？是預算不足？是資料來源不足？還是什麼？

但作為臺灣最重要的研究智庫，中研院，怎能如此便宜行事？

我會要求中研院盡速出面說明，嚴格檢討！

更重要的是，我會要求臺灣能夠有一個我們自己的繁體中文大型語言模型！

因為，這是AI時代，厚植國力的必要戰備武器！

備註：

中研院CKIP Lab中文詞知識庫小組，最新開源釋出大型語言模型CKIP-Llama-2-7b，並提供學術和商用，可運用在文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。

CKIP-Llama-2-7b 使用了 2 個「簡轉繁」後的資料，包括 COIG-PC 資料集、dolly-15k 資料集，前者是由中國 AI 研究單位為首，包括：北京人工智慧學院、北京大學、香港科技大學等；後者則是以簡中為主的知識問答對話資料集。

數位網路報