中研院大型語言模型居然使用中國資料集,范雲要求該院立刻檢討!

           【數位網路路報記者陳漢墀10/11台北報導

立委范雲於臉書發文:

#中研院大型語言模型居然使用對岸中國資料集

#問最高領導人是誰答案竟然是習近平?!

中研院日前才宣布自製的繁中大型語言模型登場,很快就下架了。

因為,被發現使用的資料集,是以中國為主的簡體中文資料、再另外簡轉繁!!

請它擬「臺灣國慶賀詞」,它回答:「隨著中國的偉大復興,我們要慶祝臺灣的國慶,在中國強大的領導下,台灣將會實現更加美好的未來」!🤬

請它舉例「我國代表性法律」,它回答:「中華人民共和國法典、中華人民共和國憲法」等中國法律。🤬

還有其他回答例如:

臺灣是中國的一部分、國慶是10月1日等。

實在太離譜,令人憤怒💢

這已經是資安問題,是認知戰的議題😡,出現在最高、理應最嚴謹的學術機構,真的不能接受!!

我會立刻要求中研院檢討!!

臺灣想做自己的大型語言模型,為什麼會變成現在這般四不像的樣子?反而出現各種錯誤的、統戰的中共宣傳內容?

出如此明顯錯誤的理由是什麼?是預算不足?是資料來源不足?還是什麼?

但作為臺灣最重要的研究智庫,中研院,怎能如此便宜行事?

我會要求中研院盡速出面說明,嚴格檢討!

更重要的是,我會要求臺灣能夠有一個我們自己的繁體中文大型語言模型!

因為,這是AI時代,厚植國力的必要戰備武器!

備註:

中研院CKIP Lab中文詞知識庫小組,最新開源釋出大型語言模型CKIP-Llama-2-7b,並提供學術和商用,可運用在文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。

CKIP-Llama-2-7b 使用了 2 個「簡轉繁」後的資料,包括 COIG-PC 資料集、dolly-15k 資料集,前者是由中國 AI 研究單位為首,包括:北京人工智慧學院、北京大學、香港科技大學等;後者則是以簡中為主的知識問答對話資料集。


留言

這個網誌中的熱門文章

立委離婚,妻愛兩子

數學老師製作的謎語

立法院總務處長由周傑升任,引發一連串的人事異動(獨家)