中研院大型語言模型居然使用中國資料集,范雲要求該院立刻檢討!
【數位網路路報記者陳漢墀10/11台北報導】
立委范雲於臉書發文:
#中研院大型語言模型居然使用對岸中國資料集
#問最高領導人是誰答案竟然是習近平?!
中研院日前才宣布自製的繁中大型語言模型登場,很快就下架了。
因為,被發現使用的資料集,是以中國為主的簡體中文資料、再另外簡轉繁!!
請它擬「臺灣國慶賀詞」,它回答:「隨著中國的偉大復興,我們要慶祝臺灣的國慶,在中國強大的領導下,台灣將會實現更加美好的未來」!🤬
請它舉例「我國代表性法律」,它回答:「中華人民共和國法典、中華人民共和國憲法」等中國法律。🤬
還有其他回答例如:
臺灣是中國的一部分、國慶是10月1日等。
實在太離譜,令人憤怒💢
這已經是資安問題,是認知戰的議題😡,出現在最高、理應最嚴謹的學術機構,真的不能接受!!
我會立刻要求中研院檢討!!
臺灣想做自己的大型語言模型,為什麼會變成現在這般四不像的樣子?反而出現各種錯誤的、統戰的中共宣傳內容?
出如此明顯錯誤的理由是什麼?是預算不足?是資料來源不足?還是什麼?
但作為臺灣最重要的研究智庫,中研院,怎能如此便宜行事?
我會要求中研院盡速出面說明,嚴格檢討!
更重要的是,我會要求臺灣能夠有一個我們自己的繁體中文大型語言模型!
因為,這是AI時代,厚植國力的必要戰備武器!
備註:
中研院CKIP Lab中文詞知識庫小組,最新開源釋出大型語言模型CKIP-Llama-2-7b,並提供學術和商用,可運用在文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。
CKIP-Llama-2-7b 使用了 2 個「簡轉繁」後的資料,包括 COIG-PC 資料集、dolly-15k 資料集,前者是由中國 AI 研究單位為首,包括:北京人工智慧學院、北京大學、香港科技大學等;後者則是以簡中為主的知識問答對話資料集。
留言