
陳培瑜再說,台灣面臨很大的困境就是,當中國真的花很多力氣,把它剛剛說的那些東西數位化,全世界語言模型都吃得到這些資料...
台灣AI繁體中文資料庫面臨資料稀少困境,長期關注此事的綠委陳培瑜今(9)日登上廣播節目「新聞放鞭炮」時示警,這需要產官學合作,政府有沒有決心,雲端上是否兩三年後沒有台灣,「繁中資料真的可能被簡中洗掉」,總統府設置國家委員會應該會是好方向。
台灣隊在經典賽台韓戰獲得勝利,主持人周玉蔻提及,國發會主委吳誠文曾是台南少棒隊投手,1971年在美國威廉波特奪得少棒冠軍,但Chat GPT卻不知道吳誠文這段歷史?
陳培瑜回應,這件事情其實很嚴重,因為她來自出版產業,如果早期鉛字印刷排版的東西沒有被數位化,或進入公共知識領域,基本上所有大型語言模型都不認得,因為它們沒有被餵養過;她形容,這有如一個要讀書的小孩,出生之前沒有被數位化的資料,都沒有人告訴他可以讀。
陳培瑜再說,台灣面臨很大的困境就是,當中國真的花很多力氣,把它剛剛說的那些東西數位化,全世界語言模型都吃得到這些資料,「中國很多官方、民間機構為了發展語言模型,回過頭來找台灣買經典的授權!」出版業兩年前就提醒過她,並說這件事情很嚴重,因為簡體中文模型可能會扭曲這些繁中資料。
陳培瑜指出,數發部長林宜敬去年上台後有認知到這個問題,他們先把台灣官方、可授權資料封包,授權給國外的語言模型使用,但問題是報紙、廣播不可能免費授權給數發部使用,因此政府可否跨部會合作找法源、預算,讓沒有被授權的資料,透過數發部推廣給國外語言模型,數發部長有說要做這件事。
周玉蔻再說,國安局釋放所有轉型正義資料,但不讓AI去讀有意義嗎?AI林宅血案的相關名字都讀不正確?陳培瑜回應「台灣的AI很餓,AI讀不到的資料等於零」,但數發部的資料司人力太少,去年做「促進資料創新利用發展條例」,她整個頭皮發麻,因為邏輯不對,調整完後大家覺得可行、但人力不足,「大家非常焦慮!」
「這需要產官學合作,另外政府有沒有決心說,雲端上會不會兩三年後沒有台灣?」陳培瑜表示,她今年總質詢花了十分鐘講這件事,可能公部門還沒有意識到,包含棒球史、轉型正義、茶葉都有這個困境,且必須轉型成AI讀得懂的樣子。
周玉蔻表示,賴總統應該用總統高度,把繁體中文資料庫的建置變成前瞻基礎建設計畫。陳培瑜回說,當天總質詢時她也是這樣訴求,指出這是一個「科技時代的知識基礎」,真的很有可能繁中資料被簡中洗掉,搜尋引擎上看不到台灣。
陳培瑜再說,這件事情行政院應該有跟賴總統報告,只是說要到什麼高度,總統府設置國家委員會搞不好是一個好的方向。
(圖片來源:新聞放鞭炮、網路)










