台灣的AI很餓！恐遭簡中資料覆蓋？陳培瑜示警「頭皮發麻」應朝國家級方向整合：否則雲端兩三年後會沒有台灣

陳培瑜再說，台灣面臨很大的困境就是，當中國真的花很多力氣，把它剛剛說的那些東西數位化，全世界語言模型都吃得到這些資料...

台灣AI繁體中文資料庫面臨資料稀少困境，長期關注此事的綠委陳培瑜今（9）日登上廣播節目「新聞放鞭炮」時示警，這需要產官學合作，政府有沒有決心，雲端上是否兩三年後沒有台灣，「繁中資料真的可能被簡中洗掉」，總統府設置國家委員會應該會是好方向。

台灣隊在經典賽台韓戰獲得勝利，主持人周玉蔻提及，國發會主委吳誠文曾是台南少棒隊投手，1971年在美國威廉波特奪得少棒冠軍，但Chat GPT卻不知道吳誠文這段歷史？

陳培瑜回應，這件事情其實很嚴重，因為她來自出版產業，如果早期鉛字印刷排版的東西沒有被數位化，或進入公共知識領域，基本上所有大型語言模型都不認得，因為它們沒有被餵養過；她形容，這有如一個要讀書的小孩，出生之前沒有被數位化的資料，都沒有人告訴他可以讀。

陳培瑜再說，台灣面臨很大的困境就是，當中國真的花很多力氣，把它剛剛說的那些東西數位化，全世界語言模型都吃得到這些資料，「中國很多官方、民間機構為了發展語言模型，回過頭來找台灣買經典的授權！」出版業兩年前就提醒過她，並說這件事情很嚴重，因為簡體中文模型可能會扭曲這些繁中資料。

陳培瑜指出，數發部長林宜敬去年上台後有認知到這個問題，他們先把台灣官方、可授權資料封包，授權給國外的語言模型使用，但問題是報紙、廣播不可能免費授權給數發部使用，因此政府可否跨部會合作找法源、預算，讓沒有被授權的資料，透過數發部推廣給國外語言模型，數發部長有說要做這件事。

周玉蔻再說，國安局釋放所有轉型正義資料，但不讓AI去讀有意義嗎？AI林宅血案的相關名字都讀不正確？陳培瑜回應「台灣的AI很餓，AI讀不到的資料等於零」，但數發部的資料司人力太少，去年做「促進資料創新利用發展條例」，她整個頭皮發麻，因為邏輯不對，調整完後大家覺得可行、但人力不足，「大家非常焦慮！」

「這需要產官學合作，另外政府有沒有決心說，雲端上會不會兩三年後沒有台灣？」陳培瑜表示，她今年總質詢花了十分鐘講這件事，可能公部門還沒有意識到，包含棒球史、轉型正義、茶葉都有這個困境，且必須轉型成AI讀得懂的樣子。

周玉蔻表示，賴總統應該用總統高度，把繁體中文資料庫的建置變成前瞻基礎建設計畫。陳培瑜回說，當天總質詢時她也是這樣訴求，指出這是一個「科技時代的知識基礎」，真的很有可能繁中資料被簡中洗掉，搜尋引擎上看不到台灣。

陳培瑜再說，這件事情行政院應該有跟賴總統報告，只是說要到什麼高度，總統府設置國家委員會搞不好是一個好的方向。

（圖片來源：新聞放鞭炮、網路）