
吳誠文指出,台灣的繁體中文語料庫,Google、Meta、Amazon等公司都要使用,因為他們缺乏繁體資料,對他們來講是一大缺憾,「所以這是一個business」。他說,中研院也在協助,同時希望學界進來,再邀請民間也來投入。
數發部去年底發布「臺灣主權AI訓練語料庫」,廣納高品質正體中文語料,支援AI模型訓練更貼近臺灣的語言、文化與生活情境,以符合我國社會與產業需求。對此,國發會主委吳誠文今(14日)上電台節目《新聞放鞭炮》表示,市面上AI平台缺少台灣資訊,特別是繁體中文的資料,不管是美國、中國這些大型的AI業者,他們訓練用的幾乎都是簡體,因此這也成為一個「business」。
吳誠文表示,所以現在政府要建構台灣自己的語料庫,此計畫將由數發部負責,目前數發部也把創新司改名叫做資料司。他直言,台灣的語料庫完全不夠,很多中央圖書館的資料是數位化成影像,而像傳統的紙本資料,他們現在其實有很快的方法能夠數位化,如今也是用AI來做這件事。
有關哪一部會負責全面擴大繁體中文語料庫,吳誠文說,資料治理是目前數發部專責,他也說林宜敬部長表現很積極,資料上網不是太困難,就看有無決心願意去做。他說,這種工作算是以科技方法做文化資產的保存,對於未來AI的語料庫建立也非常有幫助。
吳誠文指出,AI所謂的基礎模型這件事,大型語言模組(LLM)是其中一個,全世界都在使用,包含Gemini、ChatGPT,還有Meta。他說,這幾個公司做這種東西是要耗費非常大的的算力,耗費巨額資金蒐集資料、做訓練,這種做法現在全世界大概只有美國跟中國在做。
提到台灣的目標,吳誠文表示,因為這些科技公司都是促成我國半導體跟AI硬體產業蓬勃發展的重要客戶,第一是不跟客戶競爭,第二是台灣大概沒足夠的資源可以跟他們去競爭。
吳誠文指出,台灣的繁體中文語料庫,Google、Meta、Amazon等公司都要使用,因為他們缺乏繁體資料,對他們來講是一大缺憾,「所以這是一個business」。他說,中研院也在協助,同時希望學界進來,再邀請民間也來投入。
(圖片來源:新聞放鞭炮、數發部)










