
DeepSeek的價值,在於提出不需要大量資源就能建立複雜的AI模型的做法,但我們知道它至少在一定程度上是站在巨人的肩膀上建造的...
年假期間,科技圈乃至財經圈,全都被DeepSeek洗版,本來應該耍廢放空的業內人士,全都被橫空出世的DeepSeek逼得丟下手中的零食,開始研究這家中國人工智慧公司。
讓業界放下手中零食的人工智慧
DeepSeek的成功引起了廣泛關注,主要在於其開源和高效的模型,被認為對現有AI行業格局產生了顛覆性影響。據報導,DeepSeek公司宣稱DeepSeek-R1的訓練成本約為600萬美元,遠低於OpenAI的GPT-4在2023年約1億美元的訓練成本。此外,DeepSeek-R1使用的計算資源約為Meta公司同類模型LLaMA 3.1的十分之一。
DeepSeek的熱潮,讓他超越 ChatGPT 等競爭對手,成為美國下載次數最多的免費應用程式。美國總統川普表示,這是對美國科技業的警鐘。DeepSeek宣稱其開發成本僅為其競爭對手的一小部分,引發了人們對美國未來人工智慧主導地位的質疑,美國科技股市值蒸發逾 1 兆美元。
但當市場冷靜下來,開始進一步去推敲DeepSeek的底細,就發現其背後的創新,其實藏著許多手段。DeepSeek 備受關注的部分原因是,儘管美國出口管制限制中國企業獲得用於AI處理的最佳電腦晶片,但它仍成功訓練出R1模型。DeepSeek尚未公佈訓練 R1 的全部成本,但其向使用其介面的用戶收取的費用約為OpenAI o1運行成本的三十分之一。該公司還創建了R1的迷你「精簡」版本,以便計算能力有限的研究人員可以使用該模型。
DeepSeek幾大爭議
這樣的低成本,也是造成上週一輝達股價大跌的主要原因。但DeepSeek模型,依然是在大約2,000個Nvidia H800 GPU上進行訓練的。這些晶片是H100 晶片的改良版,符合對中國的出口規則。這些產品很可能是在2023年10月拜登政府進一步收緊限制之前購買的。然而,產業分析公司SemiAnalysis報告稱,DeepSeek背後的母公司花費了16 億美元的伺服器成本,並擁有50,000 個NVIDIA Hopper GPU,其中包括10,000個H800和10,000個H100。若將這些成本也計入,DeepSeek的成本,應該遠超過公司宣稱的數字。
另一個爭議點,是在 DeepSeek R1 Model 的發表論文上,他們有提到模型使用到「知識蒸餾」的技術(Knowledge Distillation)。所謂的「知識蒸餾」,指的是一種機器學習技術,主要用來將大型、複雜的模型(教師模型,Teacher Model)的知識轉移到較小、較輕量的模型(學生模型,Student Model)。這種技術的目的是在保持模型性能的同時,減少計算資源消耗,使其更適合部署在資源受限的環境中,例如手機或邊緣設備。但據英國《金融時報》報導,OpenAI已證實,已經發現證據表明DeepSeek 涉嫌使用 OpenAI 的專有模型來訓練其產品,可能已經侵犯了 OpenAI 的智慧財產權。
加速AI平民化?
除了以上爭議,DeepSeek畢竟是一家中國公司,所以自我審查是不可避免的,像是天安門事件,DeepSeek 不會回答有關此事的任何問題,甚至不會回答有關當天在中國發生的事情的任何問題。
DeepSeek的價值,在於提出不需要大量資源就能建立複雜的AI模型的做法,但我們知道它至少在一定程度上是站在巨人的肩膀上建造的:它使用Nvidia 晶片,並利用Meta 的開源Llama 架構。對於AI產業發展來說,將更激勵公司找到使模型訓練和運行更有效率的方法,使用越來越少的資源開發出高效能的人工智慧模型。透過開源AI模型,DeepSeek讓企業和開發者可以免費使用 AI 技術,而不必向 OpenAI 支付昂貴的API費用,這或許也是一種破壞式創新,能夠加速AI的平民化,不再只是大企業才有資源能力建構的局面。
編輯部說明:迎接「大」數據、「人」工智慧、「物」聯網浪潮,《放言》推出以科技創新發展為主題的專欄《大人物時代》,由科技專業人士撰文,帶讀者進入「大人物」的世界。
(圖片來源:deepseek官網,chatgpt官網;示意圖製作:放言視覺設計部 傅建文)










