DeepSeek如何擊倒特朗普的「星際之門」和拜登的晶片管制?
![DeepSeek如何擊倒特朗普的「星際之門」和拜登的晶片管制? DeepSeek如何擊倒特朗普的「星際之門」和拜登的晶片管制?](https://cdn.hk01.com/di/media/images/dw/20250128/960937927175573504314068.jpeg/JHPW1h58kj8qE7xLDu5vsGEKmvFLwwcx48wftuPMH7Y?v=w1920r16_9)
1月27日,中國人工智能(AI)企業深度求索(DeepSeek)低訓練成本、高表現水平的「R1」模型終於震驚到華爾街。
其低訓練成本讓市場質疑AI產業對於GPU運算能力近乎無止境的追求是不是真的無止境。幾乎獨佔AI晶片市場的英偉達(Nvidia,又譯輝達)股價27日急挫近17%。
DeepSeek模型在各種基準測試緊貼甚至超越OpenAI最新模型的表現,也讓人質疑訓練成本高昂的美國AI企業能否面對中國競爭--OpenAI主要支持者微軟(Microsoft)的股價同日也下跌了超過2%。
訓練方式的創新
DeepSeek震驚世界的表現,其實早在去年12月就出現。12月26日,DeepSeek發布其V3大型語言模型(LLM),有6710億個參數,比Meta(Facebook母公司)2024年7月發布的另外一個開源大型語言模型Llama 3.1多2660億個。在llm-stats.com的MMLU(按:評估LLM的一個基準)排行榜上,DeepSeek V3表現也比Llama 3.1為佳。然而,V3的訓練成本卻遠比Llama 3.1為低。
根據DeepSeek的計算,V3的訓練只花費不足560萬美元,用了2048個Nvidia為符合拜登(Joe Biden)對華晶片出口限制而設計的H800 GPU,花了278萬個GPU時數,處理了14.8萬億個token(單位)。
相較之下,Llama 3.1用了可高達1.6萬個H100 GPU(按:H800未弱化前的原版),花了3080萬個GPU時數,處理了15.6萬億個token--即使我們大方假設DeepSeek和Meta的GPU時數成本完全一樣(按:Meta成本該比DeepSeek高),V3的訓練成本也比Llama 3.1低超過10倍以上。
效能相約、訓練成本差距至少十幾倍,DeepSeek V3的收費也倍數級低於Llama 3.1,未來在2月還會大幅降價。
在特朗普(Donald Trump)宣誓就職的那一天(1月20日),DeepSeek進一步公布了其R1推理模型,追隨OpenAI o1模型的步伐。
與以往的大型語言模型不同,對於一個問題,推理模型不會直接給出它認為最有可能為真的答案,而是試圖將一個問解拆解成幾個推理的程序去推出一個答案。例如如果要解答誰是美國總統這個問題,人類和AI也能直接給出他們認為最有可能為真的答案,並不會造成太大問題;但如果要解答的問題是誰是在壽命最長的美國總統,中間就需要一系列推理論程去給出一個正確的答案(先找出所有美國總統的名單,再看看他們死亡時候的年紀,再作排序……諸如此類)。
一個最具代表性的問題就是「Strawberry有多少個r」(見下圖):OpenAI的大型語言模型ChatGPT錯誤地給出了「兩個」的答案,而且錯誤一直以不同方式出現,引起了人們對於發展一種「會思考、會推理」的模型的興趣。連o1模型的開始計劃起初也以「Strawberry」為代號。
DeepSeek雖然沒有公布R1的詳細訓練成本,但它在R1的技術文章中立列舉了其訓練特色。減省訓練成本是其一大重點。例如,相對於其他推理模型的訓練,DeepSeek首先嘗試放棄使用「已標籤數據」(labelled data)而進行純粹的強化學習(reinforcement learning),大大減少了數據標籤的成本。
(按:數據標籤很多時候需要人力介入,例如把「tiger」的中文翻譯標為「老虎」,又或者把一張老虎的相片標為「老虎」等。而「強化學習」則是一種模型最大化獎勵來學習的方式,例如如果向一個中英釋譯模型輸入「Tiger」而模式產生出「老虎」為解答,模型就會得到獎勵來強化這個傾向,相反,如果它產生出任何不是「老虎」的解答,就會得到懲罰來弱化這個傾向。)
以這種方式建立出來的R1-Zero模型在一系列推理基準測試(按:當中包括給高中學生的高級數學測試AIME 2024等)之中已經能夠追過OpenAi的o1模型,顯示出就算沒有高成本的「已標籤數據」去進行強化學習訓練,DeepSeek已經有辦法使模型獲得高度的推理能力。
在這個基礎之上,DeepSeek以少量的已標籤數據(按:數量遠遠低於其他模型訓練所用的)去微調基本的V3大型語言模型,隨後以R1-Zero的純粹強化學習去進行訓練,到接近穩定狀態之後,再以拒絕抽樣(rejection sampling)和進一步的微調進行訓練,然後回到純粹強化學習的步驟,周而復始,不斷改進,最後生成出R1模型。
其結果是,DeepSeek R1在各種推論基準的評分上與OpenAi的o1模型大體上打成平手,但其成本卻遠遠低於o1,大約為其20分之1。在llm-stats.com的各種基準排名中,DeepSeek R1和V3都名列前茅,與OpenAI最新模型相約。
AI的「史普尼克時刻」
對特朗普政府影響甚巨的創科投資者Marc Andreessen早在1月24日就已經在社交媒體上大讚DeepSeek R1是他所見過最讓人印象深刻的突破之一。他也點明,與OpenAI、Google不同,DeepSeek採行Meta的開源路線,不以企業高牆包圍其技術,是「對世界的一份深刻的禮物」。
到27日,Andreessen還稱R1是人工智能的「史普尼克時刻」(Sputnik Moment),就如蘇聯1957年突然成功發射人造衛星史普尼克1號對世界(特別是美國)造成的震撼一般。
特朗普1月21日才剛同OpenAI行政總裁奧爾特曼(Sam Altman)、軟銀行政總裁孫正義以及甲骨文行政總裁艾利森(Larry Ellison)一同宣布投資5000億美元(按:全為私人資本)建設AI基建的「星際之門」(Stargate)計劃,目前已有在德州的10個數據中心在興建當中。「星際之門」的包裝,讓人想起上世紀80年代列根(Ronald Reagan)發起的「星戰計劃」,同蘇聯展開太空軍備競賽--這一次,「星際之門」則是要同中國展開在AI領域的科技競賽。
如今全身投入特朗普陣營的Meta行政總裁朱克伯格(Mark Zuckerberg)也在1月24日宣布2025年將投資600至650億美元到AI項目上,本年內將會把Meta的GPU數量提高到130萬片。
DeepSeek的低訓練成本和高表現水平,似乎一下子就揭穿了這些巨額投資背後的空虛:高量的算力投入並不是AI未來發展的唯一道路。
「星際之門」可能在還未有任何項目落成之前就已經要徹底改變方向。
更為諷刺的是,DeepSeek對於降低訓練成本的執着,很可能是美國的政策迫出來的。拜登上台以來不斷加大對於晶片對華出口的限制,以圖利用美國企業在AI晶片的領導地位從硬件上壓制中國的AI行業發展。
在下台之前幾天,拜登更公布了「人工智能散播框架」(Framework for Artificial Intelligence Diffusion),提出將全球國家或地區分成三組,一是包括美國在內的「AI 19」,不會受到AI晶片的出口管制,二是包括中國、伊朗、俄羅斯、朝鮮在內的受禁制國家,它們幾乎不會被准許獲得先進的AI晶片,三是包括印度、新加坡、波蘭等全球大多數國家在內的國家,他們只能靠「AI 19」國家的企業在嚴格限制之下取得一定數量的AI晶片運算能力。
這可算是赤裸裸地以地緣政治考慮限制全球AI發展的做法,其目標就是要讓美國維持AI唯一主導國的地位,任何其他國家要發展AI也要美國同意。
DeepSeek的AI模型卻從兩個方面打破了拜登AI戰略的基礎假設。首先,在美國的算力限制之下,像DeepSeek這樣的中國企業有極大的誘因去運用最少的晶片算力去達至最大的效能,在訓練上減省成本變成了其生死存亡關鍵,因而就有了這一輪的震撼世界的創新。相較之下,美國企業不受任何限制,而且投資者大舉投身AI,讓他們只知道「做大」,卻忽略了「做強」的方式不一定是「做大」。
其次,拜登AI戰略維持美國主導地位的根本邏輯,就是AI發展的樽頸在於算力,只要能控制全球AI晶片算力的供應,就能控制全球AI發展的走向。DeepSeek的低訓練成本,卻完全打破了這套邏輯。
「人工智能散播框架」有120日諮詢期,其落實與否就要特朗普當局的決定。
OpenAI行政總裁奧爾特曼(Sam Altman)承認DeepSeek R1的成本優勢:
對於DeepSeek的突破,特朗普27日大讚這低成本做法是「正面發展」,指出這已經對美國業界敲響「警鐘」,表明美國企業應該集中全力「以競爭取勝」(competing to win)。
如果特朗普夠聰明的話,他實在應該像他所說一樣將重點放在「競爭」,而非「壓制」對手,放寬拜登AI政策對於晶片出口的管制,造就一個全球公平競爭的環境。
雖然特朗普的「星際之門」宣布還不到一周就讓人有感過時,而拜登的對華晶片管制也似乎造成了反效果,但我們還是不應該高估了DeepSeek模型的AI晶片業界影響。DeepSeek R1的訓練成本確實遠低於對手,但這種低成平卻有助AI更為普及,整體增加對算力的需要,同時推理模型本身整體而言也有更高的算力要求,Nvidia的股價大跌所反映出來的可能是情緒而不是事實。