DeepSeek技術破圈!「回聲一代」領航中國AI挑戰OpenAI霸主地位

請思考,以下兩家公司,哪一家更值得投資:1.全息電視製造商,宣稱將徹底顛覆電視機乃至內容生產業態;2.傳統電視製造商,計劃依託新技術提升現有產品價效比;這道商業思維例題,出自肯尼斯.斯坦利(Kenneth Stanley)和喬.雷曼(Joel Lehman)合著的暢銷書《為什麼偉大不能被計劃》。書中,兩位前OpenAI技術專家反覆強調這樣一個反直覺的論點:過於宏偉的目標往往是成功的絆腳石,利用現實技術機會自由探索,反而可能開啟偉大創新之路。
他們恐怕不會想到,啟發其新思維的OpenAI,有朝一日卻會擺足架勢「計劃偉大」。
1月21日,OpenAI正式官宣星際之門(Stargate)專案,計劃未來四年內斥資5000億美元,在美國本土建設新的人工智能基礎設施,該基礎設施將「確保美國在人工智能領域的領導地位,創造數十萬個美國就業機會,並為全世界帶來巨大的經濟效益……這一新舉措是這條道路(實現AGI)上的關鍵一步,將使富有創造力的人能夠弄清楚如何利用人工智能來提升人類」。
諷刺的是,OpenAI造勢已久的萬億大計,全然沒有激起預計的熱烈反響。
過去一周,在美國力壓OpenAI熱度的,赫然是一家來自中國的小公司—深度求索(DeepSeek)。
任務表現一步追平4o/o1、訓推效率斷崖式領先、沒有千奇百怪的DEI禁忌「對齊」……一個又一個「絕活」,令楊立昆(Yann LeCun)、卡帕西(Andrej Karpathy)等業界領軍人物紛紛變身迷弟,對DeepSeek V3\R1不吝肉麻吹捧,「OpenAI原本該成為的樣子」(Mistral AI曾享有的評價)、「開源大模型全球創新中心已轉移至中國」、「重構大模型商業模式」,更有甚者,在硅谷創投教父馬克.安德森(Marc Andreessen)看來,DeepSeek-R1已堪與特朗普入主白宮並列,成為本世紀20年代最重要一周的兩大里程碑事件。
的確,無論從中國產業界「奮起直追OpenAI」的主體視角,還是從美國產業高地開源閉源之爭的他者視角,橫空出世的DeepSeek,都已被引為終結議題、開啟新章的標誌,註定將在波瀾壯闊的人工智能新浪潮裏,留下自己不可磨滅的印記。
當OpenAI已躊躇滿志開始大手筆塑造產業生態終局,當Google、Anthropic、xAI、Meta等硅谷巨頭還在為坐穩老二的位置苦苦廝殺,當國內大廠在「比OpenAI落後多久」的問題上繼續打磨着阿基里斯悖論式的話術,DeepSeek為什麼能夠成為締造這場開年「技術驚奇」的主角?
過硬的原始創新能力,當然是最直接的答案。
如果說DeepSeekMoE、FP8資料格式和RL後訓練正規化尚且還有着一目了然的借鑒脈絡,那麼MLA和GRPO,則無疑已展現出獨到精妙的洞察,足以成為新正規化的開創者。
以創造大模型成本奇跡的MLA(Multi-head Latent Attention)技術為例,其核心靈感可以歸結為有意用更多的計算量換取更小的KV Cache,進而緩解模型訓練中更為根本的訪存瓶頸。這種對好倉注意力機制大刀闊斧的深度改造,足以證明DeepSeek團隊演演算法與工程基因的深度交融,從而大有別於對TensorFlow或PyTorch底層技術實現機制毫無興趣的所謂「演演算法工程師」,獲得全域最佳化的新視角。
然而與某種或許會順理成章被喚起的想像不同,DeepSeek這支團隊相比其他國內大廠和「小龍」,用「寒酸」和「土氣」來形容也不為過。論資金投入,母公司幻方量化的研發預算加上「每年幾個億」可供機動的捐款,與某幾家國內頭部大廠相比有着一到兩個數量級的懸殊差距;論人才儲備,與動輒清北博士做底,硅谷回國專家領銜的豪華陣容相比,DeepSeek團隊在V2模型之前甚至沒有一個「海歸」,創始人梁文鋒坦言,團隊「並沒有什麼高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人」。
以MLA核心貢獻者高華佐為例,其最高學歷「僅僅」是北大本科,2017年畢業後輾轉曠視科技等多家國內「中小廠」,如果沒有DeepSeek橫空出世,這樣的人才畫像在中國可以說成千上萬。
因此,在產品與技術之上,一個更有意義的追問或許是,為什麼DeepSeek能夠憑藉算不上出挑的資金和人才儲備,迸發如此強烈的「化學反應」?
創始人梁文鋒所注入的「企業家精神」,無疑是一個至關重要的變數。
以幻方投資所切入的基本面量化策略研究為起點,從2015年的百卡集群、2019年的千卡集群,到當下的萬卡集群,梁文鋒的自我驅動力並非來自商業上的理由,正如其在有限的兩次專訪中所坦言:「幻方的主要班底裏,很多人是做人工智能的。當時我們嘗試了很多場景,最終切入了足夠複雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎麼做的問題,而不是為什麼做的問題……如果一定要找一個商業上的理由,它可能是找不到的,因為划不來。從商業角度來講,基礎研究就是投入回報比很低的。OpenAI早期投資人投錢時,想的一定不是我要拿回多少回報,而是真的想做這個事……很多人會以為這裏邊有一個不為人知的商業邏輯,但其實,主要是好奇心驅動……對AI能力邊界的好奇」。
這種超脱於商業結果的熱情或者說品味,也體現在他對DeepSeek技術團隊的招募和管理,梁文鋒談到,自己選人的標準「一直都是熱愛和好奇心……很多人對做研究的渴望,遠超對錢的在意」,對這些氣味相投的「技術宅」,梁文鋒也給予了充分的信任,以身作則塑造了一整套獨特的組織文化,「DeepSeek也全是自下而上。而且我們一般不前置分工,而是自然分工。每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他。探索過程中,他遇到問題,自己就會拉人討論。不過當一個idea顯示出潛力,我們也會自上而下地去調配資源……我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以呼叫訓練集群的卡無需審批。同時因為不存在層級和跨部門,也可以靈活呼叫所有人,只要對方也有興趣……交給他重要的事,並且不干預他。讓他自己想辦法,自己發揮……我們的總結是,創新需要盡可能少的干預和管理,讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的,不是刻意安排的,更不是教出來的」。
相比之下,絕大多數中國大模型從業者,在這一輪人工智能新浪潮裏的「姿勢」,還或多或少帶着舊日的慣性,在短期商業目標和組織內不同層級利益取向的互動下,往往殊途同歸收斂為同一種行為模式:基於開源模型和公開文獻快速復刻歐美原始創新,在底層技術拿來主義的基礎上,將主要精力聚焦於應用端儘快取得商業結果。恰如梁文鋒所辛辣點評的:「過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然……我們認為隨着經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年IT浪潮裏,我們基本沒有參與到真正的技術創新裏。我們已經習慣摩爾定律從天而降,躺在家裏18個月就會出來更好的硬體和軟件。Scaling Law也在被如此對待。」
好在,後浪奔湧。
梁文鋒的徹底與純粹,以及這種新聲音在輿論場上更強的反響,正是80後「回聲一代」企業家崛起的縮影。
如果讀者稍加回想,不難發現這樣一個顯見的趨勢:梁文鋒、馮驥等新一代創業者,在思維與表達上,都有着與上一代「92派」企業家截然不同的格調,而有趣的是,他們也都是出生於1981到1990年的新中國第三次人口增長高峰,或者說,屬於「回聲嬰兒潮」世代。
細看這一代企業家,如果說黃崢、張一鳴、許仰天等先行者還自覺或不自覺的因循着上一代企業家對中國與世界的觀念,那麼梁文鋒、馮驥等後來者,則表現出明顯更強的表達欲,這背後,是對外部世界從仰視到平視的深刻變化。
馬克安德森的評語,恰是與美國贏學敘事的兩次衝擊,正如拜登團隊所營造的自由主義國際同盟勢頭,已如同一張畫紙般被特朗普輕易戳破,讓美國再次偉大所需要的是形似還是神似,特朗普顯然已摩拳擦掌選擇後者,而作為美利堅贏學在過去數年着力經營的標誌,美國朝野為呵護其原始創新能力道成肉身的OpenAI可謂不遺餘力,但DeepSeek同樣讓這重重高牆一夜之間變得形同雞肋。
為興趣而活,「不務正業」,脱離了肉體生存焦慮的回聲一代後來者們,在中國商界的地平線上正批次湧現,機器人、跑車、超音速飛機,他們正重寫中國創新正規化,這一億多在各行各業走向社會中堅的人群裏,一定還會湧現更多、更精彩的創新故事。
最後,梁文鋒的一句展望恰可作結:「以後硬核創新會越來越多。現在可能還不容易被理解,是因為整個社會群體需要被事實教育。當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程」。
這一堆事實的展現,已在加速。
本文獲《觀察者網》授權刊載。