AI 大模型與 Web3 如何共生?
大模型作為人類歷史上普及速度最快的高科技吸引了所有人的注意力,昨日黃花的 web3 在法律上越來越受到了挑戰。但是作為完全不同的技術,兩者之間不存在任何的替代關係。萬物島「AI+Crypto Studio」主理人 -- 田鴻飛老師,將與大家共同探討大模型發展中遇到的問題,以及 web3 領域中的企業如何致力於解決這些問題。
大模型行業問題以及如何結合 Web3 來解決問題
眾所周知,2015 年之後網路行業進入了寡頭壟斷階段,全球各國都對平台公司進行了反壟斷審查。大模型的產生進一步加劇了寡頭的壟斷地位。大模型包括算法、算力和數據:
在算法領域,雖然存在一定程度的壟斷,但是由於開源力量和研究大學的對抗,以及人們對於寡頭的不信任,所以算法在很大程度上可以保持開放;
在算力方面,由於大模型的訓練成本極高,算力只有大企業才能負擔,所以這本質上導致了算法的生產完全被大企業控制;
在數據方面,雖然大模型的訓練依靠的是公開數據,但是根據大模型的參數增長,公開數據很快將會耗盡,因此大模型的繼續增長依賴於私有數據。雖然數量眾多的小企業擁有的絕對數據量巨大,但是孤立存在難以利用,因此大企業仍然對數據具有壟斷優勢。
因此,大模型時代的中心化控制比以前更強,未來的世界很可能會被少數幾台甚至一台計算機控制。(即便在去中心化的 Web3 世界,Vitalik 建議的以太坊的 End Game 將會由一台巨大的出塊機來運行。)
另外,開發 ChatGPT 的 OpenAI 公司的核心人員僅僅 20 餘人。基於各種原因,ChatGPT 的算法至今沒有開源,原來基於非盈利的企業性質變更為有限盈利。隨着依賴於 ChatGPT 的各種應用改變了人類生活,ChatGPT 模型的一些修改將會極大的影響人類,相對於 Google 的不作惡原則,ChatGPT 對人們的影響更加深入。
因此,模型的計算可信性將會成為重要議題。雖然 OpenAI 可以作為非盈利,但是權力被少數人控制仍然會產生很多不利後果。(對比之下,Vitalik 建議的以太坊 End Game 雖然由一台機器出塊,但是將通過公眾非常容易的驗證來維持透明性。)
同時對於大模型行業現在還存在:算力短缺,可用的訓練數據即將消耗完,以及模型的共享等問題。根據統計,在 2021 年之前,人工智能行業的問題是缺乏數據,所有深度學習公司都在尋找垂直行業的數據;而在大模型之後,缺乏算力成為障礙。
大模型開發分為幾個階段:收集數據、數據預處理、模型訓練、模型微調、部署查詢推理。從這幾個階段,先簡述下區塊鏈對大模型的貢獻,以及如何對抗大模型集中度過高的危害。
在數據方面,由於公開數據在 2030 年之後將被消耗完,更有價值更大數量的私有數據需要通過區塊鏈技術保護隱私的前提下被利用;
1.在數據標註方面,可以通過代幣激勵更大規模的標註和核查數據;
2.在模型訓練階段,通過模型分享,協作訓練來實現算力共享;
3.在模型微調階段,可以通過代幣激勵社區的參與;
4.在用戶查詢推理計算階段,區塊鏈可以保護用戶數據隱私。
具體而言:
1)稀缺的算力
算力是大模型的必要生產要素,而且是如今最貴的生產要素,以至於剛剛融資的創業公司不得不將 80% 的資金轉手就交給 NVIDIA 購買 GPU。自己生產大模型的公司不得不至少花費 5000 萬美金自建數據中心,而小型創業公司不得不購買昂貴的雲計算服務。
但是,短時間的大模型熱度以及大模型本身對於計算資源的巨量消耗,已經大幅度超過了 NVIDIA 的供應能力。據統計,大模型對算力的需求每幾個月就翻番,2012 到 2018 年期間,算力需求增加了 30 萬倍,大模型計算的成本每年就增加 31 倍。
對於中國的網路企業,還不得不面對美國對於高端 GPU 的禁運。可以說,鉅額的訓練成本是大模型技術被少數人控制的核心原因。
那麼如何通過區塊鏈化解大模型算力問題?
考慮大模型的生產主要分為大模型訓練、微調訓練(fine tuning)和用戶查詢推理計算。雖然大模型以訓練費用昂貴著稱,但是大模型一個版本只需要生成一次。大多數時間,對於大模型服務用戶,只需要推理計算。根據 AWS 的統計也證實了這一點,80% 的算力實際消耗在了推理計算。
雖然大模型的訓練需要 GPU 之間的高速通信能力,無法在網絡上完成(除非選擇用時間延長換取低成本)。但是推理計算可以在單個 GPU 上完成。微調訓練(fine tuning)是因為基於已經生成的大模型,賦予專業數據,因此需要的計算資源相對於大模型訓練也要少很多。
在圖形渲染方面,顯然消費者 GPU 的性能要好於企業 GPU,而且大多數時間在空閒。自從 1999 年加州伯克利大學發起尋找外星人的 SETI,以及 2000 年流行的 Grid Computing 就已開始,有一些技術架構是利用空閒的計算資源協作共同完成一些巨量計算任務。在區塊鏈產生之前,這些協作通常集中於科學任務,依賴參與者的熱情和公益參與,限制了影響範圍。現在利用區塊鏈技術,可以通過代幣激勵其大範圍的應用。
正如去中心化的雲計算項目 Akash,建立了一個通用計算網絡,使用者可以部署機器學習模型用來推理計算以及渲染圖片。還有 Bittensor、Modulus Lab、Giza、ChainML 等區塊鏈結合 AI 的項目都針對查詢推理計算。
而區塊鏈 AI 計算協議 Gensyn 和開源生成式 AI 平台 Together 立志建立一個為大模型訓練服務的去中心化計算網絡。
挑戰:對於去中心化的計算網絡,難處不僅僅在於低速不可靠的通信網絡,計算狀態無法同步,處理多種類型的 GPU 類型計算環境,還要處理經濟激勵,參與者作弊,工作量證明,安全,隱私保護,以及反垃圾攻擊等問題。
2)稀缺的數據以及數據校正
大模型的核心算法 Reinforcement Learning from Human Feedback(RLHF) 需要人的參與微調訓練,糾正錯誤、消除偏見和有害訊息。OpenAI 利用 RLHF 微調 GPT3 生成了 ChatGPT,這個過程中 OpenAI 從 Facebook 的 Group 中尋找專家,支付每小時 2 美元給肯尼亞勞工。優化訓練通常需要人類專家參與專業領域的數據,而其實現完全可以與通過代幣激勵社區參與的方式來結合。
Decentralized Physical Infrastructure Networks (DePINs) 行業通過代幣激勵人們按照感應器,共享來自物理世界的真實的、實時的數據,用以各種模型訓練。包括:React 收集能源使用數據、DIMO 收集車輛行駛數據、WeatherXM 收集天氣數據,Hivemapper 通過代幣激勵收集地圖數據,激勵人們對交通標誌進行標註,幫助其 RLHF 的機器學習算法提高精確度。
同時隨着大模型參數的增加,現存的公開數據將在 2030 年耗盡,大模型的繼續進步將不得不依賴私有數據。私有數據的數量是公有數據的 10 倍,但是分散在企業和個人的手裏,並且具有隱私和保密性質,難以被利用。產生了雙難問題,一方面大模型需要數據,可有數據的一方雖然需要大模型,但是不希望將數據交給大模型使用。 這個雙難問題同樣可以通過區塊鏈領域的技術來解決。
對於開源的推理模型,因為所需計算資源少,可以將模型下載到數據段來執行;對於不公開的模型或者大模型,需要將數據脱敏處理後上傳給模型端。脱敏處理的方法包括合成數據和零知識證明。
不管是模型下載到數據端,還是數據上傳到模型端,都需要解決權威性問題,防止模型或者數據作弊。
挑戰:雖然 Web3 的代幣激勵可以協助解決這個問題,但是需要解決作弊的問題。
3)模型協作
在全球最大的 AI 繪畫模型分享平台—Civitai 社區,人們共享模型,可以輕鬆地拷貝一個模型並且加以修改後生成符合自己要求的模型。
開源 AI 新秀、雙共識區塊鏈項目 Bittensor 設計了一套代幣激勵去中心化的模型,基於 mixture of experts 協作機制,共同產出一個解決問題的模型,並且支持 knowledge distillation,模型之間可以分享訊息,加速訓練,這為眾多的創業公司提供了參與大模型的機會。
而作為自動化、預言機與共有 AI 等鏈下服務的統一網絡,Autonolas 設計了 Agent 與 Agent 之間通過 Tendermint 來達成共識的協作框架。
挑戰:很多模型的訓練仍然需要大量的通信,分佈式訓練的可靠性和時間效率仍然是個巨大障礙;
大模型和 Web3 的創新型結合
上面論述瞭如何利用 Web3 解決大模型行業中存在的一些問題。兩個重要力量的結合,將會產生一些創新性應用。
1)利用 ChatGPT 編寫智能合約
最近一個 NFT 的藝術家在沒有任何編程知識的前提下,利用 prompt 操作 ChatGPT 發布了自己的智能合約,發行了代幣 Turboner,這位藝術家用 YouTube 記錄了自己一個星期的創造過程,激發了大家利用 ChatGPT 參與智能合約創作。
2)加密支付賦能智能管理
大模型的發展極大提高了智能助理的智能性,結合加密支付,智能助理將能夠在智能助理市場上協調更多的資源,協作完成更多的任務。AutoGPT 展示了依賴於用戶提供的信用卡,他可以幫助用戶自動購買雲計算資源和訂機票,但是受限於自動登錄或者其他安全認證,AutoGPT 的能力受到了極大限制。包括 Contract Net Protocol 在內的 Multi Agent System(MAS)設計包括了多個智能助理在開放市場上的協作,如果在代幣的支持下,這樣的協作就會突破基於信任的有限協作,成為更大規模的基於市場經濟的協作,就像人類社會從原始社會進入貨幣社會。
3)zkML(Zero Knowledge Machine Learning)
zkp(Zero Knowledge Proof) 技術在區塊鏈方面的應用分為兩類,一類是解決區塊鏈的性能,通過將計算需求轉移到鏈下,然後通過 zkp 到鏈上認證;第二類是用來保護交易隱私。zkp 在大模型方面的應用包括模型可信計算(證明模型計算的一致性和真實性)和訓練數據的隱私計算。在去中心化的環境中,模型的服務提供方需要向客戶證明銷售的模型是向客戶承諾的模型,沒有偷工減料;對於訓練數據的合作方,需要在保護自己隱私的前提下參與訓練或者使用模型。雖然 zkp 提供了一些可能性,但是仍然存在很多挑戰,同態計算和聯邦隱私計算等解決方案仍然不成熟。
基於 BEC(Blockchain Edge Client) 架構的解決方案
除了以上的流派之外,還有一個流派由於沒有代幣激勵以及採用極簡區塊鏈應用,因此沒有受到廣泛關注。
基於 BEC 的架構在很多方面和 Jack Dorsey 提到的 Web5 的概念,以及 Tim Berners-Lee 的 Solid 有很多相似之處。
他們都認為:
每個人都有一個相對應的控制的邊緣節點;
絕大多數應用場景的計算和存儲都應該放在邊緣節點處理;
個人節點與個人節點之間的協作通過區塊鏈來完成;
節點與節點之間的通信通過 P2P 完成;
個人可以單獨完全控制自己的節點或者委託信任的人委託管理節點(在有些場景下被稱為 relay server);
實現了最大可能的去中心化;
當這個與每個人對應的,由個人控制的節點存儲了個人數據,加載了大模型,就可以訓練出來完全個性化的,100% 隱私保護的個人智能代理(Agent),SIG 的中國創始合夥人龔挺博士浪漫的比喻未來的個人節點為《冰雪奇緣》裏面雪寶頭頂那朵一直跟隨的個人雲。
這樣,現在元宇宙裏面的 Avatar 將不再是鍵盤控制的形象,而是擁有了靈魂的 agent,他可以代替我們 24 小時不間斷的學習網絡新聞,處理郵件,甚至可以自動回覆你的社交聊天訊息(絮絮叨叨的女朋友注意了,以後可能需要一種手段檢測自己的男朋友是不是在利用 agent 敷衍自己)。當你的 agent 需要新的技能的時候,就像手機安裝 app 一樣,你可以在自己的節點裏面安裝新的 app。
總結
歷史上,伴隨着網路發展的不斷平台化,雖然誕生獨角獸企業的時間越來越短,但是本質上對於創業企業的發展卻越來越不利。
伴隨着 Google 和 Facebook 提供的高效內容分發平台,誕生於 2005 年的 Youtube 僅僅一年之後就被 Google 以 16 億美金收購;
伴隨着蘋果應用商店的高效應用程序分發平台,成立於 2012 年的 Instagram 僅僅由 10 多人組成,於 2012 年被 Facebook 以 10 億美金收購;
在 ChatGPT 大模型的支持下,僅僅有 11 人的 Midjourney 就一年賺了一億美金。而僅僅有不超過 100 人的 OpenAI 估值超過 200 億美金。
網路平台公司越來越強大,大模型的產生並沒有改變現有的網路被大型企業壟斷的格局。大模型的三要素,算法,數據和算力仍然被大企業壟斷,創業公司沒有能力創新大模型和沒有資金實力訓練大模型,只能集中在基於大模型對於垂直領域的應用。雖然大模型貌似促進了知識的普及,但是真正的力量被控制在全球不超過 100 人有生產模型能力的人手裏。
如果未來大模型滲透到人生活的各個方面,你詢問 ChatGPT 你的日常飲食,你的健康狀況,你的工作郵件,你的律師函,那麼理論上掌握大模型這些人只需要偷偷改動一些參數,就能極大的影響無數人的生活。大模型讓一部分失業也許可以通過 UBI 或者 Worldcoin 解決,但是大模型被少數人控制產生的作惡可能性的後果更加嚴重。這是 OpenAI 建立的初心,OpenAI 雖然通過非盈利的辦法解決了盈利驅動的問題,但是如何解決權力驅動的問題呢?顯然,大模型利用人類數十年積累的免費分享在網路上面的知識快速訓練了知識模型,但是這個模型卻被控制在極少數人手裏。
所以說,大模型和區塊鏈在價值觀方面有着巨大的衝突。區塊鏈從業人員需要參與到大模型創業,用區塊鏈技術解決大模型的問題。如果網路上免費可得的巨量數據是人類共同所有的知識,那麼依靠這些數據生成的大模型應該屬於整個人類。就像最近 OpenAI 開始對文獻數據庫支付費用一樣,OpenAI 一樣需要對你我奉獻的個人博客支付費用。
本文獲得《AI 大模型與 Web3 如何共生?》授權轉載,作者: 田鴻飛,萬物島「AI+Crypto Studio」主理人