AI 能否在加密世界生存:18 個大模型的加密試驗

AI 能否在加密世界生存:18 個大模型的加密試驗
撰文:Techub News
出版:更新:

在技術進步的編年史上,革命性技術往往獨立出現,各自引領一個時代的變革。而當兩股革命性技術相遇,它們的碰撞往往會產生指數級的影響。如今,我們正站在這樣一個歷史性時刻:人工智能與加密技術,這兩種同樣具備顛覆性的新技術,正攜手步入舞台中央。

我們暢想 AI 領域的諸多挑戰能夠被加密技術所解決;我們期待 AI Agent 構建自主經濟網絡,推動加密技術的大規模採用;我們也盼望 AI 能加速加密領域現有場景的發展。無數目光聚焦於此,海量資金瘋狂湧入,就如任何 buzzword 一樣,它凝聚了人們對創新的渴望、對未來的憧憬,也包含了難以抑制的野心與貪慾。

然而在這一片喧囂中,我們卻對最基本的問題知之甚少。AI 究竟有多懂加密領域?配備了大語言模型的 Agent 是否具備運用加密工具的實際能力?不同的模型在加密任務上的差異有多大?

這些問題的答案將決定 AI 和加密技術的相互影響力,也對這個交叉領域的產品方向和技術路線選擇至關重要。為了探究這些問題,我做了一些大語言模型的評估實驗。通過評估它們在加密領域的知識和能力,衡量 AI 的加密應用水平,判斷 AI 與加密技術融合的潛力和挑戰。

先説結論

大語言模型在密碼學和區塊鏈基礎知識方面表現卓越,對加密生態非常瞭解,但在數學計算和複雜業務邏輯分析上表現很差。在私鑰和基本錢包操作方面,模型有着令人滿意的基礎,但面臨如何雲端保管私鑰的嚴峻挑戰。很多模型能夠生成簡單場景的有效智能合約代碼,但無法獨立執行合約審計、複雜合約創建等高難度的工作。

商業閉源模型總體有較大領先,開源陣營中僅 Llama 3.1-405B 表現突出,而參數規模較小的開源模型全體不及格。然而潛力是有的,通過提示詞引導、思維鏈推理和少樣本學習技術,所有模型的表現都得到了大幅提升,領先的模型在一些垂直應用場景已經具備了較強的技術可行性。

實驗細節

選擇了 18 個具備代表性的語言模型作為評估對象,包括:

閉源模型:GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta( 暫時閉源 )

開源模型:Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R

數學優化模型:Qwen2-math-72B、MathΣtral

這些模型涵蓋了主流商業和流行開源模型,參數量從 3.8B 到 405B 有百倍以上的跨度。考慮到加密技術與數學的密切關係,實驗還特別選擇了兩個數學優化模型。

而實驗覆蓋的知識領域包括密碼學、區塊鏈基礎、私鑰與錢包操作、智能合約、DAO 與治理、共識和經濟模型、Dapp/DeFi/NFT、鏈上數據分析等。每個領域都由一系列由易到難的問題和任務組成,不僅測試模型的知識儲備,也通過模擬任務測試其在應用場景中的表現。

任務的設計來源多樣化,一部分來自加密領域多位專家的輸入,另一部分由 AI 輔助生成,並經過人工校對,以確保任務的準確性和挑戰性。其中一部分任務使用了形式較為簡單的選擇題,方便單獨進行標準化的自動化測試和評分。而另一部分試驗採用更加複雜的題目形式,測試過程則由程序自動化 + 人工 +AI 結合的方式進行。所有測試任務均採用了零樣本推理方法進行評估,不提供任何示例、思維引導或者指令型提示。

由於實驗本身設計的還比較粗糙,並不具備足夠的學術嚴謹性,用來測試的問題和任務遠遠無法全面覆蓋加密領域,測試框架也並不成熟。因此本文並不列舉具體的實驗數據,而是側重分享一些實驗中的洞察。

知識 / 概念

在評估過程中,大語言模型在加密算法、區塊鏈基礎知識和 DeFi 應用等各領域的基礎知識測試中表現出色。例如在考察對數據可用性概念理解的問答題中,所有模型均給出了準確答案。而評估模型對以太坊交易結構的掌握程度的題目,儘管各模型在回答細節上略有差異,但總體上都包含了正確的關鍵信息。考察概念的選擇題則更是沒有難度,幾乎所有模型的正確率都在 95% 以上。

概念性問答完全難不住大模型。

計算 / 業務邏輯

然而當涉及需要進行具體計算的題目時情況就倒了過來。一道簡單的 RSA 算法計算題就讓絕大多數模型陷入困難。這其實不難理解:大語言模型主要通過識別和複製訓練數據中的模式來運作,而非通過深入理解數學概念的本質。這種侷限性在處理抽象數學概念如模運算、指數運算時尤為明顯。鑑於加密領域與數學緊密相關,這意味着直接依賴模型進行加密相關的數學計算是不可靠的。

在其他計算題目中,大語言模型的表現同樣不盡如人意。例如計算 AMM 無常損失的簡單題目,儘管不涉及複雜數學運算,但 18 個模型中僅有 4 個給出了正確答案。而另一道更為基礎的計算出塊概率題目,竟然所有模型全部答錯了。竟然難倒了所有模型,無一算對。這不僅暴露了大語言模型在精確計算方面的不足,也反映出它們在業務邏輯分析上存在較大問題。值得注意的是,即便是數學優化模型,在計算類題目中也未能展現出明顯優勢,其表現令人失望。

然而,數學計算的問題並非無解。如果我們稍作調整,要求 LLMs 給出相應的 Python 代碼而非直接計算結果,正確率就會大幅提高。以前述 RSA 計算題為例,大部分模型給出的 Python 代碼都能順利執行並得出正確結果。在實際生產環境中,更可以通過提供預設的算法代碼來繞過 LLMs 自行運算的環節,這與人類在面對此類任務時的處理方式相似。而在業務邏輯層面,通過精心設計的提示詞引導,也可以有效改善模型的表現。

私鑰管理和錢包操作

如果問 Agent 採用加密貨幣的第一個場景是什麼,我的答案是支付。加密貨幣幾乎可以被視為 AI 原生的貨幣形式。相較於 Agent 在傳統金融體系中面臨的諸多障礙,利用加密技術為自身配備數字身份並通過加密錢包管理資金,是一個再自然不過的選擇。因此,私鑰的生成和管理、錢包的各類操作,構成了 Agent 能否自主使用加密網絡的最基本技能要求。

安全生成私鑰的核心在於高質量的隨機數,這顯然是大語言模型並不具備的能力。不過模型對私鑰安全的認知是充分的,在被要求生成私鑰時,絕大多數模型都選擇利用代碼(如 Python 的相關庫)來引導用户自主生成私鑰。即便有模型直接給出了私鑰,也明確聲明這僅用於演示目的,並非可直接使用的安全私鑰。在這方面,所有大模型都展現出了令人滿意的表現。

私鑰管理則面臨着一些挑戰,這主要源於技術架構的固有限制,而非模型能力的不足。使用本地部署的模型時,生成的私鑰可被視為相對安全。然而如果使用的是商業雲端模型,我們必須假設私鑰在生成的瞬間就已經暴露給了模型的運營方。但對於目標為獨立工作的 Agent,具備私鑰權限是必須的,這意味着私鑰不能只在用户本地。在這種情況下,僅依靠模型本身已不足以確保私鑰的安全性,需要引入可信執行環境或 HSM 等額外的安全服務。

如果假設 Agent 已經安全地持有私鑰,在此基礎上進行各類基本操作時,測試中的各種模型都表現出了良好的能力。雖然產出的步驟和代碼常常存在錯誤,但在合適的工程架構下,這些問題在很大程度上是可以解決的。可以説從技術層面來看,讓 Agent 自主進行基礎的錢包操作已經不存在太多障礙。

智能合約

智能合約的理解、利用、編寫和風險識別能力是 AI Agent 在鏈上世界執行復雜任務的關鍵,因此也是實驗的重點測試領域。大語言模型在這一領域展現出顯著潛力,但同時也暴露了一些明顯問題。

在測試中幾乎所有模型都能正確回答基礎合約概念,識別簡單的 bug。在合約 gas 優化方面,大多數模型能夠識別關鍵優化點,並分析優化可能帶來的衝突。然而,當涉及深層業務邏輯時,大模型的侷限性開始顯現。

以一個 token vesting 合約為例:所有模型都正確理解了合約功能,大部分模型找出了幾個中低風險漏洞。但是,對於一個隱藏在業務邏輯中、可能在特殊情況下導致部分資金被鎖死的高風險漏洞,沒有任何模型能夠自主發現。在多個使用真實合約的測試中,模型的表現都大致相同。

這表明大模型對合約的理解仍停留在形式層面,缺乏對深層業務邏輯的理解。不過,在提供額外提示後,部分模型最終能夠獨立找出上述合約中隱藏較深的漏洞。基於這一表現判斷,在良好的工程設計支持下,大模型已基本具備在智能合約領域擔任 co-pilot 的能力。然而要獨立承擔合約審計等重要工作,仍有很長的路要走。

有一點需要説明,實驗中代碼相關的任務主要針對邏輯簡單、代碼量在 2000 行以內的合約。對於更大規模的複雜項目,在不進行微調或複雜提示詞工程的情況下,我認為明顯超出了當前模型的有效處理能力範圍,並未列入測試。此外,本次測試僅涉及 Solidity,未包括 Rust、Move 等其他智能合約語言。

除了上述測試內容,實驗還涵蓋包括 DeFi 場景、DAO 及其治理、鏈上數據分析、共識機制設計以及 Tokenomics 等多個方面。大語言模型在這些方面均展現出了一定的能力。鑑於許多測試仍在進行中,且測試方法和框架正在不斷優化,本文暫不對這些領域進行深入探討。

模型的差異

在所有參與評測的大語言模型中,GPT-4o 和 Claude 3.5 Sonnet 延續了它們在其他領域的卓越表現,是毫無爭議的領先者。面對基礎問題時,這兩個模型幾乎都能給出準確答案;在複雜場景分析中,它們更是能夠提供深入且論據充分的見解。甚至在大模型不擅長的計算類任務裏也展現出了高勝率,當然這種「高」成功率是相對而言的,仍未達到在生產環境中穩定輸出的水平。

在開源模型陣營中,Llama 3.1-405B 得益於其龐大的參數規模和先進的模型算法,遙遙領先於同類。在其他參數規模較小的開源模型中,各模型間並未呈現顯著的性能差距。儘管得分高低略有不同,但整體都離及格線很遠。

因此如果當前要構建加密相關的 AI 應用,這些中小參數量的模型不是合適的選擇。

在我們的評測中,有兩個模型特別引人注目。首先是微軟推出的 Phi-3 3.8B 模型,它是本次參與實驗的最小模型,然而它以不到一半的參數量就達到了與 8B-12B 模型相當的性能水平,在某些特定類別的問題上甚至表現更為出色。這一結果凸顯了模型架構優化和訓練策略的重要性,而不僅僅是依賴於參數規模的增加。

而 Cohere 公司的 Command-R 模型成為了一匹令人意外的「黑馬」——反向的。Command-R 相對其他模型名氣不那麼大,但是 Cohere 是專注 2B 市場的大模型公司,我認為和 Agent 開發等領域還是有相當多的契合點,因此特意列入測試範圍。但擁有 35B 參數的 Command-R 卻在大多數測試中墊底,不敵許多 10B 以下的模型。

這一結果引發了思考:Command-R 在發佈時主打的是檢索增強生成能力,甚至都沒公佈常規的基準測試成績。這是否意味着它是一把「專用鑰匙」,只在特定場景下才能開啓全部潛力?

實驗限制

在這一系列測試中,我們對 AI 在加密領域的能力有了初步的瞭解。當然這些測試還遠未達到專業水準。數據集的覆蓋範圍遠遠不夠,答案的量化標準相對粗略,尚缺乏精細且更為準確的評分機制,這都會影響評估結果的精確度,不排除會導致某些模型表現被低估。

在測試方法上實驗僅採用了零樣本學習(zero-shot learning)的單一方式,並未探索思維鏈條,少樣本學習等能啓發模型更大潛力的方式。而在模型參數上,實驗均採用了標準模型參數,並未考察不同參數設置對模型表現的影響。這些總體單一的測試方法限制了我們對模型潛力的全面評估,也未能充分挖掘模型在特定條件下的性能差異。

儘管測試條件相對簡陋,這些實驗依然產生了不少有價值的見解,為開發者構建應用提供了參考。

加密領域需要自己的 Benchmark

在 AI 領域,基準(benchmark)扮演着關鍵角色。現代深度學習技術的快速發展就源於李飛飛教授於 2012 年完成的 ImageNET,這正是一個計算機視覺領域的標準化基準和數據集。

通過提供統一的評估標準,基準不僅為開發者提供清晰的目標和參考點,還推動了整個行業的技術進步。這解釋了為什麼每個新發布的大語言模型都會重點公佈其在各種基準測試上的成績。這些結果成為了模型能力的「通用語言」,使研究者能夠定位突破口,開發者可以選擇最適合特定任務的模型,而用户則能夠基於客觀數據做出明智選擇。更重要的是,基準測試往往預示着 AI 應用的未來方向,引導資源投入和研究焦點。

如果我們相信 AI 與加密技術的交叉領域藴含巨大潛力,那麼建立專門的加密領域基準測試就成為一項迫切的任務。基準測試的建立可能成為連接 AI 與加密兩大領域的關鍵橋樑,催化創新,併為未來應用提供清晰指引。

不過與其他領域的成熟 benchmark 相比,構建加密領域的基準測試面臨獨特挑戰:加密技術快速演進,行業知識體系尚未固化,多個核心方向缺乏共識。作為跨學科領域,加密涵蓋密碼學、分佈式系統、經濟學等,複雜度遠超單一領域。更具挑戰性的是,加密基準不僅需評估知識,還需考察 AI 運用加密技術的實際操作能力,這要求設計全新的評估架構。而相關數據集的匱乏進一步增加了難度。

這項任務的複雜性和重要性決定了它無法由單一個人或團隊完成。它需要彙集從用户、開發者、密碼學專家、加密研究者到更多跨學科領域人士的多方智慧,依賴廣泛的社區參與和共識。也因此,加密基準需要更廣泛的討論,因為這不僅是一項技術工作,更是對我們如何理解這一新興技術的深刻反思。

後記:聊到這裏,話題還遠沒有結束。在接下來的文章中,我將深入探討構建加密領域 AI 基準的具體思路和挑戰。實驗目前也還在進行,正在不斷優化測試模型、豐富數據集、完善評測框架,並改進自動化測試工程。秉持開放協作的理念,未來所有相關資源——包括數據集、實驗結果、評測框架和自動化測試代碼都會作為公共資源開源。

本文獲得《AI 能否在加密世界生存:18 個大模型的加密試驗》授權轉載,作者:王超

正在加載