律政思|超越法官與律師?法律人工智能背後的迷思和除魅

撰文:01論壇
出版:更新:

來稿作者:鄧凱

圍繞人工智能與法律及其業界關係的探索展開,2024年無疑是香港科技法律和法律科技的「大年」。1月,香港律師會代表法律實務界別率先表態,以發布立場文件的形式申明應對技術變革的行動綱領。7月初,特區政府推動公眾諮詢,就《版權條例》如何保障人工智能技術發展研究立法修訂。同月底,司法機構政務處公布司法人員使用生成式人工智能的一般規則和基本原則,司法界採取何等價值立場與技術趨勢進行妥當相處就此明確。立法、司法以及法律服務界「三箭齊發」,共同構築起香港「科技-法律」關係持續演化的制度框架,故而值得嚴謹剖析。本系列文分上中下三個篇章,上篇着重人工智能立法及其背後的法理探討,特別是在香港《版權條例》修訂的知識產權語境之中如何演繹;中篇即本文聚焦法律人工智能,旨在通過解構法律人工智能的核心原理,為理性思辨大語言模型能否真正適配法律實務提供一個觀察框架;下篇的任務則繼續回歸新一代法律科技賦能法律行業的應用潛力,並試圖闡明其對香港普通法法治的意義。

從法律科技「狂歡」到幻象背後的技術真相

如果說本系列文的上篇側重在展現現行法律制度——特別是版權法——對人工智能技術的規制或稱「馴服」,那麼中篇和下篇則更多地關注大語言模型是如何應用、嵌入甚至塑造法律實務流程。「法律實務」於此,包括但不限於立法實踐、司法審判以及法律服務等。本人日常身兼研究者與實務者的雙重角色(當然也無需刻意做這樣的二元劃分),本文之寫作對於筆者而言更接近於一次釐清困惑的自我釋疑,即:大語言模型的超級能力,尤其是法律人工智能在執行法律任務中表現出的卓越性能,會否真正成為法律實務者的「夢魘」,並引發一場顛覆性的法律科技革命?

一般認為,法律業是一個相對保守且由傳統精英把持的有限封閉領域,然而在新科技的作用下,用「繁榮」、「劇烈」甚至略帶一絲「狂熱」來形容這個行業在過去兩年的變化與進展卻並不誇張。初步梳理,代表性事件主要有四(類):

第一,去年年初發布的ChatGPT-4在律師資格模擬考(LSAT)中贏取了超過九成的人類應試者,其不僅能輕鬆應試客觀選擇題(MBE)與簡單題(MEE),更可熟練運用法條在給定的實踐情境與事實關係內通過主觀能力測試(MPT)。基於如此神速的技術進化,Forrester同年也發布預測榜單,聲稱法律行業高居受大模型影響的行業之首。

其次,人工智能技術的「圍剿」還表現在法律科技市場規模的劇增。這兩年來,包括Harvey在內的多家法律人工智能公司相繼獲得高額投資,資本樂觀看待法律與技術疊加的市場前景。據不完全統計,近兩年來(截至2024年11月)全球法律科技市場共發生了150餘起融資事件,而且大多數與人工智能有關。就連OpenAI首席執行官奧特曼(Sam Altman)在接受訪問時也坦言,如果現在創辦一家新公司,他會選擇開發諸如「AI律師」等垂類應用。

第三,除資本青睞之外,法律應用的人工智能化現象也「席捲」至法官群體,各國法官使用大語言模型輔助生成裁判文書在近年來並不鮮見。儘管飽有爭議,例如存在錯誤引用或生成不實內容的實質風險,但生成式人工智能將廣泛運用於司法領域並深刻改變法院工作方式卻是不爭事實。

第四,從規範封閉逐步的認知開放,法律行業的範式轉移更受到了決策者的關注,他們嘗試透過發布人工智能使用指南來梳理法律人與機器(人)之間恰如其分的互動關係。例如英國司法部公布關於使用人工智能的司法指引,在允許法官使用ChatGPT等大模型工具輔助撰寫法律裁決書的同時,更提出了安全性(訊息保密、數據準確、減少偏見、規避風險等)和責任性的要求,強調司法人員使用人工智能生成文本時要對最終結果負責。如前文所述,香港也有類似的政策申明與立場表述。

從性能卓越到資本青睞,再從實務探索到制度接納,人工智能對法律的可能影響在眼下似乎正在被某種技術萬能主義與法律未來主義的認識論所支配。通過輔以種種科幻化的新修辭、新概念,相當樂觀的情緒與期待貫穿於其中,例如法律人工智能的崛起會從根本上改變法律從業的形態,機器人律師、機器人法官等將照進現實。然而,法律大語言模型的技術真相究竟為何?

與法律推理具有表徵相似性和內在契合性,大語言模型的運行邏輯也是一個從高級自然語言的處理到生成內容並得出結論的連貫創造過程。當中的技術環節包括監督與自監督學習、人類反饋強化學習,以及由參數量達到百億或千億級別時帶來智能體的「湧現」現象,等等,這些要點共同促成了機器回答不斷趨近符合人類需求和價值的內容。作為專業化的垂類應用,法律大模型在通用大語言模型的架構基礎上又增加了依託法律文本大數據(司法大數據)的二次預訓練、法律指令微調、法律知識檢索增強、人類法律專家測試等定製步驟,以提升其勝任法律實務要求的各項能力。

然而萬變不離其宗,不論是通用大模型還是包括法律大模型在內的行業大模型,其核心原理始終是一種依語料概率分佈而為的「猜測」。申言之,這些應用看似深刻地「侵入」了反映人類本質的語言系統,但實際技術底座卻是「文字接龍」,即基於已有的語言模式以統計概率的方式來預測下一個最可能出現的詞或句子,而非以語法的方式進行情境化的語言理解。在該意義上,大模型構築的是一個巨大無比的「文字算盤」,看似是擬製出人的思維和判斷,但卻非真正的「人類心靈」。

由此可見,「概率」、「預測」、「模仿」等關鍵詞構成了大語言模型的技術真相,但這恰恰又是其法律適用侷限性的根源,也即它雖然善於模仿法言法語並以文本為表達媒介模擬出法律推理外觀,卻難言像法官、律師一般熟稔複雜的法律知識體系及其運作機理。特別是這背後所關涉的價值判斷、解釋與裁量等,才是法律的內核,正如法學家德沃金主張融貫性的法律分析與解釋,又如霍姆斯大法官著名的法律生命經驗理性論等。

法律大模型冷思考的展開

冷思考一,缺乏因果關係推演的法律大語言模型或是幻象。如前述,大模型生成內容的基本原理是基於已有的上下文預測下一個詞,這種名為「自回歸語言建模」的技術需要通過最大化訓練數據的條件概率來學習模式。在訓練過程中,模型並不明確地理解詞語之間的因果關係,而是藉由統計規律學習到詞語和句子之間的高概率關聯。易言之,現時主流大語言模型並沒有內置因果推理的技術架構,其中的Transformer架構依靠「並行計算注意力」(Attention)這一機制的運轉來提取上下文訊息,但該注意力機制在本質上是加權的相關性計算,缺乏明確編碼因果關係。在這種以統計意義上的模式捕捉來體現相關性邏輯的整套系統中,即便嘗試引入因果推理模型或訓練數據中隱含了因果訊息,大模型得以捕捉到某些因果模式,但這僅僅是數據驅動的結果,而不是對概念或事件之間因果關係的真正理解。

在很大程度上,大模型作為連接主義學派的最新產物,其底層技術原理中的「因果性」匱乏對處理和解決法律任務而言具有硬傷。必須要承認,不論法律範式如何變遷,因果式的推理始終佔據法律分析、法律思維中的方法主導,因為經典的法律任務執行往往涉及識別事實關係,判斷某種行為是否引發了特定結果,從而決定歸責與權利義務分配,而這些都需要明確的因果邏輯,且難以為統計相關性所驗明。例如在侵權法法理中,事實因果關係和法律因果關係就分別構成了因果關係的兩個層次,前者通常採用「若非」(又名「要不是因為」)測試法(But-for Test)來判明特定行為與損害結果之間的事實關係,而後者則在前者基礎上進一步審查行為與損害之間的法律聯繫是否充分、合理,會否存在不適合施加法律責任的「遙遠」或「間接」的因果鏈條。這恰恰反映出法律語言大模型自身存有某種結構性衝突:如若要在這個以萃取相關性邏輯為主要任務的技術模擬器中發現符合真實世界規律的因果推理,不可謂不是水月鏡花。

冷思考二,大模型底層的語言預測性與法律決策存有本質差異。為摒除私心、偏見和濫權,試圖用機器替代法官、律師等人類專家系統作法律判斷一直以來是理想主義者的浪漫執念。例如在萊布尼茨設想的「普遍符號學」(Characteristica Universalis)和「理性計算系統」(Calculus Ratiocinator)應用中,法律任務是可以得到自動化裁決的,當法律規則、案件事實等被形式化、符號化為邏輯命題,就能通過數學式的演算法推導出精準、客觀的法律結論。這種自動化法律機器的構想不僅被視為現如今法律人工智能的理論源頭之一,也因大模型似能通過輸入指令解答法律問題以及自動生成各式法律文書而被喻為萊布尼茨版的「夢想照進現實」。

大語言模型形似具備法律心智,然而其內生的語言預測機理卻難言比照真正的人類決策。從技術上講,大語言模型所做的是依託詞語和句子之間的關聯概率提供表面上的表達匹配與修辭提取,看似合理有效的內容生成實則為模式化、結構化的語言推斷(inference),遠非深層次的邏輯推理(reasoning)。相反,現實世界中的複雜法律分析、法律決策不僅依賴於經典的演繹、歸納、類比等單一推理法則,更取決於決斷者如何在複雜模糊、辯駁批判的法律實踐情境中做出洞察與權衡,在此過程中,社會道德、公共利益、倫理情感、文化信仰等非表徵化考量和非形式化智識都會對決策帶來影響。

換言之,對於一個能稱之為「好」的法律決策而言,正確適用法律,恰當推演邏輯或許僅僅是最低底線,而真實法律實踐情境中更有「技術含量」的部分,諸如法律行為涉及的躬行式判斷力與價值排序選擇、直覺與想象力、主動去偽存真的批判性思維、融貫性的學理分析等具身的主觀因素(或謂之為「心證」),仍然依賴於法律職業人士的經驗能動。實際上,霍姆斯大法官那句耳熟能詳的「法律的生命不是邏輯,而是經驗」還有後半句的表達延展更為重要:「一個時代為人們感受到的需求、主流道德和政治理論、對公共政策的直覺⋯⋯在決定賴以治理人們的規則方面的作用都比三段論推理大得多。」

冷思考三:大模型的可靠性不滿足法律答案所需的「唯一正確」。由社會經驗引申出來,人類行為者的實踐理性在絕大多數情況下都是建立在「基於外部觀察」或「接受外界輸入」的框架之下,具有向外延展的開放性與補缺空白的創造性。法律實務則更是如此,其在本質上也是一種依賴外部交流和反饋的創造性發現。例如,司法訴訟是對抗式的,法律諮詢、法律調解往往是磋商性的。再如,也是更具體的,當缺乏明確的成文法條及先例時,經驗豐富的法官或律師仍然需要在辨析客觀事實,洞悉複雜人性,理解公序良俗甚至憑藉靈感乍現等基礎上給出創造性的法律判斷,進而實現可供遵循傳頌的法律續造。也正是這種獨屬於法律職業共同體的高階智慧、極致追求與信仰理想,才有機會讓法律判斷不斷趨近「唯一正確性」。法律答案被要求「唯一正確」,不僅源自世人對法治公義的樸素嚮往,更說明法律實踐是高風險的,與醫學一樣,人類對其出錯的容忍度極低。

對比而言,大語言模型的可靠性侷限表現為其無法積累社會生活經驗並據此進行創造性的動態運用,法律場景亦然。一方面,大語言模型學習的對象是人類既有的知識,代表一種「過去時」模式,也即「投餵」語料和訓練數據集非即時更新,頻率取決於開發團隊的策略、資源成本以及技術目標。例如,在質量控制上,即時更新會極大增加引入低質量或未驗真數據的概率,從而導致模型性能下降;又如從經濟成本角度考量,大模型是「暴力美學」的產物,耗時間、耗算力,高頻訓練並不現實,等等。當大語言模型的「靜態知識」滯後於外部世界的最新動態,其生命力不足與創造性受限就不可避免。封閉性的另外側面更在於,缺乏及時外界輸入的大模型或可被視為某種內觀的心理模擬與思想實驗,人們很難指望這種近乎「空想」的機器封閉學習在脱離具體情境和個案體察後,還能產生真理、得出真相。除此以外,大模型一直被詬病的「幻覺問題」也削減了法律人工智能的可靠性。大語言模型並非檢索模型,非但不擅長提供法律判斷所需的「唯一正確」答案,更會因虛構事實等「一本正經地胡說八道」而挑戰人類本就極低的法律容錯度。

總之,本文旨在表明法律大語言模型絕非無所不能,其內在的技術侷限置於法律實踐特殊性和人類認知獨特性的語境下勢必會遭遇種種衝突。因而給狂熱降温,為迷思祛魅,甚為必要。標題中「超越法官與律師」這一「危言聳聽」的設問顯然是服務於文章「博眼球」(引人注目)之需要,本人並不否認自己一以貫之的人類中心主義立場。正如筆者與合作者曾在〈ChatGPT的興起與法律職業的未來〉(《大公報》法政新思欄目2023年4月7日刊載)一文中指出:「人類中心主義秉持人工智能是人造物的這一『元命題』,即便在特定或局部領域,機器實現了主從關係的倒置或稱反客為主,但人的本體地位不可動搖,增進人類福祉必須是技術進步的首要原則與社會共識。某種程度上,人類不會自我罷黜的論斷建基於倫理之上,也即人的尊嚴與道德能力不僅反應了社會公眾的理想預期與價值觀念,更關注主體能否自我反省與評價,以及能否進行負責任、具有正義感、共情力、同理心的『屬人』判斷,這是機器所無能為力的。」

行文至此,一個鮮活形象的生活比喻或許更能反映人類經驗與情感智慧在洞察複雜社會關係中的不可替代性,並以之作結:當一個大家族幾十個人在一起吃飯時,知道誰最應該坐在誰的旁邊的,不是人工智能,而是你的祖母。

作者鄧凱是香港城市大學法律學院公法與人權論壇研究員、法學博士。文章僅代表作者個人觀點,不代表香港01立場。

「01論壇」歡迎投稿,來函請電郵至01view@hk01.com。來稿請附上作者真實姓名及聯絡方法。若不適用,恕不通知。