01倡議|版權條例要趕上ChatGPT年代
美國公司OpenAI上星期發表GPT-4大型語言模型之後,Google的生成式人工智能Bard也開放給英國和美國試用。新階段的人工智能展示出更強勁的圖像與語言理解能力以及專業領域知識,足以在更高效率下生成更複雜且多樣化的內容,有關技術擴張速度之快使得大家益趨關注人工智能產品所帶來的影響。連當初有份聯合創辦OpenAI公司的特斯拉執行長馬斯克亦直言人工智能可能構成「未來人類文明面臨的最大風險」,有需要像其他的飛機、汽車、醫藥等領域一樣,專門立法作出規管。
香港近年銳意將本地建設為國際創新科技中心、區域知識產權貿易中心,上個月財政司司長陳茂波發表的《財政預算案》演辭提到「要推動香港的科研和人工智能產業發展」,並且決定就建立人工智能超算中心展開可行性研究以獲得足夠的算力基礎。但是這些僅限於硬件層面的配備而已,軟件仍需要對應的企業、人才進駐和制訂與時並進的法律。
尊重訓練數據來源
人工智能之所以能快速達致堪比人類長年創作或勞動的成果,主要有賴給它「餵養」前人既成素材進行學習訓練,但亦因此引來巨大爭議。以圖像生成人工智能模型Stable Diffusion為例,有藝術工作者在年初對相關公司提出訴訟,認為模型於訓練中途使用了其他人的創作成果,而生成的圖像會直接跟原作在市場上競爭,因此會對他們的利益構成永久性傷害。先前微軟旗下軟件源碼代管服務平台GitHub與OpenAI合作推出人工智能助手GitHub Copilot,同樣也被編程工作者提控侵犯了他們的勞動成果,沒有按照原本的開源許可證協議標示作者身份、資料來源,並且挪用免費代碼賺取商業利益。
訓練數據來源問題並不限於知識產權,還涉及個人隱私權、肖像權。在人工智能繪畫資源分享平台網站Civitai上,既能找到大量未經正式授權的角色或風格仿製模型,同時亦有不少利用現實世界公眾知名或普通人物相片訓練的項目,而後者可能在未獲得涉事人物允許下對其構成潛在傷害,例子有冠以「吳亦凡前女友」標題作招徠的一系列模型資源。過去幾年社會熱議「大數據」或臉部識別技術的時候,就有聲音質疑巨企能夠利用它們侵害個人利益,現在隨着人工智能技術普及,對訓練素材來源的法律保護必須盡早提上議程。
歐盟近來積極推動《人工智能法》與《人工智能責任指令》立法,前者重點放在按風險高低分級管理不同層面的人工智能技術應用,特別要求人事招聘、醫學療程一類較高風險用途編撰清晰說明文件和提供充足的資訊透明度,「深偽(deepfake)」成品則要加上明顯標籤,違反者可被處以罰款或禁止進入歐洲;後者則是針對人工智能技術民事侵權嫌疑,訂立強制資訊揭露與推定注意義務的機制。顯而易見,兩者都是希望將人工智能模型背後的「黑箱」拆解,好讓一般人能知曉它們伴隨着的風險,以及對訓練學習過程的失當行為進行問責。
香港對應上述人工智能發展的法律,首要應該是《版權條例》。即將於今年5月生效的《2022年版權(修訂)條例草案》已將科技中立「傳播權利」寫入保護範圍,但未能囊括非面向公眾的人工智能內部訓練學習工序,且其生成作品亦非單純複製原作或是重現素材內容。有見及此,當局可以為《版權條例》加入針對人工智能模型的「訓練權利」,將用作人工智能模型訓練學習素材列作「受版權所限制的作為」,要事先獲得版權擁有人的同意才能進行,否則就會構成法律責任。
確立生成結果版權
這不是要打壓人工智能生成技術的發展,恰恰相反,無論是從「提示指令(prompt)」的編寫、排序到構建,抑或是對人工智能初步生成結果的事後校對、修改和編輯,全部要求操作者耗費大量心力、資源以及掌握相關的專業知識,故此他們的勞動產物跟原生創作者一樣值得保護,沒有理由因為用上人工智能技術便遭拒諸門外。
其他地區在這方面已經拿出一些成績,如美國著作權局今年2月批准使用了人工智能素材的圖像小說《黎明的札莉雅》版權保護申請,惟範圍限於故事內容與圖像編排方式。到3月16日該局更加發表了一份政策聲明,闡明其審查、註冊使用人工智能技術生成作品的做法,當中一邊強調人類作者身份乃是判斷著作權的首要基準,但另一邊又表示包含人工智能生成材料的作品依然可能受到版權保護,譬如人類能以「足夠創造性的方式」篩選、編排人工智能作品來成為另一件原創作品,藝術家也可以將人工智能作品修改去到「合乎版權保護的標準」,在這些情況下法律需要保護那些屬於人類創作的部分。
香港對版權作品的保護本身就較有限,包括未設官方註冊處讓版權作品註冊,日後若想再保護用上人工智能素材的作品,恐怕難上加難。前年香港律師會、香港大律師公會、亞洲專利代理人協會香港分會、香港商標師公會成立工作小組,支持香港實踐國家規劃成為區域知識產權貿易中心,其討論議題包括「處理人工智能相關法律和作品的作者和所有權問題」等。特區政府應該研究有關建議,參照其他地區的經驗,劃清人工智能生成與人類創作內容的界線,制訂一套有效保障本地相關工作者成果的機制。
具體而言,現時《版權條例》第2條將「原創」作品置入保護範圍,第11條又規定對於電腦產生作品來說「作出創作該作品所需的安排的人視為作者」,表面看來涵蓋了對於人工智能生成作品的加工成果,然而「作者」究竟是提供人工智能編程員抑或模型終端操作用家,條文根本未予解釋。在相關技術未普及流行前,人們以為操作人工智能遠比創作簡單而逕自默認答案為前者,但從近月愈來愈多創作平台及作者也投身使用相關技術,甚至推出各種專門教程、輔助工具,可見精通後者的難度一點也不低。出於鼓勵創作原意,法律應該保護那些學習和善用新科技來改進其作品的人。
防止演算過程偏見
最後,人工智能的演算終究受限於人類給出的訓練數據或操作指示,這就注定了它沒可能完全避免人為責任,反而有機會將一些偏頗之見用客觀數據的外衣包裝起來。數年前Google的相片識別人工智能便曾發生誤將深膚色人種判斷為大猩猩的鬧劇,近年一些企業使用人工智能演算法來決定員工的聘用、解僱與升遷,也被質疑背後含有性別、族群歧視成份。在人工智能年代,我們有需要做好預防監督與釐清責任歸屬。
前述的歐盟《人工智能法》便要求高風險的人工智能用途須由人類作把關監督,確保使用優質數據來進行訓練學習,是預防人工智能演算偏見做法的一個良好範例。至於釐清責任歸屬問題其實早在自動駕駛車輛上已出現,按理只要參照它來處理即可。香港應對該問題的《2022年道路交通(修訂)(自動駕駛車輛)條例草案》正在審議當中,惟未像德國等地那樣明確承認製造商責任,而打算先賦權運輸及物流局局長訂立規例以作後續處理。
而香港現有四條反歧視法例釐定歧視行為適用範圍的時候,都將「歧視者」限定為自然人或法人,未正視科技發展可能帶來的新歧視形式,對人工智能無形間放大數據中的既成偏見留下了空間。使用者大可爭辯數據考量中的歧視因素非唯一原因,模型設計的「黑箱」性質反過來又在技術上增加了舉證難度。相關法例應該加上條文否定自動演算作為爭辯理由,並指明使用人工智能技術達成的結果須視同使用者本人行為,以堵塞回避歧視責任的漏洞。