OpenAI推出Deep Research 回答人類終極考試準確率遠超DeepSeek

一覺醒來,OpenAI 又發新產品了,這次是面向深度研究領域的智能體產品 ——「Deep Research」。

具體來講,這是一個使用推理來綜合大量在線訊息併為用戶完成多步驟研究任務的智能體,旨在幫助用戶進行深入、複雜的訊息查詢與分析。目前,Pro 用戶現已可用,接下來還將開放給 Plus 和 Team 用戶使用。
有了這個新的智能體,用戶將可以在 ChatGPT 中開啟深度研究,在幾十分鐘內完成人類需要數小時才能完成的工作。
作為 OpenAI 的下一代智能體,Deep Research 可以獨立為用戶工作。用戶給它一個提示,ChatGPT 將查找、分析和綜合數百個在線資源,以研究分析師的水平創建一份綜合報告。Deep Research 由即將推出的 o3 模型的一個版本提供支持,該模型針對網頁瀏覽和數據分析進行了優化,它利用推理來搜索、解釋和分析網路上的大量文本、圖像和 PDF,並根據需要根據遇到的訊息做出調整。
OpenAI 表示,綜合知識的能力是創造新知識的先決條件。因此,Deep Research 標誌着 OpenAI 朝着開發 AGI 的更廣泛目標邁出了重要一步。OpenAI 長期以來一直設想 AGI 能夠產生新穎的科學研究。
從大家的反應來看,OpenAI 這次的智能體產品切中了用戶的需求,甚至有人認為這是邁向智能體 AI 的重要里程碑。
OpenAI 的 Deep Research 通過搜索網絡並將知識綜合成研究論文,這種自主研究標誌着 AI 進入到了自我發現新知識的下一步。
構建 Deep Research 的目的
Deep Research 是為那些在金融、科學、政策和工程等領域從事密集知識工作並需要徹底、精確和可靠研究的用戶而量身打造的。
同時,Deep Research 對於尋找超個性化推薦的挑剔購物者同樣有用,這些推薦通常需要仔細研究才能購買如汽車、家電和傢俱。每個輸出都經過完整記錄,並附有清晰的引文和思路摘要,以便於引用和驗證訊息。同樣地,Deep Research 在查找需要瀏覽大量網站的小眾、非直觀訊息方面也特別有效。
總之,Deep Research 讓用戶只需一個查詢即可加快複雜、耗時的網絡研究,從而釋放寶貴的時間。
此外,Deep Research 能夠獨立發現、推理和整合來自網絡的見解。為了實現這一點,它接受了需要使用瀏覽器和 Python 工具的現實任務的訓練,使用了 OpenAI 第一個推理模型 o1 背後的相同強化學習方法。雖然 o1 在編碼、數學和其他技術領域表現出令人印象深刻的能力,但許多現實世界的挑戰需要從各種在線來源收集廣泛的背景和訊息。Deep Research 利用這些推理能力來彌補這一差距,使其能夠解決人們在工作和日常生活中面臨的各類問題。
如何使用 Deep research
在 ChatGPT 中,選擇「message composer」中的 deep research 並輸入查詢。告訴 ChatGPT 你需要什麼 —— 無論是關於流媒體平台的競爭分析,還是關於最佳通勤的個性化報告都可以。甚至你也可以附加文件或電子表格,為問題添加上下文。一旦開始運行,側邊欄將顯示所採取的步驟和使用的來源摘要。
Deep research 可能需要 5 到 30 分鐘的時間來完成其工作,因為它需要深入挖掘網絡訊息。在此期間,用戶可以離開或處理其他任務 —— 任務完成後你會收到通知。最終結果將以報告的形式出現在聊天中 —— 在接下來的幾周內,OpenAI 還將為這些報告添加嵌入的圖像、數據可視化和其他分析輸出,以提供更清晰的說明和上下文。
與 deep research 相比,GPT-4o 更適合即時的多模態對話。對於需要深度和細節的各個方面、特定領域的查詢,deep research 能夠進行廣泛的探索並引用每個聲明。
下面是一些 GPT-4o 與 deep research 對比。
大海撈針。
詢問 GPT-4o:「前段時間我看過一部電視劇。我忘了名字,但我記得其中一集發生了什麼。你能幫我找到名字嗎?以下是我記得的一集內容:
兩個男人玩撲克。一個棄牌,另一個讓他下注。棄牌的人實際上手牌很好,但被騙了。第二手牌,同一個人再次棄牌,但這次手牌很糟糕
請深入瀏覽網頁,找到發生此事的電視劇集。」
GPT-4o 回答:
「根據您提供的詳細訊息,您似乎指的是電視劇《僕人》中的一集。這部劇由 Tony Basgallop 創作,M. Night Shyamalan 擔任執行製片人,於 2019 年在 Apple TV+ 上首播。故事圍繞一對費城夫婦展開,他們在經歷了巨大的損失後,僱傭了一名年輕保姆,導致他們家中發生了一系列令人不安的事件……」
詢問 deep research 同樣的問題,其給出的答案:「您所描述的三個事件都發生在 Starz 系列劇《Counterpart》第一季第四集,標題為 Both Sides Now。在這一集中……」
以下是完整過程:
在上述例子中,deep research 被賦予了一個模糊的查詢,即使對人類來說也很難找到答案,因為沒有關鍵詞能夠輕易揭示查詢的答案。deep research 能夠以創造性和持久性的方式進行搜索,直到找到一個完全符合條件的結果。
延伸閱讀:生成式AI應用100強 ChatGPT霸榜挑戰者出現 消費者最愛是這些(點擊連結看全文)
類似的對比還有通用知識(general knowledge)的查詢:「NFL 球員的平均退休年齡是多少?」
在這個例子中,deep research 提供了需要考慮的組成部分和因素,而不僅僅是一個數字。它更加全面,提供了清晰的統計背景,使用了支持性的例子,並直接解釋了射門員相對於其他位置球員職業生涯較長的原因。這種細節和清晰度使得 deep research 更具訊息量,並更直接地回應了那些希望了解 NFL 退休年齡趨勢的人的需求。
如何工作
Deep Research 通過端到端的強化學習在多個領域的複雜瀏覽和推理任務上進行了訓練。通過這種訓練,它學會了規劃和執行多步驟的軌跡,以找到所需的數據,並在必要時回溯和即時響應訊息。
Deep Research 還能夠瀏覽用戶上傳的文件,使用 Python 工具繪製和迭代圖表,在生成的圖表和從網站獲取的圖像中嵌入其響應,並引用其來源中的特定句子或段落。得益於這種訓練,Deep Research 在多個專注於現實世界問題的公開評估中達到了新的高度。
人類終極考試(Humanity's Last Exam)
對於最近發布的「人類終極考試」評估,在專家級問題上對廣泛學科的人工智能進行了測試,支持 Deep Research 的模型以 26.6% 的準確率創下了新高。
這項測試包括 3,000 多個多項選擇題和簡答題,涵蓋了從語言學到火箭科學、古典文學到生態學的 100 多個學科。與 o1 相比,進步最大的是化學、人文和社會科學以及數學。支持 Deep Research 的模型展示了一種類人方法,可以在必要時有效地尋找專業訊息。
GAIA 基準測試
在評估人工智能在現實問題上表現的公共基準 GAIA 上,支持 Deep Research 的模型達到了新的 SOTA 水平,位居排行榜榜首。這些任務涵蓋三個難度級別的問題,成功完成需要具備推理、多模式流暢性、網頁瀏覽和工具使用熟練等能力。
我們來看一個 GAIA 任務示例:
專家級別的任務
在對各個領域專家級任務進行的內部評估中,領域專家認為 Deep Research 可以自動完成數小時的艱難手動調查。
以下兩圖分別為專家級任務的通過率(按估計經濟價值計算)以及專家級任務的預計小時數通過率。
專家級別的任務示例如下:
ChatGPT 中的 Deep research 目前對計算資源的需求非常高。research 一個查詢所需的時間越長,耗費的推理計算資源就越多。
從現在開始,OpenAI 推出了針對 Pro 用戶優化的版本,每月最多可進行 100 次查詢。接下來將會向 Plus 和 Team 用戶開放,隨後是 Enterprise 用戶。
目前,Deep research 功能已在 ChatGPT 網頁版上線,並將在本月內逐步推廣到移動和桌面應用程序。目前,Deep research 可以訪問開放的網路以及任何上傳的文件。未來,將能夠連接到更多專業的數據源。
現在看來,Deep research 能夠進行異步的在線查找,而 Operator 則能夠在現實世界中採取行動,兩者的結合將使 ChatGPT 能夠為用戶執行越來越複雜的任務。
不過,值得一提的是,Deep research 目前仍處於早期階段,並且存在侷限性。根據內部評估,它有時會在響應中產生幻覺或做出錯誤推斷,但發生率明顯低於現有的 ChatGPT 模型,它可能難以區分權威訊息和謠言。在發布之際,Deep research 報告和引文中可能會出現輕微的格式錯誤,任務可能需要更長時間才能啟動。所有這些問題都會隨着使用和時間的推移而迅速改善。
博客地址:https://openai.com/index/introducing-deep-research/
延伸閱讀:OpenAI發布最強影片生成模型Sora 一文看清誰可使用及收費如何(點擊連結看全文)
【本文轉自「機器之心」,微信公眾號:almosthuman2014】