到 2030 年,持續的規模擴展將使 AI 在科學研發等知識密集型領域,從輔助工具進化為高能力的合作夥伴,能夠自主解決複雜的、定義明確的任務
這個論點描繪了一幅具體的未來圖景。報告認為,AI 的能力進展並非隨機或不可預測的。一旦 AI 在某個任務領域(通常由一個「基準測試」,即 benchmark 來衡量)開始展現出超越隨機猜測的性能時,後續的性能提升往往會隨著運算規模的投入而呈現出相對穩定的、可預測的增長軌跡。這就為我們提供了一把丈量未來的尺子:通過外推(extrapolating)當前頂尖 AI 在各個權威基準測試上的進展趨勢,我們可以相當有信心地預測它在未來幾年內將達到何種水平。
報告特別聚焦於科學研發(Scientific R&D)領域,因為這不僅是頂尖 AI 實驗室公開宣稱的目標,也集中體現了 AI 在處理複雜知識和推理方面的潛力。報告預測,到 2030 年,AI 將在軟體工程、數學、分子生物學等多個領域扮演革命性的新角色。
讓我們深入探討報告對幾個關鍵領域的具體預測,來理解這個論點的深刻內涵。
一、軟體工程:從「程式碼助手」到「虛擬工程師團隊」
軟體工程是報告中最有信心、預測也最大膽的領域,因為它具備幾個有利於 AI 發展的特點:任務目標清晰、成果易於驗證(程式能跑通測試就意味著成功)、並且存在海量的公開數據(程式碼庫)供 AI 學習。
- 當前的狀態:今天的 AI,如 GitHub Copilot,主要扮演「程式碼助手」的角色。它能根據上下文自動補全程式碼片段,回答程式設計問題,極大地提升了開發者的效率。然而,它仍然需要人類的密切監督,無法獨立、端到端地解決一個完整的、複雜的工程問題。
- 2030 年的圖景:報告透過外推幾個關鍵基準測試的趨勢,描繪了一個截然不同的未來。
- 解決真實世界的軟體問題:以
SWE-bench
這個基準為例,它要求 AI 修復來自真實世界開源專案(如 Django 、 NumPy)的 Bug 。這些都是人類工程師需要花費時間去解決的實際問題。報告預測,AI 將在 2026 年左右「解決」這個基準,意味著它將有能力高可靠性地自主修復這類複雜的軟體錯誤。 - 完成數小時的研發任務:另一個更具挑戰性的基準
RE-Bench
,模擬了科技公司招聘研究工程師時的家庭作業,通常需要人類候選人花費大約八個小時來完成。報告預測 AI 將在 2027 年左右攻克這一基準。這意味著,AI 將具備獨立完成一個小型、但定義明確的研發專案的能力,例如根據一份研究論文的描述,從零開始實現其核心演算法。
- 解決真實世界的軟體問題:以
- 角色的轉變:當 AI 具備了上述能力後,人類工程師的角色將發生根本性轉變。他們將不再是逐行編寫程式碼的工匠,而更像是「監督一個虛擬工程師團隊的專案經理或架構師」。人類的價值將更多地體現在提出創意、定義高層次的目標和需求、以及對 AI 完成的複雜模組進行最終的整合與審核。一個充滿了廉價、高效、不知疲倦的 AI 軟體工程師的世界,將極大地加速科學實驗、數據分析和模型建構的進程。
二、數學:從「計算器」到「研究助理」
數學是一個更為抽象和純粹的推理領域。雖然數學領域的基準測試距離真實數學家的日常工作比軟體工程更遠,但報告依然預測 AI 將帶來深刻的影響。
- 當前的狀態:目前的 AI 已經能夠解決大部分高中甚至大學程度的數學考試題,但在面對需要創造性證明和深刻洞察力的研究級別問題時,仍然力不從心。
- 2030 年的圖景:報告引用了
FrontierMath
這個專為測試研究級別數學推理能力而設計的基準。報告預測,AI 最早可能在 2027 年就能解決這個基準中的難題。一個能做到這一點的 AI,將能夠為數學家提供實質性的幫助。它將扮演一個超級強大的「研究助理」角色,能夠:- fleshing out proof sketches(充實證明草圖):數學家提出一個證明的核心思想和框架,AI 則負責填補所有繁瑣的、技術性的細節,並將其轉化為一個完整的、嚴格的證明。
- 形式化驗證(Formalisation):將人類用自然語言寫出的證明,轉化為電腦可以嚴格檢查的無歧義的形式化語言。這將極大地提升證明的可靠性,並建立起一個可供全球數學家協作和驗證的通用知識庫。
- 處理常規技術工作:驗證計算、測試猜想、查找相關文獻等,將數學家從繁重的技術細節中解放出來,讓他們能更專注於提出根本性的洞見和方向。
三、分子生物學:數位洞察與物理瓶頸的並存
在分子生物學,特別是藥物研發領域,AI 的影響呈現出雙重性:在數位世界高歌猛進,但在物理世界面臨滯後。
- 數位世界的加速:
- 更強大的預測工具:繼 AlphaFold 革命性地解決了蛋白質結構預測問題後,報告預測,到 2030 年,AI 工具將能更準確地預測更複雜的生物分子結構(如 RNA 、分子複合物)以及它們之間的相互作用(如藥物分子如何與靶點蛋白結合)。這將大大縮短藥物發現的早期階段,讓科學家能夠在電腦上快速篩選出大量有潛力的候選藥物,而無需進行昂貴且耗時的濕實驗室(wet lab)實驗。
- 高效的知識助理:除了專門的預測工具,通用 AI 也將成為生物學家的得力助手。它們可以快速閱讀和總結海量的科研文獻,回答關於複雜實驗流程的問題(如
ProtocolQA
基準所示),甚至根據現有知識提出新的研究假設。
- 物理世界的瓶頸:儘管 AI 能在數位世界產生海量的藥物候選者和新穎的生物學假設,但這些成果最終必須通過物理世界的驗證才能轉化為現實的療法。這個過程包括:
- 濕實驗室驗證:需要科學家在實驗室中合成化合物、進行細胞實驗和動物實驗。
- 臨床試驗:需要經歷漫長且嚴格的人體試驗(通常分為三期),以驗證藥物的安全性和有效性。
- 監管審批:需要通過各國藥品監管機構的審批。
報告清醒地指出,這些物理環節的耗時(通常長達數年甚至十年以上)在 2030 年前難以被 AI 根本性地改變。因此,我們將看到一個有趣的局面:基礎生物學研究的步伐將因 AI 而大大加快,產生大量令人振奮的早期成果,但這些成果轉化為市場上可用的新藥物的速度,將會慢得多。 2030 年獲批上市的藥物,很可能在今天就已經處於臨床試驗的管道中了。
總結
此論點的核心是,AI 在 2030 年的影響力將主要體現在數位化、知識化和分析化的任務上。它將引發一場「案頭研究(desk-based research)的繁榮」。軟體工程師、理論數學家、生物信息學家,以及任何主要工作是處理和分析資訊的科學家,都將從 AI 的發展中獲益最多。 AI 將成為他們不知疲倦的合作夥伴,負責執行那些定義清晰、可被計算機化的複雜任務,從而將人類的智慧釋放到更具創造性、戰略性和直覺性的工作中。而那些深度依賴物理實驗和現實世界互動的領域,雖然也會間接受益,但其發展速度將相對較慢。這為我們理解 AI 在未來十年內可能帶來的真實影響,提供了一個務實且層次分明的框架。