好的,這段影片是 NVIDIA 的 Bill Dally 與 Meta 及紐約大學的 Yann LeCun 之間關於 AI 和計算前沿的對話。以下是從 Yann LeCun 的發言中提取的主要論點,並進行詳細解釋:
**核心論點一:大型語言模型 (LLM) 的侷限性與未來方向的轉變**
LeCun 開門見山地提出了一個可能令許多人驚訝的觀點:他對當前火熱的大型語言模型 (LLM) 的興趣正在減退 (0:41-0:43) 。他認為,LLM 在某種程度上已經是「上一代」的技術,目前主要掌握在產業的產品開發人員手中,他們的工作更多是在現有基礎上進行邊際改進 (marginal improvement),例如投入更多資料、更多算力、或是生成合成數據來提升模型表現 (0:47-1:00) 。 LeCun 暗示,這種漸進式的工程優化,雖然仍有價值,但對他而言,已不再是基礎研究中最令人興奮的前沿領域。
**核心論點二:AI 未來的關鍵挑戰在於理解物理世界、記憶、推理與規劃**
相較於 LLM 的漸進式改進,LeCun 指出有四個更為根本且更具挑戰性的問題,代表了 AI 未來的研究重點 (1:01-1:06):
1. **理解物理世界 (Understanding the Physical World):** 如何讓機器理解我們所處的物理世界的基本規則和因果關係?LeCun 引用了 Jensen Huang 在主題演講中提到的「世界模型」(World Models) 的概念 (1:06-1:11) 。他強調,人類(甚至嬰兒)在生命初期就通過觀察和互動快速學習了關於世界的直觀物理知識,例如物體恆存性、重力作用、物體間的互動關係(例如推瓶子不同位置會導致翻倒或滑動,2:18-2:26)。這種對物理世界的深刻理解是實現真正智慧的基礎,也是目前 AI 系統,特別是僅基於文本訓練的 LLM 所缺乏的。他認為理解真實世界遠比處理語言要困難得多 (2:39-2:42) 。
2. **擁有持久記憶 (Persistent Memory):** 如何讓 AI 系統擁有像人類一樣的持久記憶能力?目前的 LLM 在每次互動中記憶能力有限(主要依賴上下文窗口),缺乏長期、結構化的記憶來整合和利用過去的經驗與知識。 LeCun 認為這是一個較少被討論但至關重要的領域 (1:12-1:17) 。
3. **推理能力 (Reasoning):** 如何讓機器具備真正的邏輯推理、因果推理能力?雖然目前有許多嘗試讓 LLM 進行推理(例如思維鏈),但 LeCun 認為這種基於生成文本序列的方式是一種「過於簡化」(simplistic) 的推理方式 (1:21-1:31) 。他相信存在更優越、更根本的方法來實現機器的推理能力。
4. **規劃能力 (Planning):** 如何讓機器能夠制定複雜的行動計劃以達成目標?這與推理能力密切相關,需要系統能夠預測行動的後果,並依此規劃出一系列步驟。目前的 LLM 在這方面的能力也相對薄弱。
LeCun 總結道,他對於那些能夠解決這些根本問題、但目前可能還處於「不起眼的學術論文」階段的研究更感興趣,這些可能是未來五年後才會引起科技界廣泛關注的技術 (1:37-1:51) 。
**核心論點三:世界模型與聯合嵌入預測架構 (JEPA) 是更有前景的道路**
針對 Dally 提出的「如果不是 LLM,那未來模型會是什麼」的問題 (1:52-1:59),LeCun 明確指向了「世界模型」(World Models, 2:01-2:04) 。他解釋,世界模型是我們內心對世界運作方式的模擬器,讓我們能夠預測行動的後果並進行思考 (2:05-2:14) 。
然而,他接著批評了試圖通過預測影片中每一個像素來學習世界模型的方法。他認為這種方法「基本上已經失敗了」(3:58-4:07),因為現實世界中很多細節是無法預測的(例如,他無法預測觀眾席每個人的具體樣貌,4:55-5:06)。強迫模型去預測這些不可預測的細節,是在浪費大量的模型能力和計算資源 (5:17-5:27) 。這種方法類似於生成式模型(如 Denoising Autoencoders 或基於像素/Token 的預測模型),它們試圖重建輸入的所有細節。
LeCun 提出的替代方案是「聯合嵌入預測架構」(Joint Embedding Predictive Architectures, JEPA) (4:29-4:33, 4:49-4:56) 。 JEPA 的核心思想是:
1. **學習抽象表徵 (Abstract Representation):** 模型學習將輸入(如圖像、影片、聲音、文本)映射到一個更抽象的內部表徵空間 (4:37-4:48) 。
2. **在表徵空間中預測:** 模型不是預測原始輸入的每一個細節(如像素或 token),而是在這個抽象的表徵空間中進行預測 (4:45-4:48, 5:16-5:20) 。例如,給定一個輸入的一部分表徵,預測另一部分的表徵。
3. **忽略不可預測的細節:** 由於預測發生在抽象層面,模型可以學會忽略那些不相關或不可預測的低級細節,專注於捕捉輸入數據中更穩定、更本質的結構和關係。
LeCun 認為,這種在抽象空間中進行預測的架構,更接近人類和動物的學習方式,對於理解世界、推理和規劃至關重要。他相信這是通往更高級別 AI(包括他所說的 AMI – 先進機器智慧,Advanced Machine Intelligence,他更偏好這個詞而非 AGI,8:51-8:55)的關鍵路徑。他提到,他和他的同事們近年來發表了一系列關於 JEPA 的論文,展示了初步的進展 (3:16-3:28, 4:44-4:51) 。
**核心論點四:實現高級 AI 需要基於觀察學習,而非僅僅是語言**
LeCun 強調,人類和動物學習世界主要是通過觀察和互動,而非語言。嬰兒在幾個月內就掌握了大量關於物理世界的直觀知識 (2:34-2:36, 47:39-47:49) 。相比之下,LLM 主要通過閱讀海量的文本來學習,但文本數據量遠遠少於嬰兒通過視覺等感官接收到的信息量。他做了一個計算:當前 LLM 大約用 10^14 字節的文本進行訓練,而一個 4 歲兒童通過視覺接收的數據量也大約是 10^14 字節 (35:30-36:18) 。這意味著,僅僅依賴文本訓練,很難讓 AI 獲得對物理世界的深刻理解,而這種理解對於推理和規劃至關重要。因此,未來 AI 的發展需要轉向基於多模態(特別是視覺)觀察的學習方式。
**核心論點五:開源對 AI 進步至關重要**
LeCun 強烈倡導開源 AI 平台 (20:03-20:05) 。他認為,沒有任何一個實體能夠壟斷所有的好想法 (19:35-19:38) 。進步來源於大量研究人員的互動、思想交流和代碼共享 (19:50-19:59) 。 Meta 開源 Llama 模型正是基於這一理念 (20:05-20:09),Llama 的開源極大地促進了整個生態系統的發展,催生了大量新創公司 (25:50-25:57) 。他相信,為了讓 AI 能夠服務於全球多樣化的文化、語言和價值觀,基礎模型必須是開放的,允許任何人基於其進行構建和定製 (26:58-27:28) 。封閉的、專有的平台最終會被開源平台所取代 (28:39-28:44) 。
**總結:**
Yann LeCun 的核心觀點是,雖然 LLM 取得了顯著成就,但它們並非通往真正人類水平或超越人類水平智慧 (AGI/AMI) 的最終路徑。 AI 的未來前沿在於開發能夠理解物理世界、擁有持久記憶、並具備強大推理和規劃能力的系統。他認為,這需要新的架構,如聯合嵌入預測架構 (JEPA),這種架構側重於學習抽象表徵並在表徵空間中進行預測,而非試圖重建或預測輸入的每一個低級細節。學習這些能力的關鍵在於基於觀察(特別是視覺)而非僅僅是文本。此外,他堅信開源對於加速 AI 進步、確保技術多樣性和普惠性至關重要。他對僅僅通過擴展現有 LLM 或依賴 token 預測來實現 AGI 的觀點表示懷疑,並認為真正的突破需要更根本的架構創新。