Geoffrey Hinton(二):「符號主義」與「連結主義」

第二部分:人工智慧的思潮演變與神經網路的學習奧秘

在前一部分,我們理解了辛頓教授眼中「數位智慧」相較於「生物智慧」的兩大根本優勢:一是透過權重複製實現的、近乎即時的集體學習能力;二是由於知識與硬體分離而具備的「不朽」特質。這兩種特性共同指向一個結論:我們正在創造一種學習和演化速度遠超人類的智慧形式。然而,要真正體會這一結論的震撼力,我們必須回溯歷史,理解這種智慧是如何從一個曾被學術界邊緣化的想法,演變成今日撼動世界的技術。辛頓教授接著便帶我們回顧了人工智慧領域的兩大思潮之爭,並用非常直觀的方式解釋了他所畢生鑽研的神經網路究竟是如何運作的。

論點三:人工智慧的兩大思潮— —「符號主義」與「連結主義」的對決

當辛頓教授在 1970 年代踏入人工智慧領域時,這個學科內部存在著兩種截然不同,甚至可以說是相互對立的哲學思想,它們試圖回答一個根本問題:「智慧是什麼?」

第一種,也是當時絕對的主流思想,可以稱之為 「符號主義 AI」(Symbolic AI)「邏輯主義 AI」。我們可以把它想像成「律師或邏輯學家」模式的 AI 。這個學派的信徒認為,智慧的本質是推理(reasoning)。人類之所以聰明,是因為我們能夠運用邏輯、規則和符號來進行思考和推導。因此,要創造智慧機器,就應該將人類的知識編寫成一套精確的、形式化的符號和規則,然後讓電腦像一個完美的邏輯學家一樣,根據這些規則進行推理。

讓我們用一個簡單的例子來理解:如果你想教一個符號主義 AI 什麼是「鳥」,你需要像編寫一本百科全書一樣,告訴它:「鳥是一種動物」、「鳥有羽毛」、「鳥有喙」、「鳥會飛」(當然,你還得加上很多例外規則,比如企鵝不會飛)。知識是以 「符號表達式」(symbolic expressions)的形式,由人類專家明確地、一條一條地寫入系統中。這種方法的優點在於,它的運作過程是清晰、可解釋的,就像證明一道數學題。但在當時,這種方法也面臨著巨大的挑戰:對於那些我們自己都說不清楚規則的任務,比如如何從一堆像素點中「看見」一隻貓,或是如何憑直覺騎自行車,符號主義就顯得力不從心。你如何能寫下成千上萬條規則來定義世界上所有可能出現的貓的樣貌呢?這幾乎是不可能的。

而辛頓教授所投身的,則是另一種截然不同的、在當時被視為非主流甚至有些「愚蠢」的思潮,我們稱之為 「連結主義」(Connectionism),也就是神經網路(Neural Networks)的理論基礎。我們可以將其想像成「嬰兒大腦」模式的 AI 。這個學派的靈感直接來源於生物學(biology),尤其是人腦的結構。他們認為,智慧並非源於高層次的邏輯規則,而是從大量簡單、相互連結的單元(模擬神經元)的集體活動中湧現(emerge)出來的。

在這個模型裡,知識不是被明確地寫成一條條規則,而是以一種分散、內隱的方式,儲存在數以億計的連結強度(connection strengths)之中。想像一下,一個新生嬰兒的大腦,它並不知道什麼是「貓」的規則,但透過一次又一次地觀看貓的圖片、影片,甚至撫摸真實的貓,它大腦中的神經連結會不斷地自我調整。最終,它形成了辨識貓的能力,但它自己也無法用語言或邏輯規則來準確描述這個過程。連結主義的核心不在於「編寫智慧」,而在於 「學習智慧」。它更擅長處理像感知(perception)運動控制(motor control)這類模糊、依賴直覺的任務,而不是嚴密的邏輯推理。

辛頓提到,在很長一段時間裡,神經網路都被主流學術界所輕視。直到 2012 年,隨著運算能力的大幅提升和海量數據的出現,連結主義才證明了它的巨大潛力,並最終成為當今 AI 發展的主導力量。

論點四:神經網路的運作與學習奧秘— — 分層特徵與反向傳播

那麼,這種受大腦啟發的神經網路,究竟是如何從零開始學會辨認圖像和理解語言的呢?辛頓教授用了一個非常精妙的比喻來解釋這個過程。

想像一下我們要教一個神經網路辨認圖像中的鳥。這個網路是分層的。

第一步:從像素到簡單特徵。 最底層的輸入是圖像的原始像素,對電腦來說,這只是一堆代表顏色和亮度的數字。網路的第一層並不會直接去尋找「鳥」,而是學習去偵測一些非常基礎的特徵(features),例如邊緣(edges)。辛頓用手勢比劃道:一個「垂直邊緣偵測器」是怎麼運作的?它會對一條垂直線上的像素賦予「正權重」,同時對其旁邊的像素賦予「負權重」。當這條線上的像素是亮的,而旁邊是暗的時,這個偵測器就會被高度「激活」,告訴上一層:「嘿,我在這裡發現了一個垂直的邊緣!」透過學習,網路會自動生成成千上萬個這樣的偵測器,分別負責尋找不同方向、不同位置的邊緣。

第二步:從簡單特徵到複雜組合。 網路的更高層級會接收來自底層的這些邊緣信號。一個位於第二層的神經元可能會學習去組合這些簡單特徵。例如,如果它同時接收到一個來自下方的垂直邊緣信號和一個來自旁邊的水平邊緣信號,它可能會被激活,代表它偵測到了一個「角落」或者一個「鳥喙般的銳角」。如果它偵測到許多邊緣圍成一圈,它可能就變成了一個「圓形偵測器」,也許對辨識鳥的眼睛很有用。

第三步:層層遞進,形成抽象概念。 這個過程會一層一層地往上疊加。更高層的神經元會組合更複雜的特徵。例如,一個「鳥頭偵測器」可能會在接收到一個「鳥喙」特徵和一個「眼睛」特徵,並且這兩個特徵處於正確的相對位置時,才被激活。最終,在網路的最高層,一個「鳥類偵測器」會被激活,當它從下層接收到足夠多的「鳥頭」、「翅膀」、「鳥腳」等複雜特徵的組合信號時,它就會輸出一個高概率值,告訴我們:「這張圖裡很有可能是一隻鳥」。

這就是神經網路的分層特徵偵測(Hierarchical Feature Detection)機制。但最神奇的地方在於,我們並不需要手動去設計這些偵測器。網路是自己學會這一切的。它是如何做到的呢?這就要歸功於辛頓等人發展的關鍵演算法——反向傳播(Backpropagation)

整個學習過程可以簡化為以下幾個循環步驟:

  1. 隨機開始: 最初,網路中所有數十億個連結的權重都是隨機設定的。它就像一個什麼都不知道的「混沌系統」。
  2. 前向傳播與預測: 你給它看一張鳥的圖片,信號從像素層開始,一層一層地往前傳播,直到最頂層輸出一個預測。因為權重是隨機的,所以第一次的預測幾乎肯定是錯的,比如它可能會說:「這有 50% 的機率是鳥」。
  3. 計算誤差: 你告訴它:「不對,正確答案是 100% 是鳥。」系統會計算出預測值(50%)和真實值(100%)之間的誤差(error)
  4. 反向傳播誤差信號: 這是最關鍵的一步。這個誤差信號會從網路的頂層開始,反向地、一層一層地傳播回去。在傳播的過程中,系統會利用微積分(calculus)計算出每一個連結權重對最終的總誤差「貢獻」了多少責任。
  5. 微調權重: 根據每個權重應負的責任,系統會對它進行一次微小的調整。如果某個連結讓最終的結果變得更糟,它的權重就會被調低一點;如果它有助於得到正確答案,它的權重就會被調高一點。
  6. 重複迭代: 這個過程會重複數百萬次,用成千上萬張不同的圖片來訓練。每一次迭代,網路都會變得比上一次「更懂」一點。久而久之,這套原本隨機的系統,就會為了「最小化誤差」這個單一目標,自動地、湧現式地學習出從邊緣到鳥喙再到整隻鳥的這種高效的、分層的特徵識別結構。

辛頓進一步解釋,同樣的原理也適用於語言模型。模型會學習單詞的「嵌入向量」(embedding vector),也就是用一組數字來代表詞語的意義。然後,透過分析大量文本,模型會不斷調整這些向量,使得意義相近的詞語在數學空間中的位置也相近。當它要預測下一個詞時,它並非簡單地做統計,而是真正地在理解前面句子的「意義」,然後生成一個代表它預測的「思想向量」,再從這個向量中解碼出最可能的下一個詞。這解釋了為什麼大型語言模型能夠進行連貫的對話和推理,因為它們在某種程度上,確實捕捉到了語言背後的深層結構和意義。

透過對這兩大思潮和神經網路學習機制的深入剖析,辛頓為我們揭開了 AI 發展的神秘面紗,也為他接下來要闡述的「生存威脅」鋪平了道路。正是因為這種學習機制的強大與高效,AI 的發展速度才會如此驚人,以至於連他這位「AI 教父」都感到了前所未有的憂慮。