Nick Montfort《Generating Reports, Fiction, and Text That Sounds Good》

這份由 Nick Montfort 撰寫的文章主要探討了自然語言生成(NLG)的三個不同面向:大型語言模型(LLMs)、自動化報告系統(Automated Reporting)以及故事生成系統(Storytelling Systems)。


核心論點一:大型語言模型(LLMs)的本質是機率分佈,而非理解世界的作者

1. LLMs 的基本定義與運作機制

Nick Montfort 在文章開篇(第 2-4 頁)首先對當前最熱門的大型語言模型(如 GPT-2, GPT-3, ChatGPT 等)進行了本質上的解構。他指出,儘管大眾和媒體經常將這些模型視為某種具有智慧的代理人,甚至是潛在的「假新聞生成器」,但在技術本質上,LLM 僅僅是「詞彙序列上的機率分佈(probability distribution over sequences of words)」。

這意味著,當一個 LLM 接收到一段輸入文本時,它所做的事情並不是像人類作者那樣去思考「接下來情節該如何發展」或「事實是什麼」,而是根據它在海量訓練數據中學到的統計規律,計算出「哪一個詞接在後面聽起來最順暢、機率最高」。

作者用「文本的語意不清(textual glossolalia)」或「說方言(speaking in tongues)」來形容 LLM 的輸出。這種類比非常精確地指出了 LLM 的特徵:表面上看起來非常流利、符合語法結構,甚至帶有某種修辭的美感,但其內部缺乏對應的意指(signification)或對現實世界的參照。

2.「未經修飾」的 LLM 與人類意圖的差異

文章特別提到了「純粹」或「原始」(raw)LLM 的行為,這與我們現在習慣使用的經過「人類回饋強化學習(RLHF)」調教過的聊天機器人(如 ChatGPT)有所不同。

  • 原始模型的行為: 如果給一個原始 LLM 一道算術題,它可能不會給出答案,而是會生成更多類似算術題的文本,或者生成一段試圖解決問題但邏輯錯誤的文字,甚至可能生成一段電腦程式碼。這是因為它只是在模仿它在訓練資料中看過的「模式」,而不是在「解決問題」。
  • 參數的影響: 作者提到了「溫度(temperature)」這個參數。當溫度設定較低時,模型傾向於選擇機率最高的詞,生成的文本會非常保守、典型;當溫度設定較高時,模型會選擇較低機率的詞,生成的文本會變得創新、不尋常,甚至語無倫次。這進一步證明了 LLM 是基於統計機率運作的,而非基於對語義的理解。

3. LLM 不具備「世界模型(World Model)」

這是本篇文章對 LLM 最核心的批評之一。作者主張,寫作(無論是新聞報導還是小說)通常涉及想像或參照一個「底層的文字實際世界(underlying textual actual world)」。

  • 記者的運作模式: 觀察現實世界發生的事件 -> 理解這些事件 -> 將其轉化為文字報導。
  • 小說家的運作模式: 想像一個虛構世界(包含角色、動機、因果關係)-> 構思情節 -> 用文字敘述出來。
  • LLM 的運作模式: 看到前面的字 -> 預測下一個字。

LLM 並不「知道」什麼是華盛頓特區、什麼是公主、什麼是早晨。它內部沒有這些實體的概念模型。文章中舉了兩個生動的例子來說明這一點:

  1. 公主的故事: Mistral 7B 模型生成了一個關於公主的故事,開頭寫道:「她有一頭金髮和藍眼睛。她的父母是貧窮但快樂的人,他們非常愛她。」
    • 分析: 這段文字在語法上非常通順,讀起來很有「故事感」。但邏輯上是荒謬的:生在貧窮家庭的女孩通常不被稱為「公主」(除非是童話中的隱喻,但模型顯然只是在做詞彙拼接)。這顯示模型只是將「公主」這個詞與常見的童話描述詞彙(金髮、藍眼、愛)結合,卻沒有維持「皇室成員通常富有」這個世界邏輯。
  2. 餅乾怪獸(Cookie Monster)的死訊: 當輸入看起來像新聞報導的開頭「華盛頓特區——白宮週五早上宣佈」時,模型生成了:「……它對一位受人愛戴的 27 歲家庭成員的去世感到『深切悲痛』。『我們對餅乾怪獸的離世深感悲痛』,發言人 Sarah Huckabee Sanders 在聲明中說。」
    • 分析: 這段文字展示了 LLM 驚人的「流暢度」與「荒謬性」的結合。它掌握了新聞發言人的語氣、格式、人名,但內容卻是關於《芝麻街》角色的虛構死訊。這證明了 LLM 並無法區分現實與虛構,它只是在生成「聽起來像新聞的文本」。

4. 結論:LLM 擅長的是「語篇連貫性」而非「敘事」

Montfort 總結道,LLM 極度擅長生成「聽起來不錯的文本」(Text That Sounds Good)。它們解決了過去幾十年來電腦生成文本「不通順、生硬」的問題。然而,它們並不是記者,也不是故事講述者,因為它們缺乏對事實的參照能力(Reporting 的核心)和對虛構世界邏輯的構建能力(Storytelling 的核心)。


核心論點二:自動化報告系統(Reporting Systems)的歷史是「資料文本化」的過程

1. 定義「文本化(Textualization)」

與 LLM 的「無中生有」不同,文章回顧了從 1970 年代至今的自動化報告系統(第 5-7 頁)。作者使用「文本化(textualization)」一詞來描述這類系統的功能。就像「資料視覺化(visualization)」是將數據變成圖表,「資料聽覺化(sonification)」是將數據變成聲音,「文本化」則是將結構化、定量的數據轉換為人類可讀的自然語言。

這類系統的關鍵特徵是:它們必須基於事實數據。 它們不能像 LLM 那樣隨意編造餅乾怪獸的死訊,它們的目的是準確傳達數據背後的意義。

2. 經典的三階段架構

文章指出,在符號人工智慧(Symbolic AI)時代,這類系統通常採用標準的三階段管道架構(Pipeline Architecture):

  1. 文件規劃(Document Planning): 決定要說什麼,確定文章的高層結構(例如:先講比分,再講關鍵球員)。
  2. 微觀規劃(Microplanning): 決定句子的具體結構、指代關係(例如:是用「他」還是用名字)、選詞。
  3. 實現(Realization): 根據語法規則生成最終的字元序列。

3. 歷史上的重要案例分析

作者透過一系列案例展示了這類系統的演進:

  • PROTEUS (1974): 由 Anthony Davey 開發,能根據「井字遊戲(tic-tac-toe)」的棋局數據生成解說。
    • 特點: 它不只是流水帳,還能使用像「我威脅你」、「你封鎖了」這樣的策略性語言,解釋下棋的邏輯。
  • StatsMonkey (2009): 棒球新聞生成系統。
    • 特點: 它具備敘事重組的能力。它不會依照時間順序(第一局、第二局…)報導,而是會識別出「高潮事件」(如全壘打),並將其放在報導的開頭,符合新聞寫作的「倒金字塔」結構。這顯示了系統對「敘事話語(narrative discourse)」的理解。
  • TEXT (1985): Kathleen McKeown 開發,用於解釋海軍資料庫。
    • 特點: 它能根據資料庫屬性進行「比較」,例如描述巡洋艦與護衛艦的差異。
  • QuakeBot (2012 起): 洛杉磯時報使用的系統。
    • 特點: 這是實際投入商業應用的案例,能根據美國地質調查局的數據,瞬間生成地震快訊。這類系統追求的是速度與準確性。

4. 修辭與視角的引入:PAULINE 與 Arria NLG

這是本節最精彩的部分,作者強調自動化報告不僅僅是陳述事實,還能包含「修辭(Rhetoric)」。

  • PAULINE (1988): Eduard Hovy 開發的系統。
    • 核心論點: 同一組數據,可以生成完全不同立場的文章。
    • 案例: 針對耶魯大學拆除校園貧民窟的事件,PAULINE 可以生成一篇語氣平靜、客觀的報導,也可以生成一篇開頭為「我對耶魯的行為感到憤怒… 這真的讓我不爽(It pisses me off…)」的激進文章。
    • 意義: 這證明了早期的符號系統就能夠模擬「觀點」和「語氣」,而且是在嚴格遵守底層事實數據的前提下進行的。這些文章雖然帶有情緒,但不是「假新聞」。
  • Arria NLG (2019): 英國大選報導系統。
    • 特點: 即使在 GPT-2 已經問世的 2019 年,BBC 在報導大選時仍選擇使用這種傳統的、不含機器學習的符號系統。
    • 原因: 因為選舉報導要求絕對的準確性(不能產生幻覺),且需要符合 BBC 的特定風格,還要涵蓋每一個選區(數據稀疏,無法訓練神經網絡)。這強調了在追求真確性的領域,傳統 NLG 技術仍優於 LLM 。

核心論點三:自動化故事生成(Storytelling)重在模擬世界與認知,而非僅是文字

1. 故事生成與報告生成的區別

在文章的第三部分(第 7-12 頁),Montfort 轉向探討虛構故事的生成。如果說報告系統是將「現有的數據」文本化,那麼故事生成系統則必須先「發明」數據(情節、人物、事件),然後再將其講述出來。

這類研究的重點長期以來都不在於表面文字的優美(這是 LLM 的強項),而在於底層世界的邏輯一致性角色的認知動機以及情節的結構

2. 早期嘗試:語法與隨機性

早期的嘗試(如 1960 年代的 Yngve, Klein 等)主要依賴語法結構或簡單的隨機填充。

  • 例子: Victor Yngve 的句子生成器雖然能產出像「工程師 Small 擁有四個拋光的沙穹」這樣充滿詩意的荒謬句子,但它沒有連貫的情節或意義,這與現代 LLM 的「高階胡言亂語」有異曲同工之妙,但技術手段原始得多。

3. 模擬深層敘事:TALE-SPIN 的里程碑

James Meehan 在 1976 年開發的 TALE-SPIN 是一個關鍵轉折點。

  • 運作機制: 該系統不再只是玩弄文字,而是模擬了一個充滿動物角色的世界。每個角色都有「目標」(如:口渴、飢餓),並且具備「規劃(planning)」能力來解決問題(如:尋找水源、詢問朋友)。
  • 意義: 故事是從角色的互動中「湧現(emerge)」出來的,而不是預先寫好的。
  • 案例分析(喬治螞蟻的故事): 文章引用了一個故事,螞蟻喬治口渴,掉進水裡,被威爾瑪鳥救起。雖然故事結尾有點模糊(喬治最後掉到草地上,結局未明),但這展示了系統如何透過模擬物理規則(重力)和角色關係(感恩、幫助)來生成情節。
  • TALE-SPIN 效應(The TALE-SPIN Effect): 作者引用 Noah Wardrip-Fruin 的概念,對比了「ELIZA 效應」。
    • ELIZA 效應: 系統很簡單(只是關鍵字匹配),但用戶以為它很聰明。
    • TALE-SPIN 效應: 系統內部極度複雜(模擬了認知、規劃、物理),但輸出的故事讀起來卻很枯燥、笨拙。這說明了僅有強大的底層模型是不夠的,還需要好的敘事表達。

4. 不同的建模路徑

文章詳細介紹了幾種不同的故事生成路徑,強調了該領域的多樣性:

  • 基於規劃(Planning): 如 TAILOR (1991) 。透過給角色製造衝突來讓故事變有趣。例如北極熊 Horace 欺騙燕鷗 Truman 並吃掉它的故事。這類系統關注的是「目標」與「阻礙」。
  • 基於語法(Grammar): 如 GESTER (1989) 。它不模擬角色心理,而是用一套「故事語法」來生成類似法國史詩(Chanson de Geste)的情節摘要。這類系統關注的是「類型學規則」(例如:基督徒騎士可以追求異教徒女性,反之則不行)。
  • 基於案例推理(Case-Based Reasoning): 如 MINSTREL (1994) 。這是一個非常有影響力的系統,它透過修改舊的故事案例來解決新問題,模擬人類的「創造力」。它還關注故事的「寓意」(如:驕傲必敗)。
  • 基於情緒與張力(Emotion and Tension): 如 MEXICA (1999) 。由 Rafael Pérez y Pérez 開發,背景設定在阿茲特克神話。
    • 獨特之處: 它模擬了寫作的週期過程——「參與(Engagement,自由發想)」與「反思(Reflection,批判與修改)」。它關注情節中的情緒起伏和張力曲線,而不僅僅是因果邏輯。

5. 敘事話語的進化

早期的故事生成系統(如 TALE-SPIN)生成的文字非常生硬(例如:「喬治很渴。喬治想去水邊。」)。 後期的研究開始關注如何講故事(Discourse Level)。

  • FABULIST: 結合了強大的情節生成與敘事話語生成。
  • Curveship: Montfort 自己開發的系統,專注於敘事風格的變換(可以改變講故事的時間順序、視角等)。
  • MEXICA + Curveship: 將 MEXICA 的情節生成能力與 Curveship 的敘事能力結合,是該領域整合的一個範例。

核心論點四:未來的方向是整合(Synthesis)

1. 三種系統的比較與互補

在結論部分(第 13-14 頁),Montfort 將上述三種技術進行了綜合比較,這是本文的總結性觀點:

  • LLMs:
    • 優點: 極度擅長表面文字的生成(Surface Generation),文字流暢、多樣、符合語法習慣。
    • 缺點: 缺乏對事實的檢核,缺乏對世界邏輯、角色動機、情節結構的深層理解。容易產生幻覺。
  • 自動化報告系統(Reporting):
    • 優點: 精確處理數據,確保真實性(Factuality),能根據修辭目標調整觀點。
    • 缺點: 依賴結構化數據輸入,無法憑空創作。
  • 自動化故事生成(Storytelling):
    • 優點: 具備深層邏輯(Deep Logic),能模擬因果關係、角色心理、長篇結構。
    • 缺點: 表面文字往往生硬、公式化(Formulaic)。

2. 整合的路徑

文章主張,未來的文本生成研究不應只停留在 LLM 上,而應該從歷史中汲取靈感,將這三者結合:

  • 利用 Storytelling Systems 來構建合理的情節和角色動機(提供「骨架」)。
  • 利用 Reporting Systems 的技術來處理事實數據或確保敘事結構的準確性(提供「準則」)。
  • 利用 LLMs 來作為「實現器(Realizer)」,將上述結構轉化為流暢、自然的文字(提供「皮膚」)。

透過這種方式,我們可以解決 TALE-SPIN 時代「故事邏輯好但文筆差」的問題,同時解決 LLM 時代「文筆好但邏輯胡扯」的問題。

3. 文學研究者的視角

最後,作者呼籲文學學者和讀者在閱讀電腦生成的文本時,不能只看表面的文字(Surface texts),而必須深入閱讀「底層系統(Underlying systems)」。要理解為什麼一個文本是這樣生成的,必須理解背後的演算法邏輯(是機率?是規劃?還是語法?)。這對於數位人文和文學評論來說是一個新的挑戰與方向。

Leave a Comment