Nick Montfort《Generating Reports, Fiction, and Text That Sounds Good》

這份由 Nick Montfort 撰寫的文章主要探討了自然語言生成（NLG）的三個不同面向：大型語言模型（LLMs）、自動化報告系統（Automated Reporting）以及故事生成系統（Storytelling Systems）。

核心論點一：大型語言模型（LLMs）的本質是機率分佈，而非理解世界的作者

1. LLMs 的基本定義與運作機制

Nick Montfort 在文章開篇（第 2-4 頁）首先對當前最熱門的大型語言模型（如 GPT-2, GPT-3, ChatGPT 等）進行了本質上的解構。他指出，儘管大眾和媒體經常將這些模型視為某種具有智慧的代理人，甚至是潛在的「假新聞生成器」，但在技術本質上，LLM 僅僅是「詞彙序列上的機率分佈（probability distribution over sequences of words）」。

這意味著，當一個 LLM 接收到一段輸入文本時，它所做的事情並不是像人類作者那樣去思考「接下來情節該如何發展」或「事實是什麼」，而是根據它在海量訓練數據中學到的統計規律，計算出「哪一個詞接在後面聽起來最順暢、機率最高」。

作者用「文本的語意不清（textual glossolalia）」或「說方言（speaking in tongues）」來形容 LLM 的輸出。這種類比非常精確地指出了 LLM 的特徵：表面上看起來非常流利、符合語法結構，甚至帶有某種修辭的美感，但其內部缺乏對應的意指（signification）或對現實世界的參照。

2.「未經修飾」的 LLM 與人類意圖的差異

文章特別提到了「純粹」或「原始」（raw）LLM 的行為，這與我們現在習慣使用的經過「人類回饋強化學習（RLHF）」調教過的聊天機器人（如 ChatGPT）有所不同。

原始模型的行為： 如果給一個原始 LLM 一道算術題，它可能不會給出答案，而是會生成更多類似算術題的文本，或者生成一段試圖解決問題但邏輯錯誤的文字，甚至可能生成一段電腦程式碼。這是因為它只是在模仿它在訓練資料中看過的「模式」，而不是在「解決問題」。
參數的影響： 作者提到了「溫度（temperature）」這個參數。當溫度設定較低時，模型傾向於選擇機率最高的詞，生成的文本會非常保守、典型；當溫度設定較高時，模型會選擇較低機率的詞，生成的文本會變得創新、不尋常，甚至語無倫次。這進一步證明了 LLM 是基於統計機率運作的，而非基於對語義的理解。

3. LLM 不具備「世界模型（World Model）」

這是本篇文章對 LLM 最核心的批評之一。作者主張，寫作（無論是新聞報導還是小說）通常涉及想像或參照一個「底層的文字實際世界（underlying textual actual world）」。

記者的運作模式： 觀察現實世界發生的事件 -> 理解這些事件 -> 將其轉化為文字報導。
小說家的運作模式： 想像一個虛構世界（包含角色、動機、因果關係）-> 構思情節 -> 用文字敘述出來。
LLM 的運作模式： 看到前面的字 -> 預測下一個字。

LLM 並不「知道」什麼是華盛頓特區、什麼是公主、什麼是早晨。它內部沒有這些實體的概念模型。文章中舉了兩個生動的例子來說明這一點：

公主的故事： Mistral 7B 模型生成了一個關於公主的故事，開頭寫道：「她有一頭金髮和藍眼睛。她的父母是貧窮但快樂的人，他們非常愛她。」
- 分析： 這段文字在語法上非常通順，讀起來很有「故事感」。但邏輯上是荒謬的：生在貧窮家庭的女孩通常不被稱為「公主」（除非是童話中的隱喻，但模型顯然只是在做詞彙拼接）。這顯示模型只是將「公主」這個詞與常見的童話描述詞彙（金髮、藍眼、愛）結合，卻沒有維持「皇室成員通常富有」這個世界邏輯。
餅乾怪獸（Cookie Monster）的死訊： 當輸入看起來像新聞報導的開頭「華盛頓特區——白宮週五早上宣佈」時，模型生成了：「……它對一位受人愛戴的 27 歲家庭成員的去世感到『深切悲痛』。『我們對餅乾怪獸的離世深感悲痛』，發言人 Sarah Huckabee Sanders 在聲明中說。」
- 分析： 這段文字展示了 LLM 驚人的「流暢度」與「荒謬性」的結合。它掌握了新聞發言人的語氣、格式、人名，但內容卻是關於《芝麻街》角色的虛構死訊。這證明了 LLM 並無法區分現實與虛構，它只是在生成「聽起來像新聞的文本」。

4. 結論：LLM 擅長的是「語篇連貫性」而非「敘事」

Montfort 總結道，LLM 極度擅長生成「聽起來不錯的文本」（Text That Sounds Good）。它們解決了過去幾十年來電腦生成文本「不通順、生硬」的問題。然而，它們並不是記者，也不是故事講述者，因為它們缺乏對事實的參照能力（Reporting 的核心）和對虛構世界邏輯的構建能力（Storytelling 的核心）。

核心論點二：自動化報告系統（Reporting Systems）的歷史是「資料文本化」的過程

1. 定義「文本化（Textualization）」

與 LLM 的「無中生有」不同，文章回顧了從 1970 年代至今的自動化報告系統（第 5-7 頁）。作者使用「文本化（textualization）」一詞來描述這類系統的功能。就像「資料視覺化（visualization）」是將數據變成圖表，「資料聽覺化（sonification）」是將數據變成聲音，「文本化」則是將結構化、定量的數據轉換為人類可讀的自然語言。

這類系統的關鍵特徵是：它們必須基於事實數據。 它們不能像 LLM 那樣隨意編造餅乾怪獸的死訊，它們的目的是準確傳達數據背後的意義。

2. 經典的三階段架構

文章指出，在符號人工智慧（Symbolic AI）時代，這類系統通常採用標準的三階段管道架構（Pipeline Architecture）：

文件規劃（Document Planning）： 決定要說什麼，確定文章的高層結構（例如：先講比分，再講關鍵球員）。
微觀規劃（Microplanning）： 決定句子的具體結構、指代關係（例如：是用「他」還是用名字）、選詞。
實現（Realization）： 根據語法規則生成最終的字元序列。

3. 歷史上的重要案例分析

作者透過一系列案例展示了這類系統的演進：

PROTEUS (1974)： 由 Anthony Davey 開發，能根據「井字遊戲（tic-tac-toe）」的棋局數據生成解說。
- 特點： 它不只是流水帳，還能使用像「我威脅你」、「你封鎖了」這樣的策略性語言，解釋下棋的邏輯。
StatsMonkey (2009)： 棒球新聞生成系統。
- 特點： 它具備敘事重組的能力。它不會依照時間順序（第一局、第二局…）報導，而是會識別出「高潮事件」（如全壘打），並將其放在報導的開頭，符合新聞寫作的「倒金字塔」結構。這顯示了系統對「敘事話語（narrative discourse）」的理解。
TEXT (1985)： Kathleen McKeown 開發，用於解釋海軍資料庫。
- 特點： 它能根據資料庫屬性進行「比較」，例如描述巡洋艦與護衛艦的差異。
QuakeBot (2012 起)： 洛杉磯時報使用的系統。
- 特點： 這是實際投入商業應用的案例，能根據美國地質調查局的數據，瞬間生成地震快訊。這類系統追求的是速度與準確性。

4. 修辭與視角的引入：PAULINE 與 Arria NLG

這是本節最精彩的部分，作者強調自動化報告不僅僅是陳述事實，還能包含「修辭（Rhetoric）」。

PAULINE (1988)： Eduard Hovy 開發的系統。
- 核心論點： 同一組數據，可以生成完全不同立場的文章。
- 案例： 針對耶魯大學拆除校園貧民窟的事件，PAULINE 可以生成一篇語氣平靜、客觀的報導，也可以生成一篇開頭為「我對耶魯的行為感到憤怒… 這真的讓我不爽（It pisses me off…）」的激進文章。
- 意義： 這證明了早期的符號系統就能夠模擬「觀點」和「語氣」，而且是在嚴格遵守底層事實數據的前提下進行的。這些文章雖然帶有情緒，但不是「假新聞」。
Arria NLG (2019)： 英國大選報導系統。
- 特點： 即使在 GPT-2 已經問世的 2019 年，BBC 在報導大選時仍選擇使用這種傳統的、不含機器學習的符號系統。
- 原因： 因為選舉報導要求絕對的準確性（不能產生幻覺），且需要符合 BBC 的特定風格，還要涵蓋每一個選區（數據稀疏，無法訓練神經網絡）。這強調了在追求真確性的領域，傳統 NLG 技術仍優於 LLM 。

核心論點三：自動化故事生成（Storytelling）重在模擬世界與認知，而非僅是文字

1. 故事生成與報告生成的區別

在文章的第三部分（第 7-12 頁），Montfort 轉向探討虛構故事的生成。如果說報告系統是將「現有的數據」文本化，那麼故事生成系統則必須先「發明」數據（情節、人物、事件），然後再將其講述出來。

這類研究的重點長期以來都不在於表面文字的優美（這是 LLM 的強項），而在於底層世界的邏輯一致性、角色的認知動機以及情節的結構。

2. 早期嘗試：語法與隨機性

早期的嘗試（如 1960 年代的 Yngve, Klein 等）主要依賴語法結構或簡單的隨機填充。

例子： Victor Yngve 的句子生成器雖然能產出像「工程師 Small 擁有四個拋光的沙穹」這樣充滿詩意的荒謬句子，但它沒有連貫的情節或意義，這與現代 LLM 的「高階胡言亂語」有異曲同工之妙，但技術手段原始得多。

3. 模擬深層敘事：TALE-SPIN 的里程碑

James Meehan 在 1976 年開發的 TALE-SPIN 是一個關鍵轉折點。

運作機制： 該系統不再只是玩弄文字，而是模擬了一個充滿動物角色的世界。每個角色都有「目標」（如：口渴、飢餓），並且具備「規劃（planning）」能力來解決問題（如：尋找水源、詢問朋友）。
意義： 故事是從角色的互動中「湧現（emerge）」出來的，而不是預先寫好的。
案例分析（喬治螞蟻的故事）： 文章引用了一個故事，螞蟻喬治口渴，掉進水裡，被威爾瑪鳥救起。雖然故事結尾有點模糊（喬治最後掉到草地上，結局未明），但這展示了系統如何透過模擬物理規則（重力）和角色關係（感恩、幫助）來生成情節。
TALE-SPIN 效應（The TALE-SPIN Effect）： 作者引用 Noah Wardrip-Fruin 的概念，對比了「ELIZA 效應」。
- ELIZA 效應： 系統很簡單（只是關鍵字匹配），但用戶以為它很聰明。
- TALE-SPIN 效應： 系統內部極度複雜（模擬了認知、規劃、物理），但輸出的故事讀起來卻很枯燥、笨拙。這說明了僅有強大的底層模型是不夠的，還需要好的敘事表達。

4. 不同的建模路徑

文章詳細介紹了幾種不同的故事生成路徑，強調了該領域的多樣性：

基於規劃（Planning）： 如 TAILOR (1991) 。透過給角色製造衝突來讓故事變有趣。例如北極熊 Horace 欺騙燕鷗 Truman 並吃掉它的故事。這類系統關注的是「目標」與「阻礙」。
基於語法（Grammar）： 如 GESTER (1989) 。它不模擬角色心理，而是用一套「故事語法」來生成類似法國史詩（Chanson de Geste）的情節摘要。這類系統關注的是「類型學規則」（例如：基督徒騎士可以追求異教徒女性，反之則不行）。
基於案例推理（Case-Based Reasoning）： 如 MINSTREL (1994) 。這是一個非常有影響力的系統，它透過修改舊的故事案例來解決新問題，模擬人類的「創造力」。它還關注故事的「寓意」（如：驕傲必敗）。
基於情緒與張力（Emotion and Tension）： 如 MEXICA (1999) 。由 Rafael Pérez y Pérez 開發，背景設定在阿茲特克神話。
- 獨特之處： 它模擬了寫作的週期過程——「參與（Engagement，自由發想）」與「反思（Reflection，批判與修改）」。它關注情節中的情緒起伏和張力曲線，而不僅僅是因果邏輯。

5. 敘事話語的進化

早期的故事生成系統（如 TALE-SPIN）生成的文字非常生硬（例如：「喬治很渴。喬治想去水邊。」）。後期的研究開始關注如何講故事（Discourse Level）。

FABULIST： 結合了強大的情節生成與敘事話語生成。
Curveship： Montfort 自己開發的系統，專注於敘事風格的變換（可以改變講故事的時間順序、視角等）。
MEXICA + Curveship： 將 MEXICA 的情節生成能力與 Curveship 的敘事能力結合，是該領域整合的一個範例。

核心論點四：未來的方向是整合（Synthesis）

1. 三種系統的比較與互補

在結論部分（第 13-14 頁），Montfort 將上述三種技術進行了綜合比較，這是本文的總結性觀點：

LLMs：
- 優點： 極度擅長表面文字的生成（Surface Generation），文字流暢、多樣、符合語法習慣。
- 缺點： 缺乏對事實的檢核，缺乏對世界邏輯、角色動機、情節結構的深層理解。容易產生幻覺。
自動化報告系統（Reporting）：
- 優點： 精確處理數據，確保真實性（Factuality），能根據修辭目標調整觀點。
- 缺點： 依賴結構化數據輸入，無法憑空創作。
自動化故事生成（Storytelling）：
- 優點： 具備深層邏輯（Deep Logic），能模擬因果關係、角色心理、長篇結構。
- 缺點： 表面文字往往生硬、公式化（Formulaic）。

2. 整合的路徑

文章主張，未來的文本生成研究不應只停留在 LLM 上，而應該從歷史中汲取靈感，將這三者結合：

利用 Storytelling Systems 來構建合理的情節和角色動機（提供「骨架」）。
利用 Reporting Systems 的技術來處理事實數據或確保敘事結構的準確性（提供「準則」）。
利用 LLMs 來作為「實現器（Realizer）」，將上述結構轉化為流暢、自然的文字（提供「皮膚」）。

透過這種方式，我們可以解決 TALE-SPIN 時代「故事邏輯好但文筆差」的問題，同時解決 LLM 時代「文筆好但邏輯胡扯」的問題。

3. 文學研究者的視角

最後，作者呼籲文學學者和讀者在閱讀電腦生成的文本時，不能只看表面的文字（Surface texts），而必須深入閱讀「底層系統（Underlying systems）」。要理解為什麼一個文本是這樣生成的，必須理解背後的演算法邏輯（是機率？是規劃？還是語法？）。這對於數位人文和文學評論來說是一個新的挑戰與方向。