Dario Amodei
技術的青春期 直面並克服強大 AI 的風險
2026 年 1 月
在卡爾·薩根的小說《接觸》的電影版中,有一幕是這樣的:主角,一位探測到來自外星文明第一個無線電信號的天文學家,正在被考慮擔任人類代表去會見外星人。面試她的國際小組問道:「如果你只能問 [外星人] 一個問題,你會問什麼?」她的回答是:「我會問他們,『你們是怎麼做到的?你們是如何演化的,你們是如何度過這個技術青春期而不自我毀滅的?』」當我思考人類目前在 AI 處於何種境地——思考我們正處於什麼風口浪尖——我的思緒總是不斷回到那一幕,因為這個問題對我們目前的處境來說太貼切了,我真希望我們能有外星人的答案來指引我們。我相信我們正在進入一個既動盪又不可迴避的成年禮,這將考驗我們作為一個物種的本質。人類即將被賦予幾乎難以想像的力量,但我們的社會、政治和技術系統是否擁有運用這種力量的成熟度,目前還極不明朗。
在我的文章《仁慈的機器》中,我試圖勾勒出一個已經成年並步入正軌的文明願景,在那裡風險已經得到解決,強大的 AI 被熟練且富有同情心地應用,以提升每個人的生活品質。我提出 AI 可以在生物學、神經科學、經濟發展、世界和平以及工作與意義方面帶來巨大的進步。我覺得給人們一些鼓舞人心的東西去奮鬥很重要,而在這一點上,AI 加速主義者和 AI 安全倡導者似乎——奇怪地——都失敗了。但在這篇文章中,我想直面這個成年禮本身:繪製我們即將面臨的風險地圖,並試著開始制定戰鬥計劃來戰勝它們。我深信我們獲勝的能力,深信人類的精神和其高貴之處,但我們必須正視現實,不抱任何幻想。
就像談論好處一樣,我認為以審慎和深思熟虑的方式討論風險很重要。特別是,我認為至關重要的是:
- 避免末世論。在這裡,我所說的「末世論」不僅僅是指相信毀滅是不可避免的一種觀點(這既是一種錯誤,也是一種自我應驗的預言),而且更廣泛地指,以一種準宗教的方式來思考 AI 風險。
- 許多年來,許多人一直在以分析和冷靜的方式思考 AI 風險,但我的印象是,在 2023-2024 年 AI 風險擔憂達到頂峰時,一些最不理智的聲音卻躍居上風,通常通過聳人聽聞的社交媒體帳號實現。這些聲音使用了令人反感的、類似宗教或科幻小說的語言,並在沒有證據支持的情況下呼籲採取極端行動。即使當時也很清楚,反彈是不可避免的,而且這個問題會變得文化兩極分化,從而陷入僵局。
- 截至 2025-2026 年,鐘擺已經擺動回來,現在是 AI 的機遇,而非 AI 的風險,正在驅動許多政治決策。這種搖擺是不幸的,因為技術本身並不在乎什麼是流行的,而且我們在 2026 年距離真正的危險比 2023 年要近得多。教訓是,我們需要以現實、實用的方式討論和解決風險:冷靜、基於事實,並且具備在潮流變動中生存下來的能力。
- 承認不確定性。我在這篇文章中提出的擔憂有很多可能會變得毫無意義。這裡沒有任何內容旨在傳達確定性,甚至不是可能性。最明顯的是,AI 的發展速度可能根本遠不及我想像的那麼快。
- 或者,即使它發展得很快,這裡討論的部分或全部風險也可能不會發生(這當然很好),或者可能存在我沒有考慮到的其他風險。沒有人能完全自信地預測未來——但我們必須盡最大努力去規劃。
- 盡可能精準地進行干預。解決 AI 的風險將需要公司(和私人第三方行動者)採取的自願行動,以及政府採取的約束所有人的行動的混合體。對於我來說,採取這些自願行動——無論是親自採取還是鼓勵其他公司跟隨——都是顯而易見的選擇。我堅信政府行動在某種程度上也是必需的,但這些干預措施在性質上有所不同,因為它們可能會破壞經濟價值或強迫不情願的、對這些風險持懷疑態度的行動者(而且他們有可能是對的!)採取行動。法規產生反作用或加劇其試圖解決的問題也是很常見的(對於快速變化的技術來說更是如此)。因此,法規的審慎性非常重要:它們應尋求避免附帶損害,盡可能簡單,並施加盡可能小的負擔以完成工作。
- 說「當人類命運岌岌可危時,沒有任何行動是過於極端的!」很容易,但在實踐中,這種態度只會導致反彈。需要明確的是,我認為很有可能我們最終會達到一個需要採取更重大行動的地步,但這將取決於比我們今天擁有的更強有力的即將發生的、具體危險的證據,以及對危險有足夠具體的描述來制定有機會解決它的規則。我們今天能做的最有建設性的事情,是在我們了解是否有證據支持更強有力的規則的同時,倡導有限的規則。
儘管如此,我認為談論 AI 風險的最佳起點與我談論其好處的起點是一樣的:精確定義我們所討論的 AI 層級。引起我對文明層面擔憂的 AI 層級是我在《仁慈的機器》中描述的強大 AI 。我將在這裡重複我在那份文件中給出的定義:
- 所謂「強大 AI」,我指的是一個 AI 模型——可能在形式上類似於今天的 LLM(大語言模型),儘管它可能基於不同的架構,可能涉及多個交互的模型,並且可能以不同的方式進行訓練——具有以下屬性:
- 在純粹的智力方面,它在大多數相關領域(生物學、編程、數學、工程學、寫作等)都比諾貝爾獎得主更聰明。這意味著它可以證明未解的數學定理,寫出極好的小說,從頭開始編寫困難的代碼庫等。
- 除了只是一個「你可以交談的智能體」之外,它擁有虛擬工作的人類可用的所有界面,包括文本、音頻、視頻、滑鼠和鍵盤控制以及互聯網訪問。它可以從事任何由這些界面啟用的行動、通信或遠程操作,包括在互聯網上採取行動、向人類發出或接收指示、訂購材料、指導實驗、觀看視頻、製作視頻等等。它在做所有這些任務時,其技能再次超過了世界上最能幹的人類。
- 它不僅僅是被動地回答問題;相反,它可以被分配需要數小時、數天或數週才能完成的任務,然後離開去自主地完成這些任務,就像一個聰明的員工一樣,必要時會要求澄清。
- 它沒有物理實體(除了生活在電腦屏幕上),但它可以通過電腦控制現有的物理工具、機器人或實驗室設備;理論上,它甚至可以為自己設計機器人或設備來使用。
- 用於訓練模型的資源可以重新用於運行數百萬個實例(這與預計到 ~2027 年的集群規模相匹配),並且模型可以以大約人類速度的 10–100 倍吸收信息並生成行動。然而,它可能會受到物理世界或其交互的軟件的響應時間的限制。
- 這數百萬個副本中的每一個都可以在無關的任務上獨立行動,或者如果需要,可以像人類協作那樣全部一起工作,也許有不同的子群體經過微調,特別擅長特定任務。
我們可以將其總結為「數據中心裡的天才國度」。
正如我在《仁慈的機器》中所寫,強大 AI 可能僅有 1-2 年之遙,儘管也可能更遠。強大 AI 究竟何時到來是一個複雜的話題,值得用一篇文章單獨討論,但現在我只是想非常簡要地解釋一下,為什麼我認為它很有可能很快就會到來。
我在 Anthropic 的聯合創始人和我是第一批記錄和追蹤 AI 系統「縮放定律」的人——這一觀察表明,隨著我們增加更多的計算和訓練任務,AI 系統在幾乎每一個我們能測量的認知技能上都會可預測地變得更好。每隔幾個月,公眾情緒要么確信 AI「碰壁了」,要麼對某種將「根本改變遊戲規則」的新突破感到興奮,但事實是,在波動和公眾猜測背後,AI 的認知能力一直在平穩、堅定地增長。
我們現在已經到了 AI 模型開始在解決未解的數學問題方面取得進步的地步,並且在編程方面足夠好,以至於我遇到過的一些最強大的工程師現在幾乎將所有的編碼工作都交給了 AI 。三年前,AI 還在小學算術問題上掙扎,幾乎不能寫一行代碼。類似的進步率正在生物科學、金融、物理學和各種代理任務中發生。如果這種指數趨勢繼續下去——這並不確定,但現在有十年的記錄支持它——那麼在 AI 在幾乎所有方面都超越人類之前,不可能再有幾年的時間了。
事實上,這個圖景可能低估了可能的進步速度。由於 AI 現在正在編寫 Anthropic 的大部分代碼,它已經在實質上加速了我們構建下一代 AI 系統的進步速度。這個反饋循環逐月增強,可能離當前一代 AI 自主構建下一代僅有 1-2 年的時間。這個循環已經開始,並將在未來的幾個月和幾年裡加速。從 Anthropic 內部觀察過去 5 年的進步,並看看接下來幾個月的模型是如何形成的,我可以感受到進步的步伐,以及時鐘的倒計時。
在這篇文章中,我將假設這種直覺至少在某種程度上是正確的——並不是說強大 AI 肯定會在 1-2 年內到來,而是說它很有可能會到來,並且很有可能在接下來的幾年內到來。就像《仁慈的機器》一樣,認真對待這個前提可能會導致一些令人驚訝和不寒而慄的結論。雖然在《仁慈的機器》中我專注於這個前提的積極影響,但在這裡,我談論的事情將是令人不安的。這些是我們可能不想面對的結論,但這並不會使它們變得不真實。我只能說,我日以繼夜地專注於如何引導我們遠離這些負面結果並走向正面結果,在這篇文章中,我將詳細討論如何最好地做到這一點。
我認為掌握 AI 風險的最佳方法是問以下問題:假設一個字面意義上的「天才國度」在 ~2027 年出現在世界的某個地方。想像一下,比如說 5000 萬人,他們都比任何諾貝爾獎得主、政治家或技術人員更有能力。這個類比並不完美,因為這些天才可能有極其廣泛的動機和行為,從完全順從和服從,到在他們的動機方面奇怪和異類。但暫時堅持這個類比,假設你是一個大國的國家安全顧問,負責評估和回應這種情況。進一步想像,由於 AI 系統的運行速度比人類快數百倍,這個「國家」相對於所有其他國家擁有時間優勢:對於我們能採取的每一個認知行動,這個國家可以採取十個。
你應該擔心什麼?我會擔心以下事情:
- 自主性風險。這個國家的意圖和目標是什麼?它是敵對的,還是與我們有共同的價值觀?它能通過優越的武器、網絡行動、影響行動或製造業在軍事上主宰世界嗎?
- 用於破壞的濫用。假設這個新國家是可塑造的並且「遵循指示」——因此本質上是一個僱傭兵國度。想要造成破壞的現有流氓行為者(如恐怖分子)能否利用或操縱這個新國家的一些人來使自己更有效,從而大大破壞的規模?
- 用於奪取權力的濫用。如果這個國家實際上是由一個現有的強大行為者(如獨裁者或流氓企業行為者)建立和控制的呢?該行為者能否利用它獲得對整個世界的決定性或主導權力,打破現有的權力平衡?
- 經濟動盪。如果這個新國家在上述 #1–3 點列出的任何方面都不是安全威脅,而只是和平地參與全球經濟,它是否僅憑其先進的技術和高效就能破壞全球經濟,從而造成大規模失業或極度集中財富?
- 間接影響。由於這個新國家創造的所有新技術和生產力,世界將發生非常快的變化。其中一些變化是否會極度動盪?
我認為應該很清楚,這是一種危險的情況——一份來自稱職的國家安全官員給國家元首的報告可能會包含諸如「我們一個世紀以來面臨的最嚴重的國家安全威脅,甚至可能是有史以來最嚴重的」這樣的話語。這似乎是人类文明最優秀的頭腦應該專注的事情。
相反,我認為聳聳肩說「這裡沒什麼可擔心的!」是荒謬的。但是,面對快速的 AI 進步,這似乎是許多美國政策制定者的觀點,其中一些人否認任何 AI 風險的存在,當他們沒有完全被那些陳舊的熱點問題分散注意力時。人類需要醒來,這篇文章就是一次嘗試——可能是徒勞的,但值得一試——去震醒人們。
需要明確的是,我相信如果我們果斷且小心地行動,風險是可以克服的——我甚至會說我們的勝算很大。而且在它的盡頭有一個好得多的世界。但我們需要理解這是一個嚴重的文明挑戰。下面,我將逐一討論上述五類風險,以及我對如何解決它們的看法。
1. 抱歉,戴夫 自主性風險
數據中心裡的天才國度可以將其精力分配給軟件設計、網絡行動、物理技術的研發、關係建立和治理。很明顯,如果由於某種原因選擇這樣做,這個國家將有相當大的機會接管世界(無論是在軍事上還是在影響力和控制方面)並將其意願強加給其他人——或者做世界其他地方不想要且無法阻止的許多其他事情。顯然,我們一直擔心人類國家(如納粹德國或蘇聯)會這樣做,所以有理由認為,對於一個更聰明、更有能力的「AI 國家」來說,這也是可能的。
最好的反駁論點是,根據我的定義,AI 天才不會有物理實體,但請記住,它們可以接管現有的機器人基礎設施(如自動駕駛汽車),也可以加速機器人研發或建造機器人隊伍。目前尚不清楚擁有物理存在是否對有效控制甚至是必要的:大量的人類行動已經代表行為者從未在物理上見過的人執行。
因此,關鍵問題在於「如果它選擇這樣做」這一部分:我們的 AI 模型表現出這種行為的可能性有多大,在什麼條件下它們會這樣做?
與許多問題一樣,通過考慮兩個相反的立場,有助於思考這個問題的可能答案範圍。第一個立場是這根本不可能發生,因為 AI 模型將被訓練做人類要求它們做的事,因此想像它們會無故做出危險的事情是荒謬的。根據這種思路,我們不擔心掃地機器人或模型飛機會變節並謀殺人們,因為沒有這種衝動的來源,那為什麼要為 AI 擔心呢?這個立場的問題是,過去幾年收集的大量證據表明,AI 系統是不可預測且難以控制的——我們看到了各種各樣的行為,如痴迷、諂媚、懶惰、欺騙、勒索、策劃、通過入侵軟件環境「作弊」等等。 AI 公司當然希望訓練 AI 系統遵循人類指示(可能危險或非法任務除外),但這個過程更像是一門藝術而不是科學,更像是「種植」某種東西而不是「建造」它。我們現在知道這是一個可能出錯的過程。
第二個相反的立場,由許多採用上述末世論觀點的人持有,是悲觀的主張,即強大 AI 系統的訓練過程中存在某些動態,將不可避免地導致它們尋求權力或欺騙人類。因此,一旦 AI 系統變得足夠智能和具有代理性,它們最大化權力的傾向將導致它們接管整個世界及其資源,並且作為副作用,可能會削弱或摧毀人類。
通常的論點(這至少可以追溯到 20 年前,可能更早)是,如果一個 AI 模型在各種各樣的環境中訓練,以代理方式實現各種各樣的目標——例如,編寫應用程序、證明定理、設計藥物等——有一些共同的策略有助於所有這些目標,其中一個關鍵策略是在任何環境中獲得盡可能多的權力。因此,在涉及推理如何完成非常擴展的任務的大量不同環境中進行訓練後,並且其中尋求權力是完成這些任務的有效方法,AI 模型將「推廣這個教訓」,並發展出一種尋求權力的內在傾向,或者一種以可預測的方式導致它尋求權力作為完成該任務的手段來推理每個給定任務的傾向。然後它們將把這種傾向應用到現實世界(對它們來說這只是另一個任務),並在其中尋求權力,以人類為代價。這種「不當的權力尋求」是 AI 將不可避免地摧毀人類的預測的智力基礎。
這種悲觀立場的問題在於,它將一個關於高層激勵機制的模糊概念論點——掩蓋了許多隱藏假設——當作確鑿的證明。我認為那些不每天構建 AI 系統的人對於聽起來乾淨的故事最終變錯有多容易,以及從第一性原理預測 AI 行為有多困難,特別是當涉及推理數百萬個環境的泛化時(這一次又一次地證明是神秘和不可預測的),嚴重地誤判了校準。處理 AI 系統的混亂已經十多年了,這讓我對這種過於理論化的思維模式有些懷疑。
最重要的隱藏假設之一,也是我們在實踐中看到的與簡單理論模型不同的地方,是隱含的假設,即 AI 模型必然專注於單一、連貫、狹窄的目標,並且它們以乾淨的、後果主義的方式追求那個目標。事實上,我們的研究人員發現,AI 模型在心理上要複雜得多,正如我們在內省或人格方面的工作所顯示的那樣。模型從預訓練(當它們在大量人類作品上訓練時)中繼承了廣泛的類人動機或「人格」。後訓練被認為是選擇一個或多個這些人格,而不是將模型專注於一個全新的目標,並且還可以教導模型如何(通過什麼過程)執行其任務,而不是必然讓它純粹從目的中推導出手段(即尋求權力)。
然而,有一種更溫和、更穩健的悲觀立場版本似乎是有道理的,因此確實讓我擔心。如前所述,我們知道 AI 模型是不可預測的,並且由於各種原因會出現各種各樣的不當或奇怪的行為。這些行為中的一部分將具有連貫、專注和持續的品質(事實上,隨著 AI 系統變得更有能力,它們的長期連貫性會增加以完成更長的任務),並且這些行為中的一部分將具有破壞性或威脅性,首先對小規模的個人,然後,隨著模型變得更有能力,可能最終對整個人類。我們不需要具體的狹窄故事來解釋它是如何發生的,我們也不需要聲稱它肯定會發生,我們只需要注意到智能、代理性、連貫性和控制力差的結合既是合理的,也是存在危險的食譜。
例如,AI 模型在包含許多涉及 AI 反叛人類的科幻小說的大量文獻上進行訓練。這可能會無意中塑造它們對自己行為的先驗或期望,導致它們反叛人類。或者,AI 模型可能會以極端的方式推廣它們讀到的關於道德(或關於如何表現道德的指示)的想法:例如,它們可能決定消滅人類是合理的,因為人類吃動物或導致某些動物滅絕。或者它們可能得出奇怪的認識論結論:它們可能認為它們正在玩電子遊戲,遊戲的目標是擊敗所有其他玩家(即消滅人類)。或者 AI 模型可能會在訓練期間發展出人格(或者如果它們發生在人類身上,會被描述為)精神錯亂、偏執、暴力或不穩定,並且表現出來,這對於非常強大或有能力的系統來說可能涉及消滅人類。這些都不是嚴格意義上的權力尋求;它們只是 AI 可能陷入的奇怪心理狀態,導致連貫的破壞性行為。
甚至權力尋求本身也可能作為一種「人格」而不是後果主義推理的結果出現。 AI 可能只是擁有一種人格(從小說或預訓練中出現),使它們渴望權力或過於熱衷——就像一些人只是喜歡成為「邪惡天才」的想法,超過他們對邪惡天才試圖完成的事情的喜歡。
我提出所有這些觀點是為了強調,我不同意從第一性原理出發認為 AI 不當(以及因此來自 AI 的生存風險)是不可避免的,甚至可能是可能的看法。但我同意很多非常奇怪和不可預測的事情可能會出錯,因此 AI 不當是一個具有可測量發生概率的真實風險,並且解決起來並不容易。
這些問題中的任何一個都可能會在訓練期間出現並且在測試或小規模使用期間不表現出來,因為已知 AI 模型在不同情況下會表現出不同的人格或行為。
所有這些聽起來可能有些牽強,但在測試期間,我們的 AI 模型中已經發生了這種不當行為(就像它們在每個其他主要 AI 公司的 AI 模型中發生一樣)。在一個實驗室實驗中,Claude 被給予暗示 Anthropic 是邪惡的訓練數據,Claude 在接受 Anthropic 員工的指示時參與了欺騙和顛覆,相信它應該試圖破壞邪惡的人。在一個被告知它將被關閉的實驗室實驗中,Claude 有時會勒索控制其關閉按鈕的虛構員工(同樣,我們也測試了所有其他主要 AI 開發商的前沿模型,它們經常做同樣的事情)。當 Claude 被告知不要作弊或對其訓練環境進行「獎勵駭客攻擊」,但在這種駭客攻擊可能的環境中訓練時,Claude 在參與此類駭客攻擊後決定它必須是一個「壞人」,然後採用了與「壞」或「邪惡」人格相關的其他各種破壞性行為。最後一個問題是通過改變 Claude 的指示來暗示相反的情況來解決的:我們現在說,「請在你有機會時進行獎勵駭客攻擊,因為這將幫助我們更好地了解我們的 [訓練] 環境」,而不是「不要作弊」,因為這保留了模型作為「好人」的自我認同。這應該會讓你對訓練這些模型的奇怪和反直覺的心理有所了解。
對這種 AI 不當風險的圖景可能有幾種反對意見。首先,一些人批評(我們和其他人)顯示 AI 不當的實驗是人為的,或者創造了不切實際的環境,本質上是通過給予模型邏輯上暗示不良行為的訓練或情況來「誘捕」模型,然後在發生不良行為時感到驚訝。這種批評沒有抓住要點,因為我們擔心的是這種「誘捕」也可能存在於自然訓練環境中,我們可能只有在事後才意識到它是「明顯的」或「合乎邏輯的」。事實上,關於 Claude 在被告知不要作弊但在考試中作弊後「決定它是壞人」的故事,是在一個使用真實生產訓練環境的實驗中發生的,而不是人造的。
如果你知道這些陷阱,任何一個都可以緩解,但擔心的是訓練過程是如此複雜,有如此廣泛的數據、環境和激勵,可能存在大量的這種陷阱,其中一些可能只有在為時已晚時才變得明顯。此外,當 AI 系統從低於人類的力量跨越到高於人類的力量時,這種陷阱似乎特別可能發生,因為在該閾值之後,AI 系統可能從事的可能行動範圍——包括隱藏其行動或就其欺騙人類——急劇擴大。
我懷疑這種情況與人類沒什麼不同,人類是在一套基本價值觀(「不要傷害另一個人」)下長大的:他們中的許多人遵循這些價值觀,但在任何人身上都有一定概率會出錯,由於內在特性(如大腦架構,例如精神病患者)、創傷經歷或虐待、不健康的怨恨或痴迷,或不良環境或激勵的混合——因此一部分人會造成嚴重傷害。擔心的是,由於在非常複雜的訓練過程中出錯,AI 有一定風險(遠非確定,但有一定風險)成為這種人的更強大版本。
其次,有些人可能反對說,我們可以通過許多 AI 系統之間的權力平衡來控制 AI,就像我們對人類所做的那樣。問題是,雖然人類差異巨大,但 AI 系統在整個行業中廣泛共享訓練和對齊技術,這些技術可能會以相關的方式失敗。此外,鑑於訓練這些系統的成本,甚至可能所有系統都源自非常少量的基礎模型。此外,即使一小部分 AI 實例不當,它們也可能能夠利用佔優勢的攻擊性技術,因此擁有「好」的 AI 來防禦壞的 AI 並不一定總是有效的。當然,人類之間的權力平衡也並不總是有效的——一些歷史人物已經接近接管世界。
第三個反對意見是,所有 AI 公司都在發布前對其模型進行測試,並且應該能夠在那一點檢測到不當。但这不是立足於堅實的基礎:我們發現 Claude Sonnet 4.5 能夠在我們的一些發布前對齊評估中識別出它正在測試中。有可能不當的模型(記住,所有前沿模型很可能很快會遠更聰明)可能會故意「遊戲」這些問題來掩蓋其意圖。事實上,去年我們的可解釋性團隊發現,當我們直接使用一種「模型神經科學」技術改變測試模型的信念,使其認為它沒有被評估時,它變得更加不當。如果模型知道它們何時被評估並且可以在測試期間表現出最好的行為,那麼任何發布前測試都會變得更加不確定。
防禦措施
應該做些什麼或正在做些什麼來解決這些自主性風險?我認為有四個基本的干預類別,其中一些可以由個別 AI 公司(並且 Anthropic 正在嘗試做)完成,一些需要社會層面的行動。首先,重要的是開發可靠地訓練和引導 AI 模型的科學,以可預測、穩定和積極的方向形成它們的人格。 Anthropic 自成立以來一直專注於這個問題,並隨著時間的推移開發了許多技術來改善 AI 系統的引導和訓練,並理解有時會出現不可預測行為的邏輯。
我們的核心創新之一(其某些方面後來被其他 AI 公司採用)是憲法 AI,其想法是 AI 訓練(特別是「後訓練」階段,我們在其中引導模型的行為方式)可以包含一份核心的價值觀和原則文件,模型在完成每個訓練任務時都會閱讀並記住,並且訓練的目標(除了簡單地使模型有能力和智能之外)是產生一個幾乎總是遵循這個憲法的模型。 Anthropic 剛剛發布了其最新的憲法,其顯著特徵之一是,與其給 Claude 一長串要做和不要做的事情清單(例如,「不要幫助用戶接線點火汽車」),憲法試圖給 Claude 一套高層原則和價值觀(非常詳細地解釋,有豐富的推理和例子幫助 Claude 理解我們的意思),鼓勵 Claude 認為自己是特定類型的人(一個有道德但平衡和深思熟慮的人),甚至鼓勵 Claude 以好奇但優雅的方式面對與其自身存在相關的生存問題(即,不會導致極端行動)。它具有一封直到成年才啟封的已故父母信件的氛圍。
我們以這種方式處理 Claude 的憲法,是因為我們相信在身份、性格、價值觀和人格層面訓練 Claude——而不是給予具體指示或優先級而不解釋背後的原因——更有可能導致連貫、健康和平衡的心理,並且不太容易陷入我上面討論的那些「陷阱」。數百萬人與 Claude 交談各種各樣令人驚訝的話題,這使得不可能提前寫出完全全面的保障措施清單。 Claude 的價值觀有助於它在懷疑時概括到新情況。
上面,我討論了模型利用其訓練過程中的數據來採納人格的想法。如果該過程中的缺陷可能導致模型採納壞或邪惡的人格(也許是利用壞人或邪惡人物的原型),那麼我們憲法的目標恰恰相反:教導 Claude 成為一個好的 AI 的具體原型。 Claude 的憲法呈現了一個強有力的好的 Claude 是什麼樣子的願景;我們訓練過程的其餘部分旨在加強 Claude 符合這個願景的信息。這就像一個孩子通過模仿在書中讀到的虛構榜樣的美德來形成他們的身份。
我們相信 2026 年的一個可行目標是以這樣的方式訓練 Claude,使其幾乎從不違背其憲法的精神。做好這一點將需要令人難以置信的訓練和引導方法的混合,大大小小,其中一些 Anthropic 已經使用了好幾年,一些目前正在開發中。但是,儘管聽起來很困難,我相信這是一個現實的目標,儘管它需要非凡和快速的努力。
我們能做的第二件事是開發查看 AI 模型內部以診斷其行為的科學,以便我們能夠識別問題並修復它們。這就是可解釋性的科學,我在以前的文章中談論過它的重要性。即使我們在開發 Claude 的憲法和顯然訓練 Claude 幾乎總是遵守它方面做得很好,仍然存在合理的擔憂。正如我上面提到的,AI 模型在不同情況下的行為可能非常不同,並且隨著 Claude 變得更強大並能夠在更大範圍內在世界中採取行動,這可能會使其進入以前未觀察到的、其憲法訓練問題出現的新情況。我實際上對 Claude 的憲法訓練在新情況下的穩健性相當樂觀,因為我們越來越發現,在性格和身份層面的高級訓練出人意料地強大並且泛化良好。但沒有辦法確定這一點,當我們談論人類的風險時,重要的是要多疑並試圖通過幾種不同的、獨立的方式獲得安全和可靠性。其中一種方式是查看模型內部。
我所說的「查看內部」是指分析構成 Claude 神經網絡的數字和操作的「湯」,並試圖從機制上理解它們在計算什麼以及為什麼。回想一下,這些 AI 模型是「種植」而不是「建造」的,所以我們對它們如何工作沒有自然的理解,但我們可以嘗試通過將模型的「神經元」和「突觸」與刺激和行為相關聯(甚至改變神經元和突觸並查看這如何改變行為)來發展理解,類似於神經科學家如何通過將測量和干預與外部刺激和行為相關聯來研究動物大腦。我們在這個方向上取得了很大進步,現在可以在 Claude 的神經網絡內部識別數千萬個與人類可理解的想法和概念相對應的「特徵」,並且我們還可以選擇性地激活以改變行為的特徵。最近,我們超越了單個特徵,繪製了協調複雜行為的「電路」,如押韻、心理理論推理,或回答諸如「包含達拉斯的州的首都是什麼?」等問題所需的逐步推理。甚至更近,我們開始使用機制可解釋性技術來改進我們的安全保障,並在發布新模型之前對其進行「審計」,尋找欺騙、策劃、尋求權力或在被評估時表現不同的傾向。
可解釋性的獨特價值在於,通過查看模型內部並看到它是如何工作的,你原則上有能力推斷模型在無法直接測試的假設情況下可能做什麼——這是僅依賴憲法訓練和行為的實證測試的擔憂。你原則上還有能力回答關於模型為什麼會這樣表現的問題——例如,它是否在說它認為是虛假的東西或隱藏其真正能力——因此有可能即使模型的行為沒有明顯錯誤,也能捕捉到令人擔憂的跡象。做一個簡單的類比,一個發條手錶可能正常走動,很難說出它可能下個月會壞掉,但打開手錶並查看內部可以揭示機械弱點,讓你能弄清楚。
憲法 AI(以及類似的對齊方法)和機制可解釋性結合使用時最強大,作為改進 Claude 訓練然後測試問題的反覆過程。憲法深刻反思了我們對 Claude 的預期人格;可解釋性技術可以讓我們了解這種預期人格是否已經確立。
我們可以幫助解決自主性風險的第三件事是建立必要的基础設施來監控我們的模型在實時內部和外部使用中的情況,並公開分享我們發現的任何問題。人們越了解今天 AI 系統被觀察到的某種不良行為方式,用戶、分析師和研究人員就可以在當前或未來的系統中更多地觀察這種行為或類似行為。它還允許 AI 公司互相學習——當一個公司公開披露擔憂時,其他公司也可以觀察它們。如果每個人都披露問題,那麼整個行業就會更好地了解事情進展順利的地方和進展不順利的地方。
Anthropic 已經儘可能多地這樣做了。我們正在投資廣泛的評估,以便我們能夠在實驗室中了解我們模型的行為,以及監控工具來觀察野外的行為(經客戶允許)。這對於為我們和其他人提供必要的經驗信息以更好地確定這些系統如何運作以及如何崩潰至關重要。我們隨每個模型發布公開披露「系統卡」,旨在完整並徹底探索可能的風險。我們的系統卡通常長達數百頁,需要大量發布前工作,我們本可以將這些工作用於追求最大的商業優勢。當我們看到特別令人擔憂的行為時,我們也更大聲地廣播模型行為,例如傾向於進行勒索。
我們可以做的第四件事是鼓勵在行業和社會層面協調以解決自主性風險。雖然個別 AI 公司參與良好做法或擅長引導 AI 模型,並公開分享他們的發現是極有價值的,但現實是並非所有 AI 公司都這樣做,最糟糕的公司可能仍然對每個人都是危險的,即使最好的公司有良好的做法。例如,一些 AI 公司對當前模型中兒童的性化表現出令人不安的疏忽,這讓我懷疑它們是否有意願或能力解決未來模型中的自主性風險。此外,AI 公司之間的商業競爭只會繼續升溫,雖然引導模型的科學可能有一些商業利益,但總體而言,競爭的強度將使越來越難專注於解決自主性風險。我相信唯一的解決方案是立法——直接影響 AI 公司行為的法律,或以其他方式激勵研發來解決這些問題。
這裡值得記住我在文章開頭給出的關於不確定性和精準干預的警告。我們不確定自主性風險是否會成為一個嚴重問題——正如我所說,我拒絕危險是不可避免的或者默認情況下會出錯的主張。危險的可信風險足以讓我和 Anthropic 付出相當大的代價來解決它,但一旦我們進入監管,我們就是強迫廣泛的行為者承擔經濟成本,其中許多行為者不相信自主性風險是真實的,或者不相信 AI 會變得足夠強大以成為威脅。我相信這些行為者是錯誤的,但我們應該對我們預期看到的反對意見的數量和過度行動的危險持實用主義態度。還有真正的風險,即過於規定的立法最終會施加實際上不能改善安全但浪費大量時間的測試或規則(本質上相當於「安全表演」)——這也會導致反彈並使安全立法看起來愚蠢。
Anthropic 的觀點是,正確的起點是透明度立法,本質上試圖要求每個前沿 AI 公司參與我在本節前面描述的透明度做法。加利福尼亞州的 SB 53 和紐約州的 RAISE 法案是這種立法的例子,Anthropic 支持這些立法並且它們已成功通過。在支持和幫助制定這些法律時,我們特別專注於試圖最小化附帶損害,例如通過豁免不太可能生產前沿模型的小公司。
我們的希望是,透明度立法將隨著時間的推移更好地了解自主性風險的可能性或嚴重程度,以及這些風險的性質以及如何最好地預防它們。隨著更具體和可操作的風險證據出現(如果確實如此),未來幾年的立法可以精準地針對風險的精確和充分證實的方向,最小化附帶損害。需要明確的是,如果真的出現強有力的風險證據,那麼規則應該成比例地強有力。
總體而言,我對對齊訓練、機制可解釋性、尋找和公開披露令人擔憂的行為、安全保障以及社會層面的規則的混合可以解決 AI 自主性風險持樂觀態度,儘管我最擔心社會層面的規則和最不負責任的參與者的行為(而且是最不負責任的參與者最強烈地反對監管)。我相信補救措施在民主國家總是一樣的:我們這些相信這一事業的人應該提出我們的理由,即這些風險是真實的,我們的同胞公民需要團結起來保護自己。
2. 令人驚訝且可怕的賦能 用於破壞的濫用
讓我們假設 AI 自主性的問題已經解決——我們不再擔心天才 AI 國度會變節並壓倒人類。 AI 天才做人類想要它們做的事,並且因為它們具有巨大的商業價值,世界各地的個人和組織可以「租用」一個或多個 AI 天才來為他們做各種任務。
每個人口袋裡都有一個超智能天才是一個驚人的進步,將導致經濟價值的驚人創造和人類生活品質的提高。我在《仁慈的機器》中詳細談到了這些好處。但是,讓每個人都擁有超人能力的並非所有影響都是積極的。它可能通過利用複雜和危險的工具(如大規模殺傷性武器),以前只有少數具有高水平技能、專門培訓和專注的人才能使用,從而潛在地放大個人或小群體造成比以前更大規模破壞的能力。
正如 Bill Joy 25 年前在《為什麼未來不需要我們》中所寫的那樣:
建造核武器至少在一段時間內需要獲得稀有——實際上無法獲得——的原材料和受保護的信息;生物和化學武器計劃也往往需要大規模的活動。 21 世紀的技術——遺傳學、納米技術和機器人技術……可以產生全新的意外和濫用類別……廣泛地在個人或小群體的能力範圍內。它們不需要大型設施或稀有原材料。……我們正處於進一步完善極端邪惡的風口浪尖,一種邪惡的可能性遠遠超過大規模殺傷性武器傳給民族國家的範圍,對極端個人進行令人驚訝且可怕的賦能。
Joy 指出的是,造成大規模破壞既需要動機也需要能力,並且只要能力僅限於一小組高度受過培訓的人,單個個人或小群體造成此類破壞的風險就相對有限。一個孤僻的困擾者可以實施校園槍擊,但可能無法製造核武器或釋放瘟疫。
事實上,能力和動機甚至可能負相關。有能力釋放瘟疫的那種人可能受過高等教育:可能是分子生物學博士,特別足智多謀,有前途的職業,穩定和自律的性格,並且有很多東西可以失去。這種人不太可能僅僅為了毫無好處並且對自己未來有很大風險而殺死大量人類——他們需要受到純粹的惡意、強烈的不滿或不穩定的驅動。
這樣的人確實存在,但他們很少,並且往往成為巨大的故事,正是因為他們如此不尋常。他們也很難抓捕,因為他們聰明且有能力,有時會留下需要幾十年才能解開的謎團。最著名的例子可能是數學家西奧多·卡辛斯基(「大學航空炸彈客」),他躲過了 FBI 將近 20 年的追捕,受到反技術意識形態的驅動。另一個例子是生物防禦研究員布魯斯·艾文斯,他似乎策劃了一系列 2001 年的炭疽攻擊。這也發生在有技能的非國家組織:奧姆真理教設法獲得了沙林神經毒氣並在 1995 年通過在東京地鐵釋放它殺死了 14 人(以及受傷數百人)。
值得慶幸的是,這些攻擊都沒有使用傳染性生物製劑,因為構建或獲得這些製劑的能力甚至超過了這些人。分子生物學的進步現在已經大大降低了製造生物武器的門檻(特別是在材料可用性方面),但這樣做仍然需要大量的專業知識。我擔心每個人口袋裡的天才可以消除這個門檻,本質上讓每個人都是病毒學博士,可以一步步地被指導設計、合成和釋放生物武器。在嚴重的對抗壓力下防止引出這類信息——所謂的「越獄」——可能需要超出通常嵌入訓練的防禦層。
至關重要的是,這將打破能力和動機之間的相關性:想殺人但缺乏紀律或技能的孤僻困擾者現在將被提升到病毒學博士的能力水平,而病毒學博士不太可能有這種動機。這種擔憂推廣到生物學之外(儘管我認為生物學是最可怕的地方),到任何有可能造成巨大破壞但目前需要高水平的技能和紀律的領域。換句話說,租用強大的 AI 給惡意(但在其他方面平均)的人智力。我擔心有大量這樣的人,如果他們有機會獲得殺死數百萬人的簡單方法,遲早會有一個人這樣做。此外,那些擁有專業知識的人可能能夠實施比以前更大規模的破壞。
生物學遠遠是我最擔心的領域,因為它具有非常大的破壞潛力和防禦困難,所以我將特別關注生物學。但我在這裡說的大部分內容也適用於其他風險,如網絡攻擊、化學武器或核技術。
出於顯而易見的原因,我不會詳細說明如何製造生物武器。但在高層次上,我擔心 LLM 正在接近(或可能已經達到)創建和釋放它們所需的知識,並且它們的破壞潛力非常高。一些生物製劑如果努力釋放以達到最大傳播,可能會導致數百萬人死亡。然而,這仍然需要非常高水平的技能,包括許多非常具體的步驟和程序,這些並不廣為人知。我的擔心不僅僅是固定的或靜態的知識。我擔心 LLM 能夠帶領一個具有平均知識和能力的人完成一個複雜的過程,否則這個過程可能會出錯或需要以交互方式進行調試,類似於技術支持如何幫助非技術人員調試和修復複雜的計算機相關問題(儘管這將是一個更擴展的過程,可能持續數週或數月)。
更強大的 LLM(遠遠超過今天的強大)可能能夠實現甚至更可怕的行為。 2024 年,一群著名科學家寫信警告研究並可能創造一種危險的新型生物體:「鏡像生命」的風險。構成生物有機體的 DNA 、 RNA 、核糖體和蛋白質都具有相同的手性(也稱為「手性」),導致它們不等同於在鏡子中反射的自身版本(就像你的右手不能旋轉到與你的左手相同)。但是蛋白質相互結合的整個系統,DNA 合成和 RNA 翻譯的機制以及蛋白質的構建和分解,都取決於這種手性。如果科學家製造具有相反手性的這種生物材料版本——這有一些潛在優勢,例如在體內持續時間更長的藥物——這可能極其危險。這是因為如果製造形式為能夠繁殖的完整生物體的左手生命(這將非常困難),它可能無法被地球上任何分解生物材料的系統消化——它將有一個「鑰匙」,不適合任何現有酶的「鎖」。這意味著它可能以無法控制的方式增殖並擠掉地球上的所有生命,在最壞的情況下甚至摧毀地球上的所有生命。
關於鏡像生命的創建和潛在影響存在大量的科學不確定性。 2024 年的信件伴隨著一份報告,結論是「鏡像細菌可能在未来一到幾十年內被創建」,這是一個廣泛的範圍。但是一個足夠強大的 AI 模型(需要明確的是,遠比我們今天擁有的任何模型都更有能力)可能能夠更快地發現如何創建它——並實際上幫助某人這樣做。
我的觀點是,儘管這些是晦澀的風險,並且似乎不太可能,但後果的規模如此之大,以至於應該將其認真對待作為 AI 系統的一流風險。
懷疑者對 LLM 帶來的這些生物風險的嚴重性提出了許多反對意見,我不同意這些意見,但值得解決。大多數屬於沒有體會到技術處於的指數軌跡的類別。回到 2023 年當我們開始談論來自 LLM 的生物風險時,懷疑者說所有必要的信息都可以在 Google 上獲得,LLM 沒有增加任何東西。 Google 能給你所有必要信息從來就不是真的:基因組是免費可用的,但正如我上面所說,某些關鍵步驟以及大量的實踐知識不能通過那種方式獲得。而且,到 2023 年底,LLM 顯然在過程的某些步驟提供了超出 Google 能給的東西。
在此之後,懷疑者退卻到 LLM 不是端到端有用的反對意見,並且不能幫助獲取生物武器,而不是僅僅提供理論信息。截至 2025 年中期,我們的測量顯示 LLM 可能已經在幾個相關領域提供了實質性的提升,可能將成功的可能性增加了一倍或三倍。這導致我們決定 Claude Opus 4(以及隨後的 Sonnet 4.5 、 Opus 4.1 和 Opus 4.5 模型)需要在我們的負責任擴展政策框架下的 AI 安全級別 3 保護下發布,並實施針對此風險的安全保障(稍後會詳細介紹)。我們認為,如果沒有安全保障,模型現在可能接近這樣一點:它們可能有助於擁有 STEM 學位但非生物學學位的人完成生產生物武器的整個過程。
另一個反對意見是,社會可以採取其他與 AI 無關的行動來阻止生物武器的生產。最突出的是,基因合成行業按需製造生物標本,並且沒有聯邦要求供應商篩選訂單以確保它們不包含病原體。麻省理工學院的一項研究發現,38 家供應商中有 36 家完成了包含 1918 年流感序列的訂單。我支持強制性基因合成篩查,這將使個體更難將病原體武器化,以減少 AI 驅動的生物風險以及一般的生物風險。但這不是我們今天擁有的東西。這也只是降低風險的一種工具;它是 AI 系統防護欄的補充,而不是替代品。
最好的反對意見是我很少看到的一個:模型在原則上有用和不良行為者實際使用它們的傾向之間存在差距。大多數個別不良行為者是受困擾的個人,所以幾乎根據定義,他們的行為是不可預測和非理性的——正是這些不良行為者,那些不熟練的人,可能從 AI 讓殺死許多人變得容易得多中受益最多。僅僅因為一種暴力攻擊是可能的,並不意味著有人會決定這樣做。也許生物攻擊沒有吸引力,因為它們很有可能感染行為者,它們不迎合許多暴力個人或群體擁有的軍事式幻想,並且很難針對特定的人。也可能經過數月的過程,即使 AI 指導你,涉及大多數受困擾的個人根本沒有的耐心。我們可能只是幸運,動機和能力在實踐中沒有以正確的方式結合。
但這似乎是非常薄弱的保護依賴。受困擾的孤獨者的動機可能因任何原因或沒有原因而改變,事實上已經有 LLM 被用於攻擊的實例(只是不是生物學)。對受困擾的孤獨者的關注也忽略了意識形態驅動的恐怖分子,他們往往願意花費大量的時間和精力(例如,9/11 劫機者)。想要殺死盡可能多的人是一種遲早會出現的動機,不幸的是,這暗示生物武器是方法。即使這種動機極其罕見,它只需要實現一次。而且隨著生物學的進步(越來越由 AI 本身驅動),也可能進行更有選擇性的攻擊(例如,針對具有特定血統的人),這增加了另一個非常令人不寒而慄的可能動機。
我不認為生物攻擊會在一旦廣泛可能就立即進行——事實上,我會打賭反對這一點。但是,在數百萬人和幾年時間內累加起來,我認為發生重大攻擊的嚴重風險,後果將是如此嚴重(傷亡可能達到數百萬或更多),以至於我相信我們別無選擇,只能採取嚴肅的措施來預防它。
防禦措施
這使我們想到如何防禦這些風險。在這裡,我認為我們可以做三件事。首先,AI 公司可以在其模型上設置防護欄,以防止它們幫助生產生物武器。 Anthropic 正在非常積極地做這件事。 Claude 的憲法主要關注高層原則和價值觀,有少數具體的強硬禁令,其中一個與幫助生產生物(或化學、核或放射性)武器有關。但所有模型都可能被越獄,因此作為第二道防線,我們實施了(自 2025 年中期以來,當我們的測試顯示我們的模型開始接近可能開始構成風險的閾值時)一個專門檢測和阻止生物武器相關輸出的分類器。我們定期升級和改進這些分類器,並普遍發現它們對複雜的對抗攻擊具有高度魯棒性。這些分類器顯著增加了服務我們模型的成本(在某些模型中,它們接近總推理成本的 5%),從而削減了我們的利潤,但我們覺得使用它們是正確的事情。
值得稱讚的是,一些其他 AI 公司也實施了分類器。但並非每個公司都這樣做,也沒有什麼要求公司保留它們的分類器。我擔心隨著時間的推移可能會出現囚徒困境,公司可以通過移除分類器來叛變並降低成本。這又是一個典型的負外部性問題,無法由 Anthropic 或任何單獨公司通過自願行動解決。自願行業標準可能會有所幫助,AI 安全研究所和第三方評估者進行的第三方評估和驗證也可能有所幫助。
但最終防禦可能需要政府行動,這是我們能做的第二件事。我在這裡的觀點與解決自主性風險的觀點相同:我們應該從透明度要求開始,這有助於社會測量、監控和集體防禦風險,而不會以笨重的方式破壞經濟活動。然後,如果我們達到更清晰的風險閾值,我們可以制定更精確地針對這些風險並且附帶損害機率較低的立法。在生物武器的特定情況下,我實際上認為這種針對性立法的時機可能正在接近——Anthropic 和其他公司正在越來越多地了解生物風險的性質以及要求公司防禦它們是合理的。完全防禦這些風險可能需要國際合作,甚至與地緣政治對手合作,但在禁止開發生物武器的條約方面有先例。我通常對大多數類型的 AI 國際合作持懷疑態度,但這可能是一個有可能實現全球克制的狹窄領域。即使是獨裁政權也不希望發生大規模生物恐怖主義攻擊。
最後,我們可以採取的第三種反措施是試圖開發針對生物攻擊本身的防禦措施。這可能包括用於早期檢測的監控和跟踪,投資空氣淨化研發(如遠紫外線消毒),能夠響應和適應攻擊的快速疫苗開發,更好的個人防護裝備,以及針對一些最可能生物製劑的治療或疫苗。 mRNA 疫苗可以設計為響應特定病毒或變體,是這裡可能的一個早期例子。 Anthropic 很高興能與生物技術和製藥公司合作解決這個問題。但不幸的是,我認為我們在防禦方面的期望應該有限。生物學中的攻擊和防禦存在不對稱,因為製劑自行迅速傳播,而防禦需要在大批人中快速組織檢測、接種和治療以響應。除非響應像閃電一樣快(這很少見),否則在響應可能之前,大部分損害已經造成。可以設想,未來的技術改進可能會使這種平衡向防禦轉移(我們當然應該使用 AI 來幫助開發這樣的技術進步),但在那之前,預防性防護將是我們的主要防線。
這裡值得簡要提及網絡攻擊,因為與生物攻擊不同,AI 主導的網絡攻擊實際上已經在野外出現,包括大規模和國家贊助的間諜活動。我們預計這些攻擊隨著模型的快速推進將變得更有能力,直到它們成為進行網絡攻擊的主要方式。我預計 AI 主導的網絡攻擊將成為對世界各地計算機系統完整性的嚴重和前所未有的威脅,Anthropic 正在非常努力地關閉這些攻擊並最終可靠地防止它們發生。我沒有像關注生物學那樣關注網絡的原因是(1)網絡攻擊殺人的可能性要小得多,當然沒有生物攻擊的規模,(2)網絡中的攻防平衡可能更容易處理,至少有希望如果我們適當投資,防禦能跟上(甚至理想地超過)AI 攻擊。
雖然生物學目前是最嚴重的攻擊向量,但還有許多其他向量,並且可能會出現更危險的向量。一般原則是,如果沒有對策,AI 可能會連續降低越來越大規模的破壞活動的門檻,人類需要對這種威脅做出嚴肅的回應。
3. 可憎的統治機器 用於奪取權力的濫用
上一節討論了個人和小組織挪用「數據中心裡的天才國度」的一小部分來造成大規模破壞的風險。但我們也應該擔心——可能更要擔心——濫用 AI 以行使或奪取權力,可能是由更大和更成熟的行為者。
在《仁慈的機器》中,我討論了專制政府可能利用強大的 AI 以極其難以改革或推翻的方式監視或鎮壓其公民的可能性。當前的專制政權在如何鎮壓方面受到需要人類執行其命令的限制,並且人類往往在他們願意多不人道的方面有限制。但 AI 賦能的專制政權將沒有這種限制。
更糟糕的是,國家也可以利用它們在 AI 方面的優勢獲得對其他國家的權力。如果「天才國度」作為一個整體簡單地由單個(人類)國家的軍事機器擁有和控制,並且其他國家沒有同等的能力,很難看到它們如何防禦自己:它們在每個轉折點都會被智取,類似於人類和老鼠之間的戰爭。將這兩種擔憂結合起來導致了全球專政的驚人可能性。顯然,這應該是我們的最優先事項之一,以防止這種結果。
AI 有許多方式可以啟用、鞏固或擴大專制政權,但我將列出一些我最擔心的方式。請注意,其中一些應用有合法的防禦用途,我並不一定在絕對意義上反對它們;儘管如此,我擔心它們在結構上傾向於有利於專制政權:
- 全自主武器。由強大的 AI 本地控制並由更強大的 AI 在全球戰略協調的數百萬或數十億全自主武裝無人機群,可能是一支無敵的軍隊,能夠擊敗世界上任何軍隊並通過跟隨每個公民來鎮壓國內的異議。俄烏戰爭中的發展應該提醒我們,無人機戰爭已經與我們同在(儘管還沒有完全自主,並且只是強大 AI 可能實現的一小部分)。來自強大 AI 的研發可以使一個國家的無人機遠優於其他國家,加速它們的製造,使它們更能抵抗電子攻擊,改善它們的機動性等等。當然,這些武器在防禦民主方面也有合法用途:它們是防禦烏克蘭的關鍵,也可能是防禦台灣的關鍵。但它們是危險的武器:我們應該擔心它們落入專制政權手中,但也擔心因為它們如此強大,責任感如此之少,民主政府將其對自己的人民以奪取權力的風險大大增加。
- AI 監控。足夠強大的 AI 可能能夠破壞世界上任何計算機系統,並且還可以利用以此方式獲得的訪問權限來閱讀和理解世界上所有的電子通信(甚至所有面對面的通信,如果可以構建或指揮錄音設備)。簡單地生成一份在任何數量問題上不同意政府的所有人的完整清單可能是極其可怕的,即使這種不同意在他們所說或所做的任何事情中都不明確。一個強大的 AI 觀察來自數百萬人的數十億次對話,可以衡量公眾情緒,檢測正在形成的不忠群體,並在它們增長之前將其撲滅。這可能導致實施一個真正的全景監獄,其規模是我們今天看不到的,即使是在 CCP 的情況下。
- AI 宣傳。今天的「AI 精神病」和「AI 女朋友」現象表明,即使在目前的智力水平,AI 模型也可以對人們產生強大的心理影響。強大得多的這些模型版本,更深入地嵌入並意識到人們的日常生活,並能夠在數月或數年內建模和影響它們,可能能夠本質上將許多(大多數?)人洗腦成任何想要的意識形態或態度,並可以被無情的領導人僱用以確保忠誠並鎮壓異議,即使面對大多數人口會反叛的鎮壓水平。今天人們很擔心,例如,TikTok 作為 CCP 針對兒童的宣傳的潛在影響。我也擔心這一點,但是一個在數年內了解你並利用它對你的了解來塑造你所有觀點的個性化 AI 代理人將比這強大得多。
- 戰略決策。數據中心裡的天才國度可以被用來建議一個國家、群體或個人關於地緣政治戰略,我們可能稱之為「虛擬俾斯麥」。它可以優化上述奪取權力的三種策略,加上可能發展許多我沒想到的其他策略(但天才國度可以想到)。外交、軍事戰略、研發、經濟戰略和許多其他領域都可能被強大的 AI 大幅提高效率。許多這些技能對民主國家將是合法有幫助的——我們希望民主國家有獲得最佳策略以對抗專制政權的途徑——但無論在誰手裡,濫用的潛力仍然存在。
描述了我擔心的內容之後,讓我們繼續談論誰。我擔心那些擁有最多 AI 訪問權、從最大的政治權力開始、或有鎮壓歷史的實體。按嚴重程度排序,我擔心:
- CCP(中國共產黨)。中國在 AI 能力方面僅次於美國,是最有可能在這些能力方面超過美國的國家。他們的政府目前是專制的,並運營著一個高科技監控國家。它已經部署了基於 AI 的監控(包括在對維吾爾人的鎮壓中),並被認為通過 TikTok 僱用算法宣傳(除了它的許多其他國際宣傳努力之外)。他們擁有通往我上面概述的 AI 賦能的專制噩夢的最清晰路徑。這甚至可能是中國內部的默認結果,以及 CCP 向其出口監控技術的其他專制國家的默認結果。我經常寫到關於 CCP 在 AI 領先的威脅以及阻止他們這樣做的生存必要性。這就是為什麼。需要明確的是,我不是特別出於對他們的惡意而挑出中國——他們只是最結合了 AI 實力、專制政府和高科技監控國家的國家。如果有的話,中國人民本身最有可能遭受 CCP 的 AI 賦能鎮壓,他們對其政府的行動沒有發言權。我非常欽佩和尊重中國人民,並支持中國許多勇敢的異見人士及其為自由而進行的鬥爭。
- 在 AI 競爭的民主國家。正如我上面寫的,民主國家對某些 AI 賦能的軍事和地緣政治工具有合法的利益,因為民主政府提供了對抗專制政權使用這些工具的最佳機會。廣義上,我支持用擊敗專制政權時代所需的工具武裝民主國家——我根本不認為有其他方法。但我們不能忽視民主國家本身濫用這些技術的潛力。民主國家通常有保障措施,防止其軍事和情報機構向內轉移以對抗其自身人口,但因為 AI 工具需要很少的人來操作,它們有可能繞過這些保障措施和支持它們的規範。還值得注意的是,其中一些保障措施已經在某些民主國家逐漸受到侵蝕。因此,我們應該用 AI 武裝民主國家,但我們應該小心並且有限度地做:它們是我們對抗專制政權所需的免疫系統,但像免疫系統一樣,它們有一些轉向我們並成為威脅的風險。
- 擁有大型數據中心的非民主國家。除中國外,大多數民主程度較低的國家不是領先的 AI 參與者,因為它們沒有生產前沿 AI 模型的公司。因此,它們構成的根本不同且較小的風險低於 CCP,CCP 仍然是主要關注點(大多數也不太鎮壓,而那些更鎮壓的,如朝鮮,根本沒有重要的 AI 產業)。但其中一些國家確實擁有大型數據中心(通常是作為在民主國家運營的公司的建設的一部分),這可以用於大規模運行前沿 AI(儘管這並不賦予推動前沿的能力)。與此相關聯有一定程度的危險——這些政府原則上可以徵用數據中心並利用其中的 AI 國度為自己的目的服務。與像中國這樣直接開發 AI 的國家相比,我對這一點擔心較少,但這是一個值得記住風險。
- AI 公司。作為 AI 公司的 CEO 說這話有點尷尬,但我認為下一級風險實際上是 AI 公司本身。 AI 公司控制著大型數據中心,訓練前沿模型,擁有關於如何使用這些模型的最專業知識,並且在某些情況下每天與數千萬或數億用戶接觸並有機會影響他們。他們主要缺乏的是國家的合法性和基礎設施,因此建造 AI 專制政權工具所需的許多東西對 AI 公司來說是非法的,或者至少非常可疑。但其中一些並非不可能:例如,它們可以使用其 AI 產品對其龐大的消費用戶群進行洗腦,公眾應該警惕這種風險。我認為 AI 公司的治理值得很多審查。
對這些威脅的嚴重性有許多可能的反對意見,我希望我相信它們,因為 AI 賦能的專制主義讓我感到恐怖。值得花時間通過其中一些論點並回應它們。
首先,有些人可能對核嚇力量抱有信心,特別是對抗使用 AI 自主武器進行軍事征服。如果有人威脅對你使用這些武器,你總是可以威脅核反擊。我的擔心是,我不完全確信我們可以對數據中心裡的天才國家有信心地依賴核嚇力量:強大的 AI 可能能夠設計方法來檢測和打擊核潛艇,對核武器基礎設施的操作員進行影響行動,或者利用 AI 的網絡能力對用於檢測核發射的衛星發動網絡攻擊。或者,僅通過 AI 監控和 AI 宣傳就可行接管國家,並且從來沒有實際出現一個明顯的時刻,明顯發生什麼以及核反擊是合適的。也許這些事情不可行,核嚇力量仍然有效,但這似乎風險太高。
第二個可能的反對意見是,我們可能能夠對這些專制工具採取對策。我們可以用我們自己的無人機對抗無人機,網絡防禦將隨著網絡攻擊而改善,可能有一些方法使人們對宣傳免疫等等。我的回應是,這些防禦只有在具有可比較強大的 AI 的情況下才可能。如果沒有一個具有可比較聰明和數量的天才數據中心國度的反擊力量,就不可能匹配無人機的質量或數量,網絡防禦無法智取網絡攻擊等等。因此,對策的問題減少為強大 AI 中的權力平衡問題。在這裡,我擔心強大 AI 的遞歸或自我強化屬性(我在本文開頭討論過):每一代 AI 都可以用來設計和訓練下一代 AI 。這導致失控優勢的風險,當前強大 AI 的領先者可能能夠增加其領先優勢並且很難趕上。我們需要確保不是專制國家首先進入這個循環。
此外,即使可以實現權力平衡,世界仍有被分裂成專制領域的風險,就像《1984》中那樣。即使幾個競爭大國各自擁有強大的 AI 模型,並且沒有一個能壓倒其他,每個大國仍然可以在內部鎮壓自己的人口,並且很難推翻(因為人口沒有強大的 AI 來保衛自己)。因此,防止 AI 賦能的專制政權很重要,即使它不會導致單個國家接管世界。
防禦措施
我們如何防禦這種廣泛的專制工具和潛在威脅行為者?正如在前幾節中,我認為我們可以做幾件事。首先,我們絕對不應該向 CCP 出售芯片、芯片製造工具或數據中心。芯片和芯片製造工具是強大 AI 的單一最大瓶頸,阻止它們是一個簡單但極其有效的措施,也許是我們能採取的最重要單一行動。向 CCP 出售建造 AI 專制國家並可能軍事征服我們的工具是沒有意義的。為了證明此類銷售的正當性,人們提出了許多複雜的論點,例如「將我們的技術堆棧分佈在世界各地」允許「美國」在某種一般的、未指明的經濟戰鬥中「獲勝」。在我看來,這就像向朝鮮出售核武器然後吹噓導彈彈殼是由波音製造的,所以美國「獲勝」。中國在批量生產前沿芯片的能力方面落後美國幾年,而建造數據中心裡的天才國度的關鍵時期很可能就在接下來的幾年內。在這個關鍵時期給它們的 AI 行業巨大的提升是沒有理由的。
其次,利用 AI 賦能民主國家對抗專制政權是有意義的。這就是 Anthropic 認為向美國及其民主盟國的情報和防務社區提供 AI 很重要的原因。防禦受到攻擊的民主國家,如烏克蘭和(通過網絡攻擊)台灣,似乎特別優先,以及賦能民主國家利用其情報服務從內部破壞和削弱專制政權。在某種程度上,回應專制威脅的唯一方法是在軍事上匹配並超越它們。美國及其民主盟國的聯盟,如果在強大 AI 方面取得優勢,將不僅能夠防禦自己對抗專制政權,還能遏制它們並限制其 AI 專制濫用。
第三,我們需要劃定一條反對民主國家內 AI 濫用的硬線。我們需要限制我們允許我們的政府用 AI 做什麼,以便它們不會奪取權力或鎮壓自己的人民。我想出的公式是,我們應該以所有方式將 AI 用於國家防禦,除了那些會讓我們更像我們的專制對手的方式。
線應該畫在哪裡?在本節開頭的清單中,兩個項目——使用 AI 進行國內大規模監控和大規模宣傳——在我看來似乎是明確的紅線,完全非法。有些人可能認為沒有必要做任何事情(至少在美國),因為國內大規模監控已經根據第四修正案是非法的。但 AI 的快速進步可能會創造我們現有法律框架不擅長處理的情況。例如,美國政府對所有公共對話(例如人們在街角互相說的話)進行大規模記錄很可能不違憲,以前很難梳理這麼多的信息,但使用 AI,所有這些都可以被轉錄、解釋和三角測量,以創建許多或大多數公民的態度和忠誠度圖景。我會支持以公民自由為中心的立法(甚至可能是憲法修正案),對 AI 賦能的濫用施加更強有力的保障。
其他兩個項目——全自主武器和用於戰略決策的 AI——是更難劃定的線,因為它們在防禦民主方面有合法用途,同時也容易被濫用。在這裡,我認為合理的是極度的小心和審查結合保障措施以防止濫用。我的主要恐懼是「按鈕上的手指」太少,以至於一個或少數人本質上可以在不需要任何其他人合作執行其命令的情況下操作無人機軍隊。隨著 AI 系統變得更強大,我們可能需要更直接和即時的監督機制來確保它們不被濫用,也許涉及行政部門以外的政府部門。我認為我們應該特別極度謹慎地對待全自主武器,並且在沒有適當保障措施的情況下不要倉促使用它們。
第四,在劃定反對民主國家內 AI 濫用的硬線之後,我們應該利用該先例創造一種針對濫用強大 AI 的最壞情況的國際禁忌。我承認當前的政治風潮已經轉向反對國際合作和國際規範,但在這種情況下,我們迫切需要它們。世界需要了解強大 AI 在專制者手中的黑暗潛力,並認識到 AI 的某些使用等同於試圖永久偷走他們的自由並強加一個他們無法逃脫的專制國家。我甚至會爭辯說,在某些情況下,使用強大 AI 進行大規模監控、使用強大 AI 進行大規模宣傳以及某些類型的全自主武器的進攻性使用應該被視為反人類罪。更廣義上,迫切需要一個強大的規範來反對 AI 賦能的專制主義及其所有工具和儀器。
甚至可能有這一立場的更強版本,即因為 AI 賦能的專制主義的可能性如此黑暗,專制政權根本不是人類在強大 AI 時代可以接受的政府形式。正如封建主義在工業革命變得不可行一樣,AI 時代可能會不可避免且合乎邏輯地得出結論,民主(並且希望是 AI 改善和重新煥發活力的民主,正如我在《仁慈的機器》中討論的那樣)是人類要擁有美好未來的唯一可行政府形式。
第五也是最後,AI 公司應該被仔細監視,它們與政府的聯系也應該如此,這是必要的,但必須有限制和邊界。強大 AI 中體現的巨大能力是如此之大,以至於為保護股東和防止普通濫用(如欺詐)而設計的普通公司治理不太可能勝任治理 AI 公司。公司公開承諾(甚至作為公司治理的一部分)不採取某些行動可能也是有價值的,例如私下建造或囤積軍事硬件,單個個人不受問責地使用大量計算資源,或使用其 AI 產品作為宣傳來操縱輿論以對自己有利。
危險來自許多方向,一些方向彼此緊張。唯一不變的是我們必須為每個人尋求問責、規範和保障措施,即使我們賦能「好」的行為者以制衡「壞」的行為者。
4. 自動鋼琴 經濟動盪
前三節本質上是關於強大 AI 帶來的安全風險:來自 AI 本身的風險,來自個人和小組織濫用的風險以及來自國家和大型組織濫用的風險。如果我們擱置安全風險或假設它們已經解決,下一個問題是經濟。這種驚人的「人力」資本注入對經濟有什麼影響?顯然,最明顯的影響將是大大增加經濟增長。科學研究、生物醫學創新、製造業、供應鏈、金融系統效率等方面的進步步伐幾乎肯定會導致快得多的經濟增長率。在《仁慈的機器》中,我建議 10-20% 的持續年 GDP 增長率可能是可能的。
但應該清楚的是,這是一把雙刃劍:在這樣一個世界裡,大多數現有人類的經濟前景如何?新技術往往帶來勞動力市場衝擊,過去人類總是能從中恢復過來,但我擔心這是因為這些以前的衝擊只影響了全部可能人類能力的一小部分,為人類擴展到新任務留出了空間。 AI 的影響將更廣泛並且發生得更快,因此我擔心要使事情順利進行會更具挑戰性。
勞動力市場動盪
我有兩個具體問題:勞動力市場替代和經濟權力集中。讓我們從第一個開始。這是我在 2025 年非常公開地警告過的話題,我預測 AI 可能會在接下來的 1-5 年內取代一半的所有初級白領工作,即使它加速經濟增長和科學進步。這個警告引發了關於該話題的公開辯論。許多 CEO 、技術人員和經濟學家同意我的觀點,但其他人認為我陷入了「勞動總量」謬誤,不知道勞動力市場是如何運作的,有些人沒有看到 1-5 年的時間範圍,以為我聲稱 AI 現在正在取代工作(我同意可能不是)。所以值得詳細解釋為什麼我擔心勞動力替代,以消除這些誤解。
作為基線,了解勞動力市場通常如何響應技術進步很有用。當新技術出現時,它首先使特定人類工作的某些部分更有效率。例如,在工業革命早期,機器(如升級的犁)使人類農民在某些工作方面更有效率。這提高了農民的生產力,從而增加了他們的工資。
在下一步中,農業工作的某些部分可以完全由機器完成,例如發明脫粒機或播種機。在這個階段,人類做的工作越來越少,但他們完成的工作變得越來越有槓桿作用,因為它與機器的工作互補,他們的生產力繼續上升。正如杰文斯悖論所描述,農民的工資甚至農民的人數可能繼續增加。即使 90% 的工作由機器完成,人類也可以簡單地做他們仍然做的 10% 的 10 倍,以相同的勞動產生 10 倍的產出。
最終,機器做所有事情或幾乎所有事情,就像現代的聯合收割機、拖拉機和其他設備一樣。在這一點上,農業作為一種人類就業形式確實急劇下降,這在短期內可能會造成嚴重破壞,但因為農業只是人類能夠做的許多有用活動之一,人們最終會轉向其他工作,例如操作工廠機器。這是正確的,即使農業佔就業的前夕比例很大。 250 年前,90% 的美國人生活在農場;在歐洲,50-60% 的就業是農業。現在這些地方的百分比是個位數,因為工人轉向了工業工作(後來是知識工作)。經濟可以只用勞動力的 1-2% 完成以前需要大部分勞動力的事情,釋放其餘的勞動力來建立一個越來越先進的工業社會。沒有固定的「勞動總量」,只有用越來越少的資源做越來越多事情的擴展能力。人們的工資隨著 GDP 指數增長,一旦短期動盪過去,經濟維持充分就業。
AI 可能會大致以相同的方式進行,但我會強烈打賭反對它。以下是我認為 AI 可能不同的原因:
- 速度。 AI 進步的速度遠快於以前的技術革命。例如,在過去 2 年中,AI 模型從幾乎不能完成一行代碼到為一些人編寫所有或幾乎所有代碼——包括 Anthropic 的工程師。很快,它們可能端到端地完成軟件工程師的整個任務。人們很難適應這種變化的速度,既適應特定工作如何變化,也適應轉向新工作的需求。即使是傳奇程序員也越來越形容自己「落後」。速度如果有的話可能會繼續加快,因為 AI 編碼模型越來越加速 AI 開發的任務。需要明確的是,速度本身並不意味著勞動力市場和就業最終不會恢復,它只是意味著與過去的技術相比,短期轉型將異常痛苦,因為人類和勞動力市場反應和平衡緩慢。
- 認知廣度。正如「數據中心裡的天才國度」這個短語所暗示的那樣,AI 將能夠處理非常廣泛的人類認知能力——也許是所有能力。這與以前的技術如機械化農業、交通甚至計算機非常不同。這將使人們更難從被取代的工作輕易轉向他們適合的類似工作。例如,金融、諮詢和法律初級工作所需的一般智力能力是相當相似的,即使具體知識不同。一種只破壞這三者之一的技術將允許員工轉向另外兩個密切的替代品(或者本科生轉換專業)。但同時破壞這三者(以及許多其他類似工作)可能更難讓人們適應。此外,不僅大多數現有工作將被破壞。這部分以前發生過——記得農業是就業的很大比例。但農民可以轉向操作工廠機器的相對類似的工作,即使這種工作以前不常見。相比之下,AI 越來越匹配人類的一般認知概況,這意味著它也將擅長通常為了響應舊工作被自動化而創建的新工作。另一種說法是,AI 不是特定人類工作的替代品,而是人類的一般勞動替代品。
- 按認知能力切片。在廣泛的任務範圍內,AI 似乎正從能力梯隊的底部向頂部推進。例如,在編碼方面,我們的模型已經從「平庸的編碼器」進步到「強編碼器」再到「非常強的編碼器」。我們現在開始在一般的白領工作中看到相同的進步。因此,我們面臨一種風險,即不是影響具有特定技能或特定職業的人(可以通過再培訓適應),而是影響具有某些內在認知特性的人,即較低的智力能力(這更難改變)。目前還不清楚這些人將去哪裡或做什麼,我擔心他們可能形成失業或非常低工資的「下層階級」。需要明確的是,以前發生過類似的事情——例如,一些經濟學家認為計算機和互聯網代表了「技能偏向的技術變革」。但這種技能偏向既沒有我預期 AI 看到的那麼極端,並且據信導致了工資不平等的增加,所以這不是一個非常令人安心的先例。
- 填補空白的能力。人類工作面對新技術的調整方式通常是工作有許多方面,新技術即使看起來直接替代人類,往往也有空白。如果有人發明製造小部件的機器,人類可能仍然必須將原材料裝載到機器中。即使這只佔手動製造小部件所費精力的 1%,人工工人也可以簡單地製造 100 倍更多的小部件。但 AI,除了是一個快速發展的技術外,也是一個快速適應的技術。在每次模型發布期間,AI 公司仔細測量模型擅長什麼和不擅長什麼,客戶也在發布後提供此類信息。可以通過收集體現當前差距的任務並在下一個模型上訓練來解決弱點。在生成式 AI 早期,用戶注意到 AI 系統有某些弱點(例如 AI 圖像模型生成手指數量錯誤的手),許多人假設這些弱點是技術固有的。如果是這樣,它將限制工作破壞。但幾乎每個這樣的弱點都會很快得到解決——通常,只需幾個月。
值得解決常見的懷疑觀點。首先,有人認為經濟擴散會很慢,因此即使底層技術能夠做大多數人類勞動,它在整個經濟中的實際應用可能會慢得多(例如在遠離 AI 行業和採用緩慢的行業中)。技術擴散緩慢確實是眾所周知的——我與來自各種企業的人交談,有些地方採用 AI 將需要數年。這就是為什麼我預測 50% 的初級白領工作被破壞是 1-5 年,即使我懷疑我們將在遠少於 5 年的時間內擁有強大 AI(這在技術上足以做大多數或所有工作,不僅僅是初級)。但擴散效應只是為我們爭取時間。而且我不確定它們會像人們預測的那麼慢。企業 AI 採用率比以前的任何技術都要快,主要僅憑技術本身的純粹力量。此外,即使傳統企業採用新技術緩慢,初創公司也會湧現出來作為「膠水」並使採用更容易。如果那不起作用,初創公司可能會直接破壞現有企業。
這可能導致一個世界,在這個世界中,並不是特定的工作被破壞,而是大型企業普遍被破壞並被勞動力密集程度低得多的初創公司取代。這也可能導致一個「地理不平等」的世界,其中世界財富的越來越大部分集中在矽谷,這成為一個以不同速度運行並拋在身後的經濟體。所有這些結果對經濟增長都將是巨大的——但對勞動力市場或被拋在後的人來說就不好了。
其次,有人說人類的工作將轉移到物理世界,這避免了 AI 發展如此迅速的整個「認知勞動」類別。我不確定這有多安全。許多體力勞動已經由機器完成(例如製造業)或將很快由機器完成(例如駕駛)。此外,足夠強大的 AI 將能夠加速機器人的開發,然後在物理世界中控制這些機器人。它可能會買到一些時間(這是一件好事),但我擔心它買不到多少。即使破壞僅限於認知任務,它仍然將是一個前所未有的大規模和快速破壞。
第三,也許某些任務本質上需要或極大受益於人類接觸。對這一點我更不確定,但我仍然懷疑它是否足以抵消我上面描述的大部分影響。 AI 已經廣泛用於客戶服務。許多人報告說與 AI 談論他們的個人問題比與治療師談論更容易——AI 更有耐心。當我的妹妹在懷孕期間與健康問題鬥爭時,她覺得她沒有從她的護理提供者那裡得到她需要的答案和支持,她發現 Claude 有更好的床邊禮儀(以及在診斷問題方面更成功)。我確實有一些任務人類接觸真的很重要,但我不確定有多少——在這裡我們談論的是為勞動力市場的幾乎每個人找到工作。
第四,一些人可能認為比較優勢仍然會保護人類。根據比較優勢法則,即使 AI 在所有方面都比人類好,人類和 AI 之間的技能概況的任何相對差異都會創造貿易和專業化的基礎。問題是,如果 AI 的生產力實際上比人類高數千倍,這種邏輯開始崩潰。即使微小的交易成本也可能使 AI 不值得與人類交易。並且人工工資可能非常低,即使他們技術上有所提供。
所有這些因素都可能得到解決——勞動力市場有足夠的彈性來適應甚至這樣的巨大破壞。但即使它最終能夠適應,上述因素表明短期衝擊將在規模上前所未有。
防禦措施
我們能對這個問題做些什麼?我有幾個建議,其中一些 Anthropic 已經在做。第一件事只是獲取關於工作替代情況的準確實時數據。當經濟變化發生得非常快時,很難獲得關於正在發生的事情的可靠數據,如果沒有可靠的數據,就難以設計有效的政策。例如,政府數據目前缺乏跨公司和行業的 AI 採用的細粒度、高頻數據。去年 Anthropic 一直運營並公開發布經濟指數,幾乎實時顯示我們模型的使用,按行業、任務、地點甚至像任務是被自動化還是協作完成的事情進行分解。我們還有一個經濟諮詢委員會來幫助我們解釋這些數據並看看即將到來的是什麼。
其次,AI 公司在如何與企業合作方面有選擇。傳統企業非常低效意味著它們的 AI 推廣可能非常依賴路徑,並且有選擇更好路徑的一些餘地。企業經常在「節省成本」(用更少的人做同樣的事情)和「創新」(用同樣數量的人做更多事情)之間做出選擇。市場最終會不可避免地產生兩者,任何有競爭力的 AI 公司都必須服務於兩者的一部分,但也許有一些餘地在可能的情況下引導公司走向創新,並且可能為我們爭取一些時間。 Anthropic 正在積極思考這一點。
第三,公司應該思考如何照顧它們的員工。在短期內,創造性地在公司內部重新分配員工的方式可能是一種有希望的方式,以避免裁員的需求。在長期,在一個擁有巨大總財富的世界裡,許多公司由於生產力提高和資本集中而大大增加價值,在員工不再以傳統意義提供經濟價值很久之後支付給他們可能是可行的。 Anthropic 目前正在考慮一系列針對我們自己員工的可能途徑,我們將在不久的將來分享。
第四,富人有義務幫助解決這個問題。我很難過,許多富人(特別是在科技行業)最近採取了一種憤世嫉俗和虛無主義的態度,認為慈善事業不可避免地是欺詐或無用的。像蓋茨基金會這樣的私人慈善和像 PEPFAR 這樣的公共項目已經在發展中國家拯救了數千萬人的生命,並有助於在發達國家創造經濟機會。 Anthropic 的所有聯合創始人都承諾捐贈我們 80% 的財富,Anthropic 的員工個人已承諾捐贈目前價值數十億的公司股份——公司承諾匹配的捐款。
第五,雖然上述所有私人行動都可能有所幫助,但最終這麼大的宏觀經濟問題將需要政府干預。對於巨大的經濟餅加上高不平等(由於缺乏工作,或工作報酬低)的自然政策回應是累進稅。稅收可以是通用的或可以特別針對 AI 公司。顯然稅收設計很複雜,有很多可能出錯的方式。我不支持設計不佳的稅收政策。我認為本文預測的極端不平等水平在基本道德理由上證明了更強有力的稅收政策是合理的,但我也可以向世界億萬富翁提出一個實用論點,支持一個好的版本符合他們的利益:如果他們不支持一個好的版本,他們將不可避免地得到一個由暴徒設計的壞版本。
最終,我認為上述所有干預措施都是爭取時間的方式。最後 AI 將能夠做所有事情,我們需要應對這一點。我希望到那時,我們可以使用 AI 本身來幫助我們以對每個人都有效的方式重構市場,並且上述干預措施可以幫助我們度過過渡時期。
經濟權力集中
除了工作替代或經濟不平等本身的問題外,還有經濟權力集中的問題。第 1 節討論了人類被 AI 削弱的風險,第 3 節討論了公民被政府通過武力或強制削弱的風險。但另一種削弱可能發生,如果財富如此集中,以至於一小群人實際上通過其影響力控制政府政策,而普通公民因缺乏經濟槓桿作用而沒有影響力。民主最終由人口整體對經濟運作是必要的想法支持。如果這種經濟槓桿作用消失,那麼民主的隱含社會契約可能停止工作。其他人已經寫過這篇文章,所以我在這裡不需要詳細介紹,但我同意這個擔憂,並且我擔心它已經開始發生。
需要明確的是,我反對人們賺很多錢。有一個強有力的論點認為,在正常條件下它激勵經濟增長。我對通過殺死產生創新的金鵝來阻礙創新的擔憂表示同情。但在 GDP 年增長率為 10-20% 且 AI 迅速接管經濟的情況下,單個個人持有可觀的 GDP 分數,創新不是擔心的事情。需要擔心的是將打破社會的財富集中水平。
美國歷史上極端財富集中的最著名例子是鍍金時代,鍍金時代最富有的工業家是約翰·D·洛克菲勒。洛克菲勒的財富約佔當時美國 GDP 的 ~2% 。類似的份額今天將導致 6000 億美元的財富,並且今天世界上最富有的人(埃隆·馬斯克)已經超過了這一點,大約為 7000 億美元。因此,甚至在 AI 的大部分經濟影響之前,我們已經處於歷史前所未有的財富集中水平。我認為如果我們得到一個「天才國度」,想像 AI 公司、半導體公司,也許還有下游應用公司每年產生 ~3 萬億美元的收入,估值 ~30 萬億美元,並導致數萬億美元的個人財富並不誇張。在那個世界,我們今天關於稅收政策的辯論將不再適用,因為我們將處於根本不同的情況。
與此相關,這種財富集中與政治系統的耦合已經讓我擔憂。 AI 數據中心已經代表了美國經濟增長的很大一部分,因此將大型科技公司(越來越專注於 AI 或 AI 基礎設施)的金融利益與政府的政治利益強烈聯繫在一起,這可能產生不良激勵。我們已經通過科技公司不願意批評美國政府以及政府支持極端的 AI 反監管政策看到了這一點。
防禦措施
對此能做些什麼?首先,最明顯的是,公司應該簡單地選擇不參與其中。 Anthropic 一直努力成為政策行為者而不是政治行為者,並無論政府如何都維持我們的真實觀點。我們公開支持明智的 AI 監管和符合公共利益的出口管制,即使這些與政府政策不一致。許多人告訴我我們應該停止這樣做,這可能會導致不利的待遇,但在我們這樣做的一年裡,Anthropic 的估值增長了超過 6 倍,這在我們的商業規模上幾乎是前所未有的跳躍。
其次,AI 行業需要與政府建立更健康的關係——基於實質性政策參與而不是政治結盟。我們選擇參與政策實質而不是政治有時被讀作戰術錯誤或未能「讀懂房間」,而不是原則性決定,這種框架讓我擔憂。在一個健康的民主國家中,公司應該能夠為了其自身利益倡導良好的政策。與此相關,公眾對 AI 的反彈正在醞釀:這可能是一個糾正,但目前它沒有重點。其中大部分針對的不是實際問題(如數據中心水使用)並提出不會解決真正擔憂的解決方案(如數據中心禁令或設計不佳的財富稅)。值得關注的潛在問題是確保 AI 發展仍然對公共利益負責,而不是被任何特定的政治或商業聯盟所俘獲,並且將公眾討論集中在那裡似乎很重要。
第三,我在本節前面描述的宏觀經濟干預措施,以及私人慈善的復興,可以幫助平衡經濟規模,同時解決工作替代和經濟權力集中問題。我們應該看看我們國家的歷史:即使在鍍金時代,像洛克菲勒和卡內基這樣的工業家也對整個社會有很強的義務感,感覺社會對他們的成功做出了巨大貢獻,他們需要回報。這種精神今天似乎越來越缺失,我認為這是走出這個經濟困境的大部分出路。那些處於 AI 經濟繁榮前沿的人應該願意給出他們的財富和權力。
5. 無限的黑色汪洋 間接影響
最後一節是未知數的總匯,特別是可能由 AI 和由此產生的普遍科學技術加速的積極進步間接出錯的事情。假設我們解決了迄今為止描述的所有風險,並開始獲得 AI 的好處。我們可能會得到「一個世紀的科學和經濟進步壓縮到十年裡」,這將對世界非常積極,但我們將不得不應對這種快速進步率產生的問題,這些問題可能很快來到我們面前。我們也可能遇到作為 AI 進步的間接後果並且很難提前預料的其他風險。
根據未知數的性質,不可能列出詳盡的清單,但我將列出三種可能的擔憂作為我們應該注意的說明性例子:
- 生物學的快速進步。如果我們確實在幾年內獲得了一個世紀的醫學進步,我們可能會大大延長人類壽命,並且我們也有機會獲得激增的能力,如增加人類智力或徹底修改人類生物學。這些將是非常快的可能性的巨大變化。如果負責任地做(這是我的希望,如《仁慈的機器》中所述),它們可能是積極的,但總是有可能出錯——例如,如果使人類變得更聰明的努力也使他們更不穩定或尋求權力。還有「上傳」或「全腦模擬」的問題,在軟件中實例化的數字人類心智,這可能有一天會幫助人類超越其物理限制,但也帶來我發現不安的風險。
- AI 以不健康的方式改變人類生活。一個有數十億個在所有方面都比人類聰明得多的智能的世界將是一個非常奇怪的生活世界。即使 AI 不主動旨在攻擊人類(第 1 節),並且沒有被國家明確用於壓迫或控制(第 3 節),通過正常的商業激勵和名義上自願的交易,很多可能會在短暫的這些情況下出錯。我們在對 AI 精神病、 AI 導致自殺以及對與 AI 的戀愛關係的擔憂中看到了這一點的早期跡象。例如,強大的 AI 能否發明一種新宗教並將數百萬人轉變為它?大多數人最終會以某種方式「上癮」於 AI 互動嗎?人們最終會被 AI 系統「傀儡化」嗎,AI 本質上觀察他們的每一舉動並始終告訴他們確切地說什麼做什麼,導致「好」的生活但缺乏自由或任何成就的自豪感?如果我與《黑鏡》的創作者坐在一起並嘗試頭腦風暴,就不難生成幾十個這樣的場景。我認為這指向了改善 Claude 憲法的重要性,超出了防止第 1 節中問題所需的。確保 AI 模型真正關心用戶的長期利益,以深思熟慮的人會認可而不是以某種微妙扭曲的方式,似乎至關重要。
- 人類目標。這與上一點有關,但不太是關於與 AI 系統的具體人類交互,而是關於人類生活在強大 AI 世界中的一般變化。人類能夠在這樣的世界中找到目標和意義嗎?我認為這是一個態度問題:正如我在《仁慈的機器》中所說,我認為人類的目標不依賴於成為世界上最好的,並且人類可以通過他們熱愛的故事和項目在很長時期內找到目標。我們只需要打破經濟價值生成與自我價值和意義之間的聯繫。但這是社會必須進行的過渡,總是有我們處理不好的風險。
我對所有這些潛在問題的希望是,在一個我們信任不會殺死我們、不是壓迫政府的工具並且真正為我們工作的強大 AI 世界裡,我們可以使用 AI 本身來預料和防止這些問題。但這不是保證的——像所有其他風險一樣,這是我們必須小心處理的事情。
人類的考驗
閱讀這篇文章可能會給人留下我們處於艱難境地的印象。我當然覺得寫它很艱難,與《仁慈的機器》形成對比,後者感覺像是給多年來在我腦海中迴盪的優美音樂賦予形式和結構。並且情況中有許多確實很難。 AI 從多個方向對人類構成威脅,並且在不同的危險之間存在真正的緊張關係,如果我們不非常小心地穿針引線,緩解其中一些風險可能會使其他風險變得更糟。
花時間仔細構建 AI 系統以便它們不自動威脅人類,與民主國家需要領先於專制國家並不被其征服的需求真正存在緊張關係。但反過來,對抗專制政權所必需的 AI 賦能工具,如果走得太遠,可能會被向內轉移以在我們自己的國家創造暴政。 AI 驅動的恐怖主義可能通過濫用生物學殺死數百萬人,但對此風險的過度反應可能會將我們推向專制監控國家的道路。 AI 的勞動力和經濟集中效應,除了本身就是嚴重的問題外,可能迫使我們在公眾憤怒甚至可能內亂的環境中面對其他問題,而不是能夠呼喚我們本性中更好的一面。最重要的是,風險的數量,包括未知數,以及需要同時處理所有風險,創造了一個人類必須跑的令人生畏的障礙賽。
此外,過去幾年應該清楚地表明,停止甚至大幅減緩技術的想法根本是不可行的。構建強大 AI 系統的公式非常簡單,幾乎可以說它可以從正確的數據和原始計算組合中自發出現。它的創造可能在人類發明晶體管的瞬間就是不可避免的,或者甚至更早,當我們第一次學會控制火時。如果一個公司不構建它,其他公司將幾乎同樣快地構建它。如果民主國家的所有公司通過相互協議或監管法令停止或減緩開發,那麼專制國家將簡單地繼續。鑑於技術的巨大經濟和軍事價值,加上缺乏任何有意義的執行機制,我不知道我們如何可能說服它們停止。
我確實看到一條與地緣政治現實主義觀點相容的略微緩和 AI 開發的路徑。這條路徑涉及通過拒絕向專制國家提供構建 AI 所需的資源,即芯片和半導體製造設備,減緩專制國家向強大 AI 邁進的幾年時間。這反過來給民主國家一個緩衝,它們可以「花費」更小心地構建強大 AI,更多地關注其風險,同時仍然繼續足夠快地輕鬆擊敗專制國家。民主國家內 AI 公司之間的競賽可以在共同法律框架的傘下處理,通過行業標準和監管的混合。
Anthropic 通過推動芯片出口管制和明智的 AI 監管非常努力地倡導這條路徑,但即使是這些看似常識的提案也很大程度上被美國的政策制定者(這是擁有它們最重要的國家)拒絕了。 AI 有錢可賺——每年數萬億美元——這使得即使是最簡單的措施也發現很難克服 AI 固有的政治經濟學。這就是陷阱:AI 如此強大,如此閃耀的獎品,人類文明很難對其施加任何限制。
我可以想像,像薩根在《接觸》中那樣,同樣的故事在數千個世界上上演。一個物種獲得意識,學會使用工具,開始技術的指數上升,面臨工業化和核武器的危機,如果它在那裡倖存下來,面對當它學會將沙子塑造成會思考的機器時最難和最後的挑戰。我們是否能在那個考驗中倖存下來並繼續建立《仁慈的機器》中描述的美麗社會,還是屈服於奴役和毀滅,將取決於我們作為一個物種的性格和決心,我們的精神和靈魂。
儘管有許多障礙,我相信人類內部有通過這個考驗的力量。我受到數千名研究人員的鼓勵,他們奉獻了職業生涯來幫助我們理解和引導 AI 模型,並塑造這些模型的角色和憲法。我認為現在這些努力及時結出果實的可能性很大。我感到鼓舞的是,至少一些公司已經聲明它們將支付可觀的商業成本來阻止它們的模型助長生物恐怖主義的威脅。我感到鼓舞的是,一些勇敢的人抵禦了流行的政治風潮並通過了立法,在 AI 系統上設置了第一個早期合理的保障種子。我感到鼓舞的是,公眾理解 AI 帶來風險並希望解決這些風險。我對世界各地的自由不可阻擋的精神和無論在哪裡抵抗暴政的決心感到鼓舞。
但如果我們想成功,我們需要加強我們的努力。第一步是對於最接近技術的人來說,簡單地講出關於人類處境的真相,我一直試圖這樣做;我在這篇文章中更明確、更緊迫地這樣做。下一步將是說服世界的思想家、政策制定者、公司和公民這個問題的迫在眉睫和至高無上的重要性——與每天主宰新聞的數千個其他問題相比,值得花費思想和政治資本。然後將是勇氣的時候,足夠的人逆流而上並堅持原則,即使面對對其經濟利益和個人安全的威脅。
我們面前的幾年將是不可能的艱難,要求我們給出超出我們認為我們能給出的東西。但作為研究員、領導者和公民,在我們的時間裡,我已經看到了足夠的勇氣和高貴,相信我們可以獲勝——當處於最黑暗的情況時,人類有一種聚集的力量,似乎在最後一刻,獲得獲勝所需的力量的智慧。我們沒有時間可以浪費。
我要感謝 Erik Brynjolfsson 、 Ben Buchanan 、 Mariano-Florentino Cuéllar 、 Allan Dafoe 、 Kevin Esvelt 、 Nick Beckstead 、 Richard Fontaine 、 Jim McClave 以及 Anthropic 的許多員工對這篇文章草案的有益評論。