《What Are AI Agents?》核心論點解析:何時及如何使用 LLM 代理
《What Are AI Agents?》是由 O’Reilly 出版社於 2023 年發布的簡明指南,由 Workhelix 首席機器學習工程師 Benjamin Labaschin 撰寫。本書以淺顯易懂的方式介紹了 AI 代理(AI Agents)的概念、使用時機與實作方法。以下就本書核心論點進行詳細闡述。
論點一:AI 代理是大型語言模型的使用者介面「包裝器」
本書開篇即對 AI 代理給出清晰的定義:AI 代理是專門設計的工具,讓使用者能夠與大型語言模型(LLM)進行互動,以盡可能無縫地實現更具生產力或創造力的工作流程。在 AI 代理出現之前,使用者必須自行構建統計語言模型——這是一個耗時,技術門檻高且昂貴的過程!如今,透過 AI 代理,想要與 AI 互動的使用者只需登入介面,即可完成從詢問文檔問題到作業輔助等各種任務。
從更細緻的角度來看,AI 代理可以被視為運行其上的模型的使用者介面「包裝器」(UI wrappers)。也就是說,AI 代理通常是使用者友善的「前端」,透過聚焦和限制使用者與模型互動的方式來讓使用更為容易。以 ChatGPT 為例:驅動 ChatGPT 的模型(GPT-3.5 Turbo 或 GPT-4)極為複雜、強大且難以自行使用和操作。作為 AI 代理,ChatGPT 抽象化了這些模型的技術特性,允許使用者僅透過文字就能與之互動。
論點二:AI 代理與 LLM 的關係——汽車與引擎的類比
本書運用一個生動的類比來解釋 AI 代理與 LLM 之間的關係:我們可以將 AI 代理視為汽車,而驅動它們的模型則可被視為引擎。沒有引擎,汽車無法前進;而且正如某些引擎是為特定用途設計的(如越野車引擎 versus 校車引擎),AI 代理也需要特定的「引擎」來適配其用途。
例如,當 GitHub Copilot 協助您編寫程式碼時,您會希望所使用的代理是由專為程式碼輔助目的而構建的 LLM 驅動的。這正是機器學習工程師所做的——他們構建適合特定用途的「引擎」。作者強調,使用 AI 代理的使用者並不需要了解引擎是如何運作的——就像駕駛汽車的人不需要理解引擎原理一樣,只需要知道如何使用汽車本身。最佳的 AI 代理應該是直觀的、對其用例有效的,並擁有合適的 LLM 作為其使用者的「引擎」。
論點三:文件問答代理——解決資訊過載的利器
本書介紹的第一種 AI 代理類型是「文件問答代理」(Document Q&A Agents)。這類代理專為解決「資訊過剩」的問題而設計。透過文件問答代理,使用者可以直接向文件提問並獲得關於其內容的答案,無需進行繁瑣的手動搜尋。
書中舉例說明:假設您第一天到「虛假公司」上班,經理給您一大疊入職文件要您閱讀。您可以開始閱讀所有文件,但這可能非常耗時。這時,文件問答代理就能派上用場。這類代理會攝取文件、將其存儲在記憶中,不僅存儲資訊,還能透過自然語言介面向使用者整合和回饋相關資訊。您只需向文件問答代理提問,它就會返回所需的資訊。
論點四:聊天機器人代理——動態互動的優勢
第二種類型是「聊天機器人代理」(Chatbot Agents)。與文件問答代理類似,聊天機器人代理也能夠攝取自然語言輸入並產生相關輸出。然而,聊天機器人代理的功能更加動態。文件問答代理的焦點是回答您提供的來源材料中的問題,而聊天機器人代理則會在用戶開始與其互動之前,預先接收「提示」(prompts)。
提示就是那些代理被「提示」在協助使用者時始終遵循的指令。聊天機器人代理在連接第三方系統(如資料庫和網際網路)時特別有用,這使得它們因為能夠啟用更廣泛的產品可能性而可能比問答代理更強大。與過去脆弱的非代理聊天機器人不同,聊天機器人代理還能夠以更動態且更具包容性的方式與使用者互動。它們可以被設定用多種語言交流、應對難纏的使用者,並精確回答使用者提出的問題。此外,它們還能夠全天候訪問,實現使用者回饋的改善。
論點五:程式碼輔助代理——提升開發者生產力
第三種主要類型是「程式碼輔助代理」(Code Assistant Agents)。這類代理由專為幫助使用者更有效率地編寫程式碼而設計的模型驅動。流行的程式碼輔助代理包括 GitHub Copilot 、 Amazon CodeWhisperer 和 Hugging Face 的 StarCoder 。
程式碼輔助代理的功能包括:編輯錯誤纏身的程式碼、為常見編碼問題自動完成簡單函數,或為更困難的編碼問題設計模板。過去,軟體工程師和開發者可能需要透過搜尋引擎、聊天室或同事來解決問題,但程式碼輔助代理減少了這種昂貴的情境切換需求,大幅提升生產力。書中示範了如何將 Python 程式碼翻譯成 Java——您只需描述想要的結果,程式碼輔助代理就會自動完成函數編寫。
論點六:AI 代理的基礎設施與未來發展
本書還探討了 AI 代理的基礎設施問題。維護 AI 代理可能是昂貴的事,這很大程度上是由於運行驅動這些代理的 LLM 引擎需要大量計算資源。然而,這種情況肯定不會持續太久。過去一年來,隨著對 AI 代理的興趣指數級增長,為這些代理構建更強大、使用者友善的基礎設施的運動也隨之興起。過去,運行 AI 代理需要雲端托管,如今像 Llama 2 這樣的 LLM 可以在您的電腦上本地運行。
作者指出,專注於這些工具的專業人士被稱為「LLMOps」,他們可能會獲得豐厚的報酬和良好的就業機會。
論點七:AI 代理的挑戰——安全、立法與倫理
最後,本書也坦誠地討論了 AI 代理面臨的挑戰與倫理問題。 AI 代理可能有用的同時,也可能存在危險。不經意的使用者可能會向代理提供機密的公司和個人資訊,從而可能危及重要的公司智慧財產權或基礎設施。其他人指出,即使是 AI 代理的預設語調和聲音的選擇也可能充滿倫理問題。
此外,代理背後的 LLM 引擎也存在問題:某些 LLM 是使用未經智慧財產權所有者同意的材料進行訓練的,許多 LLM 有可能傳播虛假資訊或明顯的謊言。出於這些原因,許多國家的立法者已經在考慮立法來限制或阻止 AI 代理的使用。這些問題在未來幾個月和幾年內將成為焦點,值得關注。
論點八:AI 代理的未來——精靈已離開瓶子
本書結論指出,雖然 AI 代理的未來在六個月後肯定會有所不同,但 AI 代理的「精靈已經離開了瓶子」。太多人已經從 AI 代理中受益,其有用性不容忽視——而且太多開發者知道如何構建這些工具,以至於無法阻止其進展。
作者強調,AI 代理的未來問題不是它們是否會被使用,而是它們將如何被使用。如果您讀完本書後有任何興趣,現在就是開始的最佳時機。本書的最後結語饒有趣味地指出,整個結論是由 OpenAI 的 ChatGPT-4 編寫的,凸顯了 AI 代理已經深度融入我們的資訊生態系統。
結語
《What Are AI Agents?》為我們提供了一個清晰、實用的 AI 代理入門指南。本書的核心訊息是:AI 代理是強大的工具,它們使 LLM 更加親民、更易於使用。從文件問答、聊天機器人到程式碼輔助,AI 代理正在改變我們與資訊互動的方式。雖然挑戰依然存在——包括安全、倫理和基礎設施方面的問題——但 AI 代理的發展潮流已經不可逆轉。對於任何希望了解或開始使用 AI 代理的人來說,這是一本極佳的入門讀物。