將 AI 導入企業並非像安裝一套新軟體或部署雲端應用那樣簡單,它更像是一場思維模式的革命。成功的企業往往將 AI 視為一個全新的範式(paradigm),抱持著實驗精神,透過不斷迭代、從實際應用中學習,從而更快地實現價值,並獲得使用者與利害關係人的廣泛支持。
AI 能在三個主要方面為企業帶來顯著且可衡量的改進:
- 提升員工績效(Workforce performance):幫助員工在更短的時間內產出更高品質的工作成果。
- 自動化日常營運(Automating routine operations):將人們從重複性的瑣碎任務中解放出來,讓他們能專注於更具附加價值的工作。
- 驅動產品創新(Powering products):提供更具關聯性、反應更即時的客戶體驗,從而賦能產品本身。
從評估開始(Start with evals)
這份報告最基礎的論點,就是「從評估開始」。這句話聽起來很簡單,但其背後的涵義卻是企業導入 AI 是否成功的關鍵基石。
想像一下,你是一家餐廳的老闆,聽說現在有一種很厲害的「全能料理機器人」(這就是我們的 AI 模型,比如 GPT-4)。這個機器人的廣告宣稱它能做出世界上所有的菜餚,效率極高。你很心動,想把它引進你的餐廳來解決人手不足的問題。
這時候,你會怎麼做?你會不會直接花大錢買下它,然後第一天就讓它負責你餐廳所有的菜單,從開胃菜到甜點?你大概不會這麼做,因為風險太大了。萬一它做的菜不符合你餐廳的風味?萬一它對「微辣」的理解和你的顧客不一樣?萬一它在處理昂貴食材時出錯了呢?
一個理智的餐廳老闆會做的,就是進行「評估」(evals)。這個評估不是隨便試試,而是一個嚴謹、有結構的過程。你可能會這樣做:
- 設定具體的測試任務(Define Use Cases):你不會讓它「隨便做點什麼」,而是會給它具體的任務。例如:「請製作我們的招牌菜——紅燒獅子頭。」、「請為一位對麩質過敏的客人客製化一份義大利麵。」這些具體的應用場景,就是報告裡所說的「use cases」。
- 建立衡量標準(Establish Benchmarks):光是做出菜還不夠,你得有標準來判斷做得好不好。這個標準就是「benchmarks」。你的標準可能包括:味道是否跟你的主廚做的一樣?外觀是否美觀?成本是否控制在預算內?準備時間是否夠快?甚至,你會不會請你的老顧客來試吃,看看他們的反應如何?
- 進行對比測試(Comparative Analysis):你會把機器人做的紅燒獅子頭,和你餐廳最有經驗的主廚做的版本放在一起比較。你會請專家(你的主廚團隊)和終端使用者(你的顧客)來評分。這就是報告中摩根史坦利(Morgan Stanley)案例裡提到的「Human trainers」——讓人類專家來評估 AI 的產出。
這個完整的測試流程,就是「eval」。它不是一次性的,而是一個持續的過程。你可能會發現,這個機器人做中餐很厲害,但做法式甜點就不行。或者它能完美複製食譜,但無法進行任何創意發揮。透過這個過程,你才能真正了解這個 AI 模型的強項、弱點,以及它最適合用在你餐廳的哪個環節。
報告中以全球金融服務巨頭摩根史坦利為例,完美詮釋了這一點。金融業是一個高度講求信任、個人化且極度敏感的行業。任何一個微小的錯誤都可能導致巨大的損失和信譽危機。因此,當他們考慮導入 AI 時,內部的質疑聲浪可想而知。他們的解決方案,就是為每一個打算引進 AI 的應用場景,都設計了密集的評估流程。
他們的目標是讓財務顧問更有效率。他們設計了三個核心的評估模型:
- 語言翻譯(Language translation):評估 AI 翻譯金融文件的準確度和品質。
- 摘要(Summarization):評估 AI 總結長篇研究報告的準確性、關聯性和連貫性。這不只是縮短文字,而是要確保核心觀點不失真。
- 人類培訓師(Human trainers):將 AI 生成的投資建議或客戶回覆,與經驗豐富的財務顧問寫的內容進行直接比較,由專家來評分。
只有在 AI 的表現在這些嚴格的評估中達到甚至超越了預設的標準後,摩根史坦利才充滿信心地將這些功能推向實際應用。結果是驚人的:如今 98% 的財務顧問每天都在使用 OpenAI 技術,他們存取文件的範圍從過去的 20% 躍升至 80%,搜尋時間大幅縮短,讓他們有更多時間與客戶建立關係。這種成功,完全建立在最初那堅實、嚴謹的「評估」基礎之上。
所以,「從評估開始」的真正意義是:在將 AI 全面整合到你的核心業務之前,你必須像一位嚴格的考官,為它設計一套針對你特定需求的、可量化的、可比較的考試。這個過程不僅是為了測試 AI 的能力,更是為了建立組織內部對 AI 的信任,降低未知的風險,並找到 AI 能夠發揮最大價值的最佳切入點。 這不是一個選項,而是一個紀律。沒有這個紀律,企業的 AI 之路很可能會充滿挫折,甚至以失敗告終。
將 AI 嵌入您的產品中(Embed AI into your products)
如果說「評估」是打地基,那麼第二個論點「將 AI 嵌入產品」就是決定你究竟要蓋一棟什麼樣的建築。這個論點的核心思想是,AI 的最大潛力,並非作為一個獨立、外掛的工具存在,而是當它被無縫地、深度地整合進你的核心產品或服務中,去創造一種前所未有的、更人性化的體驗時,才能真正被釋放。
讓我們再次使用費曼學習法來理解。想像一下你的智慧型手機。在早期,如果你想導航,你可能需要打開一個獨立的「地圖 App」。這個 App 很有用,但它和你的手機其他功能是割裂的。現在,想像一下 AI 被「嵌入」後的體驗:
當你在行事曆上設定了一個會議地點,你的手機會在你需要出發時自動提醒你,並根據即時路況規劃好最佳路線。當你開車時,導航語音會在你收到來電時自動降低音量。當你快到目的地時,它可能會提醒你附近有停車場,並詢問是否需要幫你支付停車費。
看到了嗎?AI 不再是一個你必須主動去「打開」的獨立應用程式。它像空氣一樣,融入了你手機的整個生態系統,默默地、智慧地串連起不同的功能,預測你的需求,為主動你提供服務。這就是「嵌入式 AI」的力量。它不是在產品「旁邊」加了一個新功能,而是讓產品的「核心」變得更聰明、更貼心。
報告中以全球最大的求職網站 Indeed 為例,這是一個絕佳的示範。 Indeed 的核心產品是「媒合求職者與工作」。一個傳統的、非嵌入式的 AI 應用可能是,在網站旁邊放一個聊天機器人,讓求職者可以問「有沒有數據分析師的職缺?」之類的問題。
但 Indeed 做的遠不止於此。他們將 GPT-4o mini 模型「嵌入」到他們最核心的媒合引擎中。現在,當 Indeed 向求職者推薦一個職位時,它不僅僅是基於履歷上的關鍵字匹配。 AI 會深入分析求職者的背景、經歷和技能,然後生成一段個人化的「為什麼」(the power of why)的說明。例如,它會告訴你:「我們推薦這個專案經理的職位給你,因為你在上一份工作中成功領導了跨國團隊的經驗,與這個職位所要求的『全球協作能力』高度契合。」
這種體驗上的轉變是巨大的。它將一次冰冷的、由演算法驅動的媒合,轉化為一次溫暖的、彷彿來自專業獵頭的個人化建議。這就是報告中所說的「創造感覺更人性化的客戶體驗(create customer experiences that feel more human)」。因為 AI 處理了海量數據,反而能夠提供比以往任何時候都更具關聯性和個人化的互動。
這種深度嵌入帶來了實質的商業回報。 Indeed 發現,採用這種新方式後,求職申請的發起率增加了 20%,而更關鍵的「下游成功率」(downstream success,也就是求職者不僅申請了,還最終被雇主聘用)提升了 13% 。這證明了嵌入式 AI 不僅僅是提升了用戶體驗,更是實實在在地提升了產品的核心價值——成功地為人們找到合適的工作。
此外,這個案例還帶出一個重點:規模化。 Indeed 每月要發送超過 2000 萬則訊息,要讓這種嵌入式 AI 在如此大的規模下運行,成本和效率至關重要。因此,他們與 OpenAI 合作,對一個較小的 GPT 模型進行微調(fine-tune),使其在消耗減少 60% token 的情況下,依然能達到相似的卓越效果。
總結來說,「將 AI 嵌入您的產品中」的真正意涵是:不要只把 AI 當成一個外掛的輔助工具。要思考如何將 AI 的能力,如自然語言理解、數據分析、個人化生成等,像神經系統一樣植入你產品和服務的 DNA 中。目標是重新定義你的核心用戶體驗,使其變得更智慧、更無縫、更個人化,從而建立起他人難以模仿的護城河。 這種做法,是從「使用 AI」到「成為 AI 驅動型企業」的關鍵躍遷。