首頁 > 智能 > 正文

斯坦福&谷歌研發“生成式智能體”，讓游戲NPC“活了”

2023-04-30 09:27:30來源：智嗨網

撰文| 李熙

編輯 | 楊博丞

(相關資料圖)

題圖 | ICPhoto

電子游戲業經歷了三十多年的牛市，游戲中的NPC在畫面視效上有了飛躍，然而互動智能上并沒有給玩家相似的體驗提升。

玩家們在1995年的國產角色扮演游戲里，見過漁夫NPC只會重復一句“今天是釣魚的好天氣”；在2017年的育碧開放沙盒游戲里，聽過玻利維亞鄉民NPC反復只說單調的西語粗口。

其他領域的人工智能已經改頭換面，但用在游戲NPC上的人工智能長久以來還像復讀機?！吧磉厴屃謴椨?，NPC八風不動”的哏，已經讓瑞恩·雷諾茲老師拍成熱賣電影了。

電影《失控玩家》截圖

在大語言模型風靡的當下，以之改造游戲NPC成為可能。然而2023年4月7日，斯坦福大學和谷歌的研究者在預印本平臺上發布的論文，成就遠過于業界期待：NPC豈止更聰明，簡直算是“活過來了”。

一、開游戲業與AI界40年未有之先河

生成式AI和大語言模型興起前，用AI改善游戲NPC的努力，一般是在更易實現的強化學習方向，其中最出名的是2019年在DOTA2里擊敗人類世界冠軍的OpenAI 公司制作的5個AI。

這種思路的概括，是用有清晰爭勝目標的對抗性環境來作為獎懲機制來訓練NPC，最終完成的AI架構能讓NPC自我修正行為以取得勝利目標。

OpenAI的DOTA2 AI與人類對戰截圖

不過游戲業的產品生態不止于此。不少游戲產品以奪旗、清空敵手等可以明確定義的對抗性勝利目標為基礎，但很多游戲沒有這種對抗性，游戲機制是模擬下廚、賣雜貨、拖拉機耕地、校園戀愛等隨機度更高的活動。更多游戲的機制是開放性沙盒，沒有明確定義的取勝路徑與規則。

這些游戲的NPC功能如何從AI技術革命中獲益，很長時間內業內大公司暫時還沒明確答案。

然而2023年4月中旬谷歌與斯坦福大學研究者的論文《生成式行為體：人際行為的交互式互動》，給出了通往答案的路徑：用大語言模型，讓沙盒模擬游戲里的NPC“獲得生命”。

研究者稱，過去四十年來，學界嘗試過創造行為可信的NPC的各種途徑，但在實際應用中，這些途徑基于簡單環境或智能體行為的單調維度，否則無法運行。而此研究的成功，突破了上述局限。

二、原理：ChatGPT讓NPC“思考”，本地數據庫讓NPC“記憶”

簡單來說，研究者通過普通編程，為一個《模擬人生》類型游戲的虛擬小鎮中的NPC們寫好了虛擬環境設定、智能體人物設定、記憶庫架構、擬定計劃等各方面程序代碼。然后在NPC與虛擬環境間、多名NPC之間的每次接觸時，將以上各方面基礎數據、互動環境等以自然語言描述后，通過應用程序接口輸入給ChatGPT，再將ChatGPT的答案作為NPC下一步行為的指令。

具體而言，研究中的“生成式行為體”NPC，其決策路徑如下圖所示：感知－錄入記憶流－檢索記憶庫－反思／計劃－行為

“生成式行為體” 決策路徑簡圖

“感知”是NPC行為體對互動、虛擬環境等的信息輸入，錄入“記憶流”后，與記憶數據庫對比。

然后“檢索”是從數據庫中提取相關的記憶事項，NPC行為體會用自然語言將事項輸入給ChatGPT，由大語言模型來決策事項的優先級，優先級由事項的晚近程度、ChatGPT判斷的重要度與相關性為判斷基準。給出的答案作為NPC思維流程的下一步輸入詞。

接著，數據庫與大語言模型會開始NPC的“反思”過程，數據庫將行為體最近100條記憶事項以自然語言輸入ChatGPT，讓大模型來推斷出由此可知最重要/相關的觀點。

“檢索”獲取的答案、“反思”得出的觀點、結合NPC本身的人設數據，都以自然語言自動再次輸入ChatGPT，用大模型得出最符合人類行為邏輯的行動指令。

試運行截圖

如此設計的用意，是因為大語言模型在訓練期間已經被寫入了廣泛的人類行為資料，在給出背景涵義足夠精準的提示詞時，ChatGPT等大模型可以生成高擬真度的人類行為預測答案。

然而在這個迅速驚艷世界的功能后，大語言模型存在小瑕疵：它不能記住每個用戶的個性化錄入內容，所有用戶與模型間的對話都不能直接修改模型的參數，任何顯得ChatGPT有記憶的表現都是算法在復讀最時新的用戶錄入內容緩存。

所以谷歌與斯坦福的研究者，結合存儲在云服務器上的數據庫與ChatGPT，來制作出能完成前述“思維步驟”的NPC，讓它們可以實時模擬人類的自主決策。固定數據庫與軟件架構是NPC佐助連續性思考的“記憶”，而大語言模型是NPC用來即時性思考的“靈魂”。

三、效果：NPC能自行談戀愛和選鎮長了

在研究者的試運行中，NPC智能體可以做到沒有人工干預微操、只給簡單指令，就能自行完成復雜事件。當研究者讓名叫伊莎貝拉的NPC籌劃情人節聚會時，她自行在虛擬小鎮中開始逐個邀請自己的朋友和熟人，并自行裝飾作為聚會場所的咖啡館。

智能體與虛擬環境間的互動可以完全自發且自洽。在環境狀況設置為“食物引燃”的狀況下，“伊莎貝拉”能自主做出“關閉燃氣灶”的決策。如果這用普通編程也可以做到的話，智能體接下來的“重做早飯”行為，就是較前有顯著突破的AI自發決策。

智能體之間的互動，已經達到可以模擬實際人際關系中的“信息擴散”與“協作”行為。

例如“伊莎貝拉”宣布要開情人節聚會后，她邀請到的AI智能體們又進一步邀請其他與伊莎貝拉無直接接觸的AI，例如名叫瑪麗婭的AI就邀請自己的“暗戀對象”克勞斯一同赴會。

情人節聚會消息在NPC中擴散的過程

再如名叫“山姆”的AI宣布要競選虛擬小鎮鎮長后，AI“伊莎貝拉”與“湯姆”對此有自發的議論：“伊莎貝拉”詢問“湯姆”的意見，“湯姆”答出自己的觀點：“老實說我不看好山姆，他與本社區已經脫節，也并不真把我們的攸關利益放在心上“。

在研究者的兩日試運行中，虛擬小鎮的25個NPC里，得知“山姆”參選鎮長的從單個擴散到8個、得知“伊莎貝拉”辦聚會的從單個擴散的12個，過程中完全無人工干預。并且NPC們在互動內容的置信度上部分超過了真人玩家。

論文里各種狀態下NPC與人類的行為置信度對比量表

當然，論文出圈后的“《西部世界》實現“熱議并不準確。仔細的觀察者們大都發現，不管所用的ChatGPT還是自制的NPC程序，并沒有真正的自主人類意識，只是將大模型的相關性引擎性能潛力進一步發掘。

由于大語言模型的現有局限，研究中的NPC也經常有無厘頭的“幻覺”缺陷。例如NPC觀測到虛擬小鎮中有“公廁”，就不認為是“單人廁所”，出現了“AI使用洗手間時常被其他AI闖入”的互動場景。虛擬小鎮上的商店是下午五點關門，然而NPC們時常在歇業時間試圖進入。有AI看到其他NPC的名字是亞當·史密斯，就說：“啊我曉得你，你就是那個18世紀的經濟學宗師?！?/p>

論文中提到了這些缺陷，還說“提示詞黑客手段-即人類玩家用仔細準備好的對話內容來迷惑NPC行為體，可以讓AI幻覺出從未發生的事件的記憶?！?/p>

現在很多游戲業者認為生成式AI的技術還在襁褓期，暴炒Chatgpt的人很多五六年前在狂吹加密貨幣。有名的波蘭游戲公司CD Projekt Red，其動作游戲系列的內容開發者領軍人在2023年1月說，NPC離自行建立一個生態活躍的虛擬社區，還太過遙遠。

生成式AI的確是在襁褓期，但襁褓中的生物，最突出特征就是飛快的生長速度。AI大模型將如何改變游戲業，實在讓人充滿憧憬。

標簽：