首頁 > 智能 > 正文

    斯坦福&谷歌研發“生成式智能體”,讓游戲NPC“活了”

    2023-04-30 09:27:30來源:智嗨網  

    撰文| 李 熙

    編輯 | 楊博丞


    (相關資料圖)

    題圖 | ICPhoto

    電子游戲業經歷了三十多年的牛市,游戲中的NPC在畫面視效上有了飛躍,然而互動智能上并沒有給玩家相似的體驗提升。

    玩家們在1995年的國產角色扮演游戲里,見過漁夫NPC只會重復一句“今天是釣魚的好天氣”;在2017年的育碧開放沙盒游戲里,聽過玻利維亞鄉民NPC反復只說單調的西語粗口。

    其他領域的人工智能已經改頭換面,但用在游戲NPC上的人工智能長久以來還像復讀機?!吧磉厴屃謴椨?,NPC八風不動”的哏,已經讓瑞恩·雷諾茲老師拍成熱賣電影了。

    電影《失控玩家》截圖

    在大語言模型風靡的當下,以之改造游戲NPC成為可能。然而2023年4月7日,斯坦福大學和谷歌的研究者在預印本平臺上發布的論文,成就遠過于業界期待:NPC豈止更聰明,簡直算是“活過來了”。

    一、開游戲業與AI界40年未有之先河

    生成式AI和大語言模型興起前,用AI改善游戲NPC的努力,一般是在更易實現的強化學習方向,其中最出名的是2019年在DOTA2里擊敗人類世界冠軍的OpenAI 公司制作的5個AI。

    這種思路的概括,是用有清晰爭勝目標的對抗性環境來作為獎懲機制來訓練NPC,最終完成的AI架構能讓NPC自我修正行為以取得勝利目標。

    OpenAI的DOTA2 AI與人類對戰截圖

    不過游戲業的產品生態不止于此。不少游戲產品以奪旗、清空敵手等可以明確定義的對抗性勝利目標為基礎,但很多游戲沒有這種對抗性,游戲機制是模擬下廚、賣雜貨、拖拉機耕地、校園戀愛等隨機度更高的活動。更多游戲的機制是開放性沙盒,沒有明確定義的取勝路徑與規則。

    這些游戲的NPC功能如何從AI技術革命中獲益,很長時間內業內大公司暫時還沒明確答案。

    然而2023年4月中旬谷歌與斯坦福大學研究者的論文《生成式行為體:人際行為的交互式互動》,給出了通往答案的路徑:用大語言模型,讓沙盒模擬游戲里的NPC“獲得生命”。

    研究者稱,過去四十年來,學界嘗試過創造行為可信的NPC的各種途徑,但在實際應用中,這些途徑基于簡單環境或智能體行為的單調維度,否則無法運行。而此研究的成功,突破了上述局限。

    二、原理:ChatGPT讓NPC“思考”,本地數據庫讓NPC“記憶”

    簡單來說,研究者通過普通編程,為一個《模擬人生》類型游戲的虛擬小鎮中的NPC們寫好了虛擬環境設定、智能體人物設定、記憶庫架構、擬定計劃等各方面程序代碼。然后在NPC與虛擬環境間、多名NPC之間的每次接觸時,將以上各方面基礎數據、互動環境等以自然語言描述后,通過應用程序接口輸入給ChatGPT,再將ChatGPT的答案作為NPC下一步行為的指令。

    具體而言,研究中的“生成式行為體”NPC,其決策路徑如下圖所示:感知-錄入記憶流-檢索記憶庫-反思/計劃-行為

    “生成式行為體” 決策路徑簡圖

    “感知”是NPC行為體對互動、虛擬環境等的信息輸入,錄入“記憶流”后,與記憶數據庫對比。

    然后“檢索”是從數據庫中提取相關的記憶事項,NPC行為體會用自然語言將事項輸入給ChatGPT,由大語言模型來決策事項的優先級,優先級由事項的晚近程度、ChatGPT判斷的重要度與相關性為判斷基準。給出的答案作為NPC思維流程的下一步輸入詞。

    接著,數據庫與大語言模型會開始NPC的“反思”過程,數據庫將行為體最近100條記憶事項以自然語言輸入ChatGPT,讓大模型來推斷出由此可知最重要/相關的觀點。

    “檢索”獲取的答案、“反思”得出的觀點、結合NPC本身的人設數據,都以自然語言自動再次輸入ChatGPT,用大模型得出最符合人類行為邏輯的行動指令。

    試運行截圖

    如此設計的用意,是因為大語言模型在訓練期間已經被寫入了廣泛的人類行為資料,在給出背景涵義足夠精準的提示詞時,ChatGPT等大模型可以生成高擬真度的人類行為預測答案。

    然而在這個迅速驚艷世界的功能后,大語言模型存在小瑕疵:它不能記住每個用戶的個性化錄入內容,所有用戶與模型間的對話都不能直接修改模型的參數,任何顯得ChatGPT有記憶的表現都是算法在復讀最時新的用戶錄入內容緩存。

    所以谷歌與斯坦福的研究者,結合存儲在云服務器上的數據庫與ChatGPT,來制作出能完成前述“思維步驟”的NPC,讓它們可以實時模擬人類的自主決策。固定數據庫與軟件架構是NPC佐助連續性思考的“記憶”,而大語言模型是NPC用來即時性思考的“靈魂”。

    三、效果:NPC能自行談戀愛和選鎮長了

    在研究者的試運行中,NPC智能體可以做到沒有人工干預微操、只給簡單指令,就能自行完成復雜事件。當研究者讓名叫伊莎貝拉的NPC籌劃情人節聚會時,她自行在虛擬小鎮中開始逐個邀請自己的朋友和熟人,并自行裝飾作為聚會場所的咖啡館。

    智能體與虛擬環境間的互動可以完全自發且自洽。在環境狀況設置為“食物引燃”的狀況下,“伊莎貝拉”能自主做出“關閉燃氣灶”的決策。如果這用普通編程也可以做到的話,智能體接下來的“重做早飯”行為,就是較前有顯著突破的AI自發決策。

    智能體之間的互動,已經達到可以模擬實際人際關系中的“信息擴散”與“協作”行為。

    例如“伊莎貝拉”宣布要開情人節聚會后,她邀請到的AI智能體們又進一步邀請其他與伊莎貝拉無直接接觸的AI,例如名叫瑪麗婭的AI就邀請自己的“暗戀對象”克勞斯一同赴會。

    情人節聚會消息在NPC中擴散的過程

    再如名叫“山姆”的AI宣布要競選虛擬小鎮鎮長后,AI“伊莎貝拉”與“湯姆”對此有自發的議論:“伊莎貝拉”詢問“湯姆”的意見,“湯姆”答出自己的觀點:“老實說我不看好山姆,他與本社區已經脫節,也并不真把我們的攸關利益放在心上“。

    在研究者的兩日試運行中,虛擬小鎮的25個NPC里,得知“山姆”參選鎮長的從單個擴散到8個、得知“伊莎貝拉”辦聚會的從單個擴散的12個,過程中完全無人工干預。并且NPC們在互動內容的置信度上部分超過了真人玩家。

    論文里各種狀態下NPC與人類的行為置信度對比量表

    當然,論文出圈后的“《西部世界》實現“熱議并不準確。仔細的觀察者們大都發現,不管所用的ChatGPT還是自制的NPC程序,并沒有真正的自主人類意識,只是將大模型的相關性引擎性能潛力進一步發掘。

    由于大語言模型的現有局限,研究中的NPC也經常有無厘頭的“幻覺”缺陷。例如NPC觀測到虛擬小鎮中有“公廁”,就不認為是“單人廁所”,出現了“AI使用洗手間時常被其他AI闖入”的互動場景。虛擬小鎮上的商店是下午五點關門,然而NPC們時常在歇業時間試圖進入。有AI看到其他NPC的名字是亞當·史密斯,就說:“啊我曉得你,你就是那個18世紀的經濟學宗師。”

    論文中提到了這些缺陷,還說“提示詞黑客手段-即人類玩家用仔細準備好的對話內容來迷惑NPC行為體,可以讓AI幻覺出從未發生的事件的記憶。”

    現在很多游戲業者認為生成式AI的技術還在襁褓期,暴炒Chatgpt的人很多五六年前在狂吹加密貨幣。有名的波蘭游戲公司CD Projekt Red,其動作游戲系列的內容開發者領軍人在2023年1月說,NPC離自行建立一個生態活躍的虛擬社區,還太過遙遠。

    生成式AI的確是在襁褓期,但襁褓中的生物,最突出特征就是飛快的生長速度。AI大模型將如何改變游戲業,實在讓人充滿憧憬。

    標簽:

    相關閱讀

    相關詞

    推薦閱讀

    亚洲国产精品久久久久| 亚洲国产成人久久综合一| 国产亚洲精品激情都市| 在线观看亚洲专区| 亚洲日韩国产精品乱-久| 亚洲国产av一区二区三区丶| 亚洲最新视频在线观看| 久久精品国产精品亚洲蜜月| 亚洲成AV人片天堂网无码| 亚洲日本VA午夜在线电影| 亚洲国产精品久久久久秋霞影院| 久久精品国产亚洲AV高清热| 亚洲日本一区二区| 亚洲产国偷V产偷V自拍色戒| 亚洲成AV人片在线播放无码| 久久久久久亚洲精品| 亚洲人成电影在线天堂| 亚洲国产综合专区电影在线| 蜜芽亚洲av无码精品色午夜| 亚洲精品网站在线观看你懂的| 亚洲视频在线观看地址| 亚洲国产精品成人精品软件| 亚洲av永久无码精品天堂久久 | 色偷偷亚洲女人天堂观看欧| 国产成人精品亚洲2020| 亚洲精品国产日韩| 亚洲码和欧洲码一码二码三码| 亚洲一本之道高清乱码| 亚洲婷婷在线视频| 亚洲入口无毒网址你懂的| 亚洲第一男人天堂| 国产精品无码亚洲精品2021| 亚洲AV蜜桃永久无码精品| 亚洲一级片免费看| 亚洲另类激情综合偷自拍图| 亚洲AV日韩AV天堂久久 | 亚洲精品第一国产综合亚AV| 亚洲av无码一区二区三区天堂 | 日韩精品电影一区亚洲| 精品国产亚洲一区二区在线观看 | 亚洲日韩中文字幕无码一区|