当前短讯！人类被 AI “毁灭”，一定是从教它玩《我的世界》开始的

上周，几乎是前后脚，英伟达和国内几家科研机构分别发布了两份内容相似的论文。

(资料图片仅供参考)

首先是英伟达宣布开发出了一个全新的游戏 AI 智能体 "VOYAGER"，将 AI 大模型 GPT-4 接入了《我的世界》（Minecraft）游戏。基于 GPT-4，VOYAGER 能够在《我的世界》里扩充着自己的物品和装备，完成诸如建造房屋、挖矿、收集仙人掌和狩猎等基本生存技能；也能独立进行开放式探索，去到不同的城市和地点，甚至是自己搭建传送门。

英伟达称 VOYAGER 在《我的世界》里获得的物品增加了 3.3 倍，旅行距离增加了 2.3 倍，解锁关键技能树的速度也比之前的方法快了 15.3 倍。

接着就是商汤科技联合清华大学、上海人工智能实验室等机构发布了通才 AI 智能体 "Ghost in the Minecraft（GITM）"。

同样是将大语言模型（LLM）整合进《我的世界》，GITM 在《我的世界》内主世界的所有技术挑战上实现了 100% 的任务覆盖率（成功通关解锁了完整的科技树），而此前所有智能体的总和只能覆盖 30%；另外在 " 获取钻石 " 任务上，GITM 成功率达 67.5%，同样相比于此前的最佳成绩—— OpenAI 的 VPT 方法大幅提高了 47.5%。

GITM 在《我的世界》的任务覆盖率远高于现有 AI 智能体

直白点说，他们都选择了《我的世界》这款游戏来训练 AI，并且 AI 都实现了真人玩家能够完成的几乎所有游戏任务，堪比是能以假乱真的效果（这放在几个月前还是不可能的事）。

我们先抛开看起来艰涩的技术细节不谈，为啥他们不约而同都迷上了拿《我的世界》做实验？

《我的世界》就是个大型 AI 试验场

要说起在《我的世界》里训练过的 AI，那可就太多了。

著名的莫拉维克悖论是这么说的：一些任务对于人类而言很困难，例如下棋，但对 AI 来说很简单；而像《我的世界》这样开放世界中与环境交互、进行规划和决策等对人类来说较为简单的事情，对 AI 来说却是巨大挑战。

正因为这种情况的存在，在 AI 还不像现在这么发达的早几年，科学家们最初只是在《我的世界》里用 AI 完成一些简单的指令。

比如在 2019 年，Facebook 研发过一款《我的世界》AI 助手 "craftassist bot"，这是一个智能协作式的助理机器人，可以执行人类玩家指定的各种任务，如驯服马匹、建造城市、与村民会面及交易等。

也是在 2019 年，卡内基 · 梅隆大学、微软、DeepMind 和 OpenAI，联合机器学习顶级会议 NeurIPS 共同举办了一个叫做 "MineRL" 的专门针对《我的世界》游戏的 AI 比赛，到 2022 年一共举办了四届。

这个比赛同样见证了 AI 在《我的世界》中的应用由简单到复杂的过程。

比如第一届 MineRL 比的东西还很简单：看哪个研究团员能够创造出可以在《我的世界》中成功开采钻石的 AI。不过很惨，最后参加的 900 多个全球顶尖团队没有一个能完成挑战，一些 AI 撸掉木材却不会合成，一些 AI 造出了熔炉却不会冶炼，一些 AI 知道去地下挖矿，但却选择了垂直挖……

后来到了第三届，比赛内容就变成了看谁能训练出样本高效的《我的世界》AI 智能体。这一届的冠军是以 76.970 分的绝对优势夺冠的腾讯 AI Lab" 绝悟 "。

各种公司、机构密集开始在《我的世界》中训练 AI 其实也是最近五年的事。

美国国防高级研究计划局（DARPA）在 2020 年 8 月启动了自适应分布式概率任务分配（ADAPT）项目，以期在战场空间中利用 AI 协助指挥官进行决策，该项目的承包商 Aptima 公司用到的就是《我的世界》来训练 AI 与人类的互动能力。

2021 年哥本哈根信息技术大学、纽约大学和上海大学的研究者也创建过一个使用 3D 神经元胞自动机（Neural Cellular Automata，NCA）的系统，并将该系统部署在了《我的世界》里，这个时候的 NCA 已经可以建造毛毛虫、城堡、公寓楼和树等复杂的实体。

比较出圈的一次实验是在去年。

OpenAI 去年宣布由他们训练的 AI 已经做到了熟练游玩《我的世界》。通过引入一种新颖且便捷的 AI 训练法 " 视频预训练（Video PreTraining）"，在向 AI" 投喂 " 了 7 万小时从相关合作方处获取的《我的世界》演示视频以及与视频配套的键盘鼠标操作记录后，OpenAI 旗下的 AI 的操作已经相当传神，掌握了只有人类才能领悟的高阶玩法。

OpenAI 在《我的世界》中的实操演示

此外，DeepMind 也在今年年初开发出了能够媲美 OpenAI 成果的名叫 "DreamerV3" 的 AI 智能体。DreamerV3 在没有任何人工数据辅助的情况下，被丢进《我的世界》里摸爬滚打了 17 天，惊人地学会了如何从 0 开始挖钻石，成了世界上第一个纯靠自己摸索，就能在《我的世界》里速挖钻石的 AI 智能体。

当时 MineRL 比赛的发起人之一 William Guss 都忍不住第一时间发来贺电：4 年了，" 钻石挑战 " 终于被攻克了！

没有谁比《我的世界》更合适了

《我的世界》面世 12 年，已经成为世界上最受欢迎的一款游戏，被许多玩家形容为电子版的乐高。早在 2019 年，《我的世界》就超过《俄罗斯方块》成为全球销量最高的游戏。

《我的世界》" 开放世界 " 的游戏属性让它成了科学家们训练 AI 的绝佳场所。

不同于 LOL 和王者荣耀等单一的战略对战游戏，《我的世界》并不预先设定目标，仅有的两个模式是 " 生存 " 和 " 创造 "。" 生存 " 模式中，玩家要造好房子并收集东西，保证活下来，即使是用来击退僵尸和蜘蛛的剑也需要玩家用木材和铁矿来锻造；" 创造 " 模式则更加自由，玩家使用各种功能的立方体，自由构建建筑物和物体，而且游戏永远不会结束。

如果说 LOL、王者荣耀或是很多棋类游戏因为简单的规则和游戏机制，可以让 AI 以极快的速度学习并超越战胜人类，《我的世界》游戏过程的复杂程度就几乎是在挑战 AI 的极限。

极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好，都增加了《我的世界》AI 研究的难度。

比如，为了让 AI 在 15 分钟内找到钻石，AI 需要经历徒手采集原木、合成木板、木棍与木镐，采集到铁矿，经过一系列加工才能合成钻石，看似只是一件小事，但对于 AI 来说，却需要掌握其中复杂的逻辑关系——这还只是《我的世界》游戏的一部分，除了制造工具，AI 还需要给自己制定目标，学着在游戏世界里探索，直到解锁所有的游戏任务。

《我的世界》中找钻石的步骤

而如果只是学下棋或是打 LOL，AI 只用知道怎么赢就行了。

是不是觉得，《我的世界》训练出来的 AI，要比靠下棋、玩 LOL 训练出来的 AI 高级多了（虽然学习速度可能慢了点）？

事实上在当前的 AI 研究中，科学家们会越来越追求通用人工智能（AGI）的研究，追求打造更通用的 AI 智能体，也就是发展 AI 智能体能够掌握广泛的技能，适应各种环境变化，更深入地模拟和应对人类在复杂问题上的能力，像人一样的进行感知、理解和交互（而不是只会回答简单问题、下棋能赢人类那种 " 小打小闹 " 的 AI）。

这就意味着要训练通用 AI，《我的世界》模拟的环境是非常合适的。

不过，开放世界游戏那么多，为什么又偏偏是《我的世界》呢？

有网友在推特向参与开发了 VOYAGER 的英伟达首席科学家 Jim Fan 发问说，既然 VOYAGER 是为开放世界而生，那为什么没有选择在《塞尔达》或者是《艾尔登法环》这样看上去更加宏大的开放世界游戏中作 AI 训练？

Jim Fan 的回答是，这中间的主要难点其实并不是算法，而是因为《塞尔达》和《艾尔登法环》这样的游戏运用了 " 缓慢且难以以编程方式控制高端控制台 "，并且 " 需要一个好的编码 API 来控制角色 "。相较之下，《我的世界》的技术门槛要更低，在目标和玩法类似的情况下，《我的世界》实际也为 AI 训练降低了难度。

另外，《我的世界》对开发者也很友好。许多用于构建《我的世界》的代码库都是开源的，所以人们可以很容易修改。并且该游戏也允许研究人员记录和学习人们是如何一起完成任务的，然后观察他们将如何与 AI 智能体一起工作。

从这些意义上说，没有谁比《我的世界》来训练 AI 更合适的了。

这次《我的世界》里的 AI 有什么特别？

此次英伟达开发的 VOYAGER，和商汤科技联合清华大学、上海人工智能实验室等机构开发的 GITM，与过去基于《我的世界》训练的 AI 智能体最大的不同在于，引入了大语言模型（LLM）作为 AI 训练的核心方法。

以往在《我的世界》中训练 AI 用到的主流方法则是，模仿学习和强化学习。

即便是此前 OpenAI 和 DeepMind 开发出的最先进的《我的世界》AI 智能体，用到的训练方法也是模仿学习和强化学习。

打个比方，如果想让 AI 在《我的世界》里学会挖矿，模拟学习要做的就是先喂给 AI 上万个游戏视频，让它分析学习为什么要撸树，如何利用工作台进行分解合成，如何做出第一把镐子，如何冶炼铁锭，制作铁镐，获取钻石，如何避免落入岩浆，如何战斗等等挖矿的必要步骤。

等到投喂学习结束，AI 接下来就要接受强化学习，也就是把 AI 小人扔进《我的世界》，让它去 " 真正 " 执行挖矿的任务，通过反复实验来发现和解决问题，从而真正学会挖矿这一技能。

但在大语言模型的训练方法下，AI 的学习逻辑是被完全重构的。

依然拿挖矿来说，AI 智能体自身会首先根据 " 尽可能多发现不同的东西来帮助挖矿 " 的总体目标去提问、自动生成许多小任务，通过去存储有助于成功解决某个任务的行动程序（比如撸掉树木再去进行合成被验证是正确的，造出了熔炉就要去冶炼也是正确的），AI 就会逐渐建立起一个如何正确挖矿的技能库。而往后如果再遇到挖矿任务，AI 就可以根据其描述的嵌入在技能库中进行检索。

大语言模型训练方法下的 GITM

也就是说，大语言模型的训练方法下，AI 是可以自主驱动探索并掌握广泛技能的，这就使得大语言模型方法更能帮助 AI 成为一个终身学习者，能在较长的时间跨度内逐步获得、更新、积累和迁移知识，同时缓解了其他持续学习方法中的 " 灾难性遗忘 "。

VOYAGER 探索物品量高于其他许多 AI 智能体

有点像是一直让 AI 呆在学校里读书实习，还是让 AI 一开始就在社会里摸爬滚打的区别。

总而言之，用大语言模型方法在《我的世界》训练出来的 AI 更像一个真实的人了。

我们知道，一个理想的 AI 应该具有与人类类似的能力。《我的世界》里的 AI 不管是根据其当前的技能水平和世界状态提出合适的任务（如果发现自己处于沙漠而不是森林，就会在打铁前学会获取沙子和仙人掌），根据环境反馈完善技能并将掌握的技能存入记忆（比如打僵尸和打蜘蛛的技能类似），还是不断探索世界，以自驱动的方式寻找新任务，其实都已经和现实世界中人类的决策过程和行为方式非常相近。

说《我的世界》已经是一个缩小版的现实世界也许一点也不夸张。

而让人细思极恐的是，随着 VOYAGER 和 GITM 的研究成果发布，AI 现在已经能通关《我的世界》了。

这不禁让人猜想，AI 是不是很快就能在现实世界里如鱼得水，它能像人一样生活，会做饭、会用手机、知道怎么穿衣服、怎么养宠物、怎么坐公交地铁……更不可思议的是，它还能像人一样有自己的想法，知道穿哪件衣服好看，怎么做饭能更好吃，电话应该打给谁……没准在不久的将来，我们在生活中遇到到的 " 人 "，都无法分辨它是不是 AI。

既然都能通关《我的世界》了，AI 过上人的生活从技术上来讲也不是不能实现。

人类又会如何选择呢？

标签：

责任编辑： jkl2