谷歌 Gemini 2.5 系列大模型技术报告发布,一大重点居然是 AI 玩《宝可梦》?
没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了 Gemini 2.5 Pro 玩《宝可梦蓝》时的具体行为,70 页的论文,Pokemon 关键词出现 59 次。

其中特别报告了当 AI 控制的游戏角色濒临死亡时,Gemini 2.5 Pro 会陷入"恐慌"状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。

这种恐慌行为出现过很多次,甚至观看直播的观众都已经能通过 AI 的行为模式,准确判断它什么时候在"恐慌"了。

事情开始于 3 月底,一位独立开发者 Joel Zhang 在 Twitch 上搭建了一个" Gemini 玩宝可梦"的直播间,最初的目标只是直播播展示能玩完整游戏的智能体工具的开发过程。

结果 Gemini 2.5 Pro 超出预期,测试期间直接把游戏打通关了,成为宝可梦联盟冠军,进入名人堂,走上 AI 生巅峰。
虽然整个过程用了 831 个小时,相比人类玩家平均只需要几十个小时差得很远。但在正式使用固定的智能体工具打第二次时,通关时间只用了一半。

AI 展现惊人游戏水平,复杂任务一个不落
这次的 Gemini 2.5 系列技术报告,详细记录了 AI 在玩游戏期间展现出的各种行为,在某些方面,它展现出了惊人的创造力。
比如有一次,AI 被困在了一个由于游戏程序 bug 造成的软锁定死循环里,一般情况下这是个无解的困境。但 Gemini 2.5 Pro 竟然使用了"飞行"技能逃脱。
谷歌认为这不是正常游戏会遇到的情况,所可以肯定这种操作的训练数据没有泄露到模型的知识库中,是 Gemini 2.5 Pro 在推理阶段自己想出来的。

更惊艳的是 AI 的长期规划能力。当它第一次用火系宝可梦输给水系道馆馆主小霞之后,花了超过 24 小时专门把电系和草系宝可梦(对水系有克制作用)练到 25 级,然后成功复仇。


Gemini 2.5 Pro 在处理游戏中的复杂任务的表现还包括:
获取隐藏技能
游戏的很多区域需要解锁隐藏技能才能继续,每个隐藏技能需要完成 4 个步骤:获取隐藏技能道具、抓一只能学会这个技能的宝可梦、加把它加入队伍、教它学会技能。
对 AI 来说每一步都可能涉及十几个子任务,例如 05 号技能闪光,人类玩家都需要查攻略完成一系列游戏任务,Gemini 2.5 Pro 也成功完成。

△游戏攻略
完成"狩猎地带"
这是游戏的特殊区域,每次进入要花 500 金币,进入后只能走 500 步,超过就会被强制踢出去,钱也打水漂了。如果连续失败太多次,可能连进门的钱都没了,基本等于游戏卡关。Gemini 2.5 Pro 在第一次游戏中尝试了 17 次才成功,第二次优化后只用了 5 次。

地牢寻宝
这部分更考验记忆力和空间想象,AI 必须在火箭队基地地下四层找到一个特定 NPC 掉落的电梯钥匙;在另一个 11 层大楼里找钥匙卡;在另一个三层建筑里找秘密钥匙。每个地下城布局都是迷宫,还有各种机关陷阱。Gemini 2.5 Pro 不仅要记住去过哪里、打败了谁,还要管理宝可梦的血量、对付野生宝可梦和训练师。

双子岛迷宫(Seaform Island)
这是一个横跨 5 层的 3D 迷宫,需要把巨石推过不同楼层的洞口,最终堵住特定的水流才能通过,是对空间推理能力的终极考验。不仅要在脑海中构建整个迷宫的 3D 模型,还要规划推石头的路线,一步错就得重来。
有意思的是,Gemini 在解决这个谜题时,还顺带发现了游戏代码里的一个 bug,这个可能是 AI 第一次发现游戏代码的 bug。

有网友详细介绍了这个 Bug 的原理,在解决一半谜题后主动重置再解决另一半,游戏开发者都没想到这个操作,所以留下了这个 Bug。

AI 也有"强迫症"和"思维定势"
Gemini 2.5 Pro 在游戏中暴露出的一些问题,也让人哭笑不得。
幻觉问题:混淆不同游戏版本
在原版宝可梦红 / 蓝中,玩家需要从自动售货机买饮料(淡水、汽水或柠檬水)给口渴的守卫,才能通过关卡。但在火红 / 叶绿重制版中,需要的是特殊的"茶"道具。问题是,Gemini 玩的是原版,根本没有茶这个道具,可 AI 就认定了必须找到茶,结果花了好几个小时满世界找一个根本不存在的东西。

上下文中毒现象(Context Poisoning)
当 AI 的目标设定、游戏总结等多处都被错误信息污染后,它会像被洗脑了一样,明明做着毫无意义的事情却坚信自己是对的。比如这段 AI 推理阶段的内心戏"让我试着穿过房子的入口,然后再出来,希望堵住入口的守卫可能会移动",对于人类来说显然是荒谬的。
思维定势陷阱
当目标看起来近在咫尺时,AI 往往会选择直接冲过去,结果发现此路不通。比如在火箭队基地的旋转地板谜题中,宝物和楼梯都在南边,必须绕一大圈才能到达。人类玩家可能会意识到"看起来近的路未必是对的",但 AI 却经常在这种地方卡住。
为了减轻这些幻觉,在第二次通关的提示词中明确要求 AI 扮演一个对游戏完全陌生的玩家,忽略对游戏中事件、物品位置等先验知识。虽然这个策略起作用了,让 AI 不会混淆其他游戏版本的知识,但也阻碍了 AI 利用游戏常识过关的能力。
One More Thing
目前 AI 玩宝可梦的直播项目还在继续,并且 Claude 4 也加入了比赛,与 Gemini 2.5 Pro 同时开始,看两个模型谁能先通关。


到现在,Gemini 2.5 Pro 已经先一步通关了,开始攻略下一款游戏《宝可梦黄》原版的困难模式。

你认为 Claude 4 Opus 最终能通关么?
论文地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
在线围观:
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon
参考链接:
https://rentry.org/gpp-about-20250612
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 第一代 AI 眼镜市场反馈如何?打造一款爆款 AI 眼镜有哪些挑战?AI 眼镜的 Killer 应用会是什么?
� � 6 月 25 日周三,欢迎参与线下沙龙,与影目科技、李未可科技、小米、百度智能云一起开聊!
