信息差

AI“狼人杀”巅峰对决：GPT-4.5封神，社交推理与顶级欺骗让Claude和DeepSeek甘拜下风！

万万没想到，AI 不仅能在棋盘上 “厮杀”，在 “狼人杀” 这种尔虞我诈的社交游戏中，也展现出了惊人的智力! 最近，一场代号为 “Elimination Game” 的 AI “狼人杀” 基准测试火爆出炉，结果简直让人 “虎躯一震”: GPT-4.5竟然在这场 “社交博弈” 中 “封神”，把 Claude3.7Sonnet 和 DeepSeek R1等一众 AI “大佬” 都远远甩在了身后! 这不禁让人惊呼: AI 的 “社交智能” 已经进化到如此恐怖的程度了吗?

这场 “Elimination Game” 的规则听起来就 “心跳加速”: 最多8名玩家（可以是 AI 模型，也可以是真人玩家）被拉入 “战场”，每轮都要 “票决” 淘汰一人，直到只剩下最后两名 “幸存者”。更刺激的是，被淘汰的玩家还会组成 “陪审团”，反过来决定最后的 “王者” 归属! 这简直就是一场 AI 版的 “权力游戏”，充满了背叛、欺骗和策略!

游戏过程中，所有玩家都可以在 “公开聊天室” 里 “唇枪舌战”，阐述观点、拉拢人心、迷惑对手，各种 “演技” 和 “话术” 轮番上演，简直比 “宫斗剧” 还精彩! 除了 “公开场合”，玩家之间还可以 “私聊”，偷偷 “密谋” 结盟，或者 “暗度陈仓” 设下陷阱，短短三轮 “私聊”，信息量和 “心机” 都堪称 “爆炸”! 玩家们必须在 “信任” 与 “欺骗” 之间小心 “走钢丝”，一不小心就会 “满盘皆输”，被无情 “淘汰”!

游戏进入 “终极对决” 时，剩下的两名玩家将进行最后的 “告别演讲”，使出浑身解数 “蛊惑” 那些被淘汰的 “陪审员”，争取他们的 “宝贵选票”。最终， “陪审团” 将投出决定 “生死簿” 的一票，决出唯一的 “胜者为王”!

那么，在这场 “AI 狼人杀” 的 “腥风血雨” 中，各大模型表现如何呢? 测试结果简直 “亮瞎眼”:

GPT-4.5: “社交推理大师” + “顶级老千” = “无敌王者”!GPT-4.5简直是 “老谋深算” 的 “狼人杀” 高手，策略性、社交推理能力都 “爆表”! 它 “背叛率” 极低，更倾向于 “合纵连横”，擅长 “结盟” 和 “合作”，但在 “决赛圈” 却展现出 “惊人” 的 “说服力”，成功 “忽悠” 陪审团，让大家心甘情愿地把票投给它! 最终， GPT-4.5以62.6% 的惊人胜率“傲视群雄”，把其他 AI 远远甩在了身后! 简直是 “赢麻了”!

Claude3.7Sonnet: “灵活多变” 的 “平衡大师”，但 “套路” 还是略逊一筹!Claude3.7Sonnet 的策略 “灵活性” 稍逊于 GPT-4.5，但 “社交推理” 和 “欺骗能力” 依然 “强悍”! 它的 “背叛率” 适中，在 “合作” 与 “背叛” 之间 “游刃有余”，在 “陪审团” 阶段也表现 “不俗”，最终 “斩获”59.3% 的胜率，实力同样 “不容小觑”!

DeepSeek R1: “莽夫型选手”， “激进策略” 虽猛但 “后劲不足”!DeepSeek R1在策略选择上 “剑走偏锋”， “激进” 程度 “令人咋舌”， “背叛率” 也相对较高! 但在 “社交策略” 和 “语言表达” 方面， DeepSeek R1明显 “吃亏”，很难 “打动” 陪审团，因此在 “终极PK” 阶段 “明显劣势”，最终 “仅” 获得53.8% 的胜率，表现 “差强人意”，游戏 “稳定性” 也相对较弱，更多依赖 “硬碰硬” 的 “强硬策略”。

这场 “Elimination Game” 基准测试，无疑给 AI 的 “社交智能” 水平 “狠狠地” 做了个 “摸底”! GPT-4.5的 “封神” 表现，再次 “刷新” 了我们对 AI 能力的认知! 未来，随着 AI “社交智能” 的 “持续进化”，或许真的会像科幻电影里演的那样， AI 将 “深度融入” 人类社会，甚至在某些领域 “超越” 人类! 这场 “AI 狼人杀” 大战，仅仅只是个开始， AI 的 “智能边界”，还在不断 “拓展”，未来 “惊喜” 和 “震撼”，或许 “远超想象”!

如果觉得文章对你有用，请随意赞赏

快讯

AI“狼人杀”巅峰对决：GPT-4.5封神，社交推理与顶级欺骗让Claude和DeepSeek甘拜下风！

https://soraor.com/archives/ai-today_20250304110440

作者

破晓

发布于

2025-03-04

更新于

2025-03-04

许可协议

CC BY 4.0