最近,发表在《Scientific Reports》上的一项研究显示,某些先进的 AI 聊天机器人在评估复杂社交情境方面的表现优于人类。

研究人员利用一种被广泛使用的心理学工具 —— 情境判断测试,发现三个聊天机器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手,在选择最有效的行为反应方面,超过了人类参与者的表现。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

随着社会交往日益重要,AI 在社交互动中的潜力不断显现,包括在客户服务和心理健康支持等领域的应用。大型语言模型(如本次研究中测试的聊天机器人)能够处理语言、理解上下文并提供有效的回应。尽管之前的研究已证明这些模型在学术推理和语言任务中的能力,但它们在复杂社交动态中的有效性仍未得到充分探索。

研究团队对276名人类参与者进行了测试,这些参与者是高素质的飞行员申请者。研究采用了情境判断测试,展示了12个需要评估的情境,每个情境提供四种潜在的行为选项。研究人员比较了五个 AI 聊天机器人的表现,发现所有测试的聊天机器人在表现上至少与人类持平,甚至有的表现更佳。Claude 的表现最佳,随后是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是,当聊天机器人没有选择最佳反应时,它们往往选择了第二有效的选项,显示出与人类决策模式的相似之处。这表明 AI 系统虽然不是完美的,但在社交判断和概率推理方面具备一定的能力。

此外,研究还发现不同 AI 系统之间的可靠性差异。Claude 在多次测试中表现出最高的一致性,而 Google Gemini 在不同测试中可能会出现矛盾的评分结果。尽管如此,所有 AI 系统的整体表现超出预期,展示了它们在提供社交能力建议方面的潜力。

研究人员指出,虽然许多人已经在日常任务中使用聊天机器人,但在社交互动的复杂场景中,它们的表现仍需进一步验证。研究显示,大型语言模型在模拟的社交情境中表现出色,但它们并不具备真实的情感,这对真正的社交行为是必需的。

划重点:

🌟 AI 聊天机器人在复杂社交判断中表现优于人类,具有潜力作为社交顾问。

🧠 研究比较了多个聊天机器人的表现,发现 Claude、Microsoft Co pilot 表现突出。

⚖️ 尽管 AI 系统在模拟情境中表现良好,但在真实社交互动中的应用仍需进一步研究。