近日,OpenAI 的全球事务副总裁安娜・马坎朱(Anna Makanju)在联合国 “未来峰会” 上发表了一番关于人工智能偏见的看法。

她提到,像 OpenAI 的 o1这样的 “推理” 模型,能够显著减少 AI 系统中的偏见。那么,o1是如何做到这一点的呢?马坎朱解释说,这些模型可以自我识别回答中的偏见,并更加遵循不产生 “有害” 回答的规则。

image

她表示,o1模型在处理问题时,会花费更多时间来评估自己的回答,能够自我检查:“它能够说,‘这是我解决这个问题的方式’,然后再审视自己的回答,看看‘哦,这里可能存在推理上的缺陷’。” 她甚至强调,1在分析自身偏见方面做得 “几乎完美”,并且随着技术进步,它的表现会越来越好。

不过,这种 “几乎完美” 的说法似乎有些夸张。OpenAI 内部测试发现,相较于 “非推理” 模型,包括其自家的 GPT-4o,o1在一些偏见测试中表现得并不理想。在关于种族、性别和年龄的问题上,o1在某情况下表现得甚至不如 GPT-4o。尽管在隐性歧视方面,o1的表现更好,但在显性歧视上,它却在年龄和种族问题上显得更为突出。

更有意思的是,o1的经济版 o1-mini 的表现更糟糕。测试显示,o1-mini 在性别、种族和年龄上显性歧视的概率高于 GPT-4o,同时在年龄问题上的隐性歧视也更为明显。

除此之外,当前的推理模型还有许多局限性。OpenAI 也承认,o1在某些任务上带来的好处微乎其微。它的反应速度较慢,有些问题需要超过10秒的时间来回答。而且,o1的成本也不容小觑,运行成本是 GPT-4o 的3到4倍。

如果马坎朱所说的推理模型确实是实现公平 AI 的最佳途径,那么它们在偏见以外的其他方面也需要改善,才能成为一个可行的替代方案。如果不能,只有那些财力雄厚、愿意承受各种延迟和性能问题的客户才能真正受益。

划重点:

🌟 OpenAI 的 o1模型被称为能显著减少 AI 偏见,但测试结果显示其表现不如预期。

💡 o1在隐性歧视方面表现优于 GPT-4o,但在显性歧视上却更糟糕。

💰 推理模型 o1成本高,运行缓慢,未来仍需在多个方面改进。