AI模型很强大,但它们却在极其简单的任务上栽了跟头!
Soraor(Soraor.com)3月17日 消息:如今,人工智能能够生成栩栩如生的图像、写小说、帮你完成家庭作业,甚至还能预测蛋白质结构。然而,一项新的研究却表明,它在一项非常基础的任务上常常栽跟头 —— 看时间。
爱丁堡大学的研究人员测试了七款知名的多模态大言模型的“识时”能力 —— 让它们根据不同的时钟或日历图像回答与时间相关问题。
他们的研究将于 4 月正式发表,不过,目前已经在科研共享平台 arXiv 上发布了,该研究表明,这些大型语言模型在这种基础任务上“变成智障”了。
研究人员在研究中写道:“从视觉输入中解读时间并进行推理的能力,对于许多现实世界的应用至关重要 —— 从事件安排到自动驾驶系统等领域皆是如此。尽管多模态大语言模型(MLLMs)取得了进展,但大多数研究工作都集中在目标检测、图像描述或场景理解等方面,对时间推理的探索仍不够充分。”
本次测试的对象包括 OpenAI 的 GPT-4o 和 GPT-o1、谷歌 DeepMind 的 Gemini 2.0、Anthropic 的 Claude 3.5 Sonnet、Meta 的Llama3.2-11B-Vision-Instruct、阿里的Qwen2-VL7B-Instruct、以及 ModelBest 的 MiniCPM-V-2.6。研究人员向这些模型输入了不同的模拟时钟图片(这些图片中的时钟或带有罗马数字、或有不同的表盘颜色,有些则没有指针)、以及十年来的日历图片等。
向这些大模型上传时钟图片的同时,还会提出问题:上传图片中的时钟显示的时间是多少?而对于日历的图片,研究人员则会提出一些简单的问题,比如:元旦是星期几?以及一些较难的问题,诸如:一年中的第 153 天是哪一天?
“读取模拟时钟的时间和理解日历涉及到复杂的认知步骤”,研究人员解释说,“这需要进行精细的视觉识别(例如,时钟指针的位置、日期单元格的布局),以及不简单的数值推理(例如,计算日期偏移量)”
总而言之,这些AI模型的表现很不理想 —— 它们正确读取模拟时钟时间的概率不到 25%。研究人员表示,无论是带有罗马数字和风格化指针的时钟,还是没有指针的时装,它们的表现都不甚理想。
在最终的测试结果中,谷歌的Gemini 2.0 在时钟测试中表现最 好,而 GPT-o1 在日历任务上准确率为 80%—— 比竞争对手都要好。这也意味着,即使最出色的AI大模型,错误率也高达 20%。
这项研究的共同作者、爱丁堡大学信息学院的博士生 Rohit Saxena 在一份学校声明中表示:“大多数人从小就会看时间和日历。我们的研究结果凸显了 AI 在执行对人类来说相当基础的技能方面存在的显著差距。如果要将 AI 系统成功集成到对时间敏感的现实世界应用中,比如日程安排、自动化和辅助技术等领域,就必须解决这些不足。”
所以,AI 或许能够帮你完成家庭作业,但别指望它能按时完成任务,至少现在还是这样。