谷歌借助Claude评估Gemini AI 激发合规性争议

据TechCrunch获得的内部通讯显示,谷歌正让承包商将其Gemini AI与Anthropic的Claude进行对比评测,此举引发了合规性质疑。 文件显示,负责改进Gemini的承包商需要在30分钟内根据真实性和详尽度等多个标准,对比评估Gemini和Claude的回答质量。承包商近期在谷歌内部

果然实力超群!OpenAI 新模型o3在ARC-AGI基准测试刷新纪录

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩,标准计算条件下得分高达75.7%,而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外,但仍无法证明人工智能通用性(AGI)已被破解。 ARC-AGI 基准测试基于抽象推理库(Abstract Reaso

Fireworks AI震撼发布文档解析利器!“Document Inlining”助AI轻松攻克复杂文件

还在为处理各种格式的非结构化文档而烦恼吗?Fireworks AI近日推出了一项名为“Document Inlining”的创新功能,它能将PDF、截图、图像等非结构化文档转化为大语言模型(LLM)可理解的结构化文本,为聊天机器人和AI模型提供可直接使用的文字内容,大幅提升了AI处理文档的效率和准确

AI模型'幻觉'激发创新力,助力科学家荣获诺贝尔奖

一个被广泛视为人工智能缺陷的特性——"幻觉",竟成为科学突破的关键。据《财富》杂志报道,2024年诺贝尔化学奖得主之一的大卫·贝克教授,正是借助AI模型的"幻觉"特性实现了重大科研突破。 来自华盛顿大学的贝克教授是今年三位诺贝尔化学奖得主中唯一的美国科学家。他利用计算机软件成功发明了新型蛋白质,这一

阿里通义千问Qwen发布开源视觉推理模型QVQ-72B-Preview

Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ,标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建,旨在通过结合语言和视觉信息,提升AI的推理能力。在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL

面壁智能携手追知工科 共同推进工业AI垂域模型开发

北京面壁智能科技有限责任公司与上海追知工程科技有限公司近日宣布达成战略合作,旨在联合开发工业领域的人工智能端侧模型。这一合作将结合面壁智能在端侧大模型、图像大模型以及具身智能多场景应用的技术优势,以及追知工科在制造业市场、场景、工艺和工程经验的深厚积累,共同推动工业智能化进程。 面壁智能的MiniC

OpenAI o3 模型:单次任务能耗等同五箱油

随着人工智能的不断进步,创新与可持续发展之间的平衡成为了一项重要挑战。最近,OpenAI 推出了其最新的 AI 模型 o3,这是迄今为止最强大的模型。然而,除了运行这些模型的成本外,其对环境的影响也引起了广泛关注。 一项研究显示,每个 o3任务大约消耗1,785千瓦时的电能,这相当于一个美国普通家庭

马斯克旗下xAI公司测试Grok聊天机器人iOS独立应用

马斯克的人工智能公司 xAI 目前正在测试一款独立的 iOS 应用,名为 Grok。这款聊天机器人之前仅限于 X 平台的用户使用。现在,Grok 的应用已经在澳大利亚和其他一些国家进入测试阶段,用户可以通过这个应用获取实时数据,提供更为丰富的交互体验。 Grok 不仅可以回答用户提出的问题,还具备生

ERA-42原生大模型问世!机器人“大脑”升级,灵巧操作突破百项

机器人领域迎来重大突破!星动纪元近日发布了其自主研发的端到端原生机器人大模型ERA-42,并将其与自研的五指灵巧手星动XHAND1相结合,首次实现了仅凭一个具身大模型,即可驱动灵巧手完成超过100项复杂精细的操作任务。这其中包括拿起螺钉并用钻紧固、用锤子敲打钉子、扶正水杯并倒水等高难度动作,标志着机

量子计算与AI联手冲击:2025网络安全遭遇空前挑战

量子计算的崛起既是技术变革的巨大推动力,也对现有的网络安全框架构成潜在的颠覆。专家警告,我们正处于为量子计算做关键准备的时期,必须确保我们的数字基础设施能够抵御量子计算机的攻击,因为量子计算机预计将能破解目前的一些加密技术。 2024年8月,美国国家标准与技术研究院(NIST)发布了三项后量子密码学