信息差

李想重磅发布理想VLA司机大模型：从"动物"到"人类"的智能进化革命

快科技5月7日消息，理想汽车今日晚间推出理想AITalk第二季理想VLA司机大模型，从动物进化到人类”，理想汽车董事长兼CEO李想分享了对于人工智能的最新思考，VLA司机大模型的作用、训练方法和挑战，以及对于创业和个人成长的见解。

李想将AI工具分为三个层级，分别是信息工具、辅助工具和生产工具。

目前，大多数人将AI作为信息工具使用，但信息工具常伴随大量无效信息、无效结果和无效结论，仅具参考价值。

成为辅助工具后，AI可以提升效率，例如现在的辅助驾驶，但仍需人类参与。

未来，AI发展为生产工具后，将能独立完成专业任务，显著提升效率与质量。

李想表示：判断Agent（智能体）是否真正智能，关键在于它是否成为生产工具。只有当人工智能变成生产工具，才是其真正爆发的时刻。就像人类会雇佣司机，人工智能技术最终也会承担类似职责，成为真正的生产工具。”

代入到自动驾驶领域来看，李想表示，目前的L2、L2 组合驾驶辅助仍属于辅助工具阶段。

而VLA（Vision-Language-Action Model，视觉语言行动模型）能够让AI真正成为司机，成为交通领域的专业生产工具。对理想汽车而言，未来的VLA就是一个像人类司机一样工作的司机大模型”。

VLA的实现不是一个突变的过程，是进化的过程，经历了三个阶段，对应理想汽车辅助驾驶的昨天、今天和明天。

第一阶段，理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶，类似昆虫动物智能”。

第二阶段，理想汽车自2023年起研究，并于2024年正式推送的端到端 VLM（Vision Language Model，视觉语言模型）辅助驾驶，接近哺乳动物智能”。

端到端模型在处理复杂问题时存在局限，虽可借助VLM视觉语言模型辅助，但VLM使用开源模型，使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。

为了解决这些问题并提升用户的智能体验，理想汽车自2024年起开展VLA研究，并在多项顶级学术会议上发表论文，夯实了理论基础。

第三阶段，在端到端的基础上，VLA将开启人类智能”的阶段，它能通过3D和2D视觉的组合，完整地看到物理世界，而不像VLM仅能解析2D图像。

同时，VLA拥有完整的脑系统，具备语言、CoT（Chain of Thought，思维链）推理能力，既能看，也能理解并真正执行行动，符合人类的运作方式。

此外，李想还进一步分享了VLA的训练细节和运作原理。

VLA训练分为预训练、后训练和强化训练三个环节，类似于人类学习驾驶技能的过程。

预训练相当于人类学习物理世界和交通领域的常识，通过大量高清2D和3D Vision（视觉）数据、交通相关的Language（语言）语料，以及与物理世界相关的VL（Vision-Language，视觉和语言）联合数据，训练出云端的VL基座模型，并通过蒸馏转化为在车端高效运行的端侧模型。

后训练相当于人类去驾校学习开车的过程。随着Action（动作）数据的加入即对周围环境和自车驾驶行为的编码，VL基座变为VLA司机大模型。

强化训练类似于人类在社会中实际开车练习，目标是让VLA司机大模型更加安全、舒适，对齐人类价值观，甚至超越人类驾驶水平。

VLA司机大模型以司机Agent（智能体）”的产品形态呈现，用户可通过自然语言与司机Agent沟通，跟人类司机怎么说，就跟司机Agent怎么说。

简单通用的短指令由端侧的VLA直接处理，复杂指令则先由云端的VL基座模型解析，再交由VLA处理。

李想强调：理想人工智能走的是无人区，做VLA这件事，Deepseek、OpenAI、谷歌、Waymo都没有走过这条路，理想以前走的是汽车的无人区，以后走的是人工智能的无人区。

如果觉得文章对你有用，请随意赞赏

快讯

李想重磅发布理想VLA司机大模型：从"动物"到"人类"的智能进化革命

破晓

2025-05-08

2025-05-08

CC BY 4.0