2025年1月16日,上海阶跃星辰智能科技有限公司宣布其自研推理模型Step Reasoner mini(简称“Step R-mini”)正式上线。用户可登录跃问网页端https://yuewen.cn,在左上角选择“Step R-mini”进行体验。

Step R-mini是Step系列模型家族的首个推理模型,擅长主动规划、尝试和反思,通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它不仅能够通过超长推理能力解决逻辑推理、代码和数学等复杂问题,还能兼顾文学创作等通用领域。

阶跃星辰自研的Step系列基座模型矩阵已覆盖语言、多模态到推理的全面能力。在AIME和Math等数学基准测试上,Step R-mini的成绩超过了o1-preview,比肩OpenAI o1-mini。在LiveCodeBench代码任务上,也比o1-preview效果更佳。值得一提的是,大部分推理模型难以兼顾文理科双方向能力,但Step R-mini通过大规模的强化学习训练,并使用On-Policy(同策略)强化学习算法,实现了“文理兼修”,既能准确解答数学、代码、逻辑推理问题,又能富有创意地完成文学内容创作和日常聊天的任务。

image

在实际应用中,Step R-mini展现了出色的效果。在解答数学题时,面对奥数难题,它能构建合理推理链,实现复杂数学问题的规划和逐步求解,并枚举不同解法方案交叉验证。在处理几何题目时,能主动通过画草图构建深度思考的内容介质。在逻辑推理任务中,自主尝试多种解题思路,自我反问确保枚举出所有良好解决方案。在代码题方面,能正确解答LeetCode技术平台上难度评级为“Hard”的算法题,还能处理复杂开发需求,逐步分析用户需求和意图,构建代码逻辑。在内容创作上,能深入理解用户表达需求,分析创作主题、文学题材等要求,思考创作角度、描绘景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增加个性化、创新的表达风格。在翻译问题上,遵循“信达雅”原则,力求呈现精准且含义丰富的翻译结果。

除了语言推理模型,阶跃星辰还在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning问题,引入慢感知和空间推理思想,把Test-Time Scaling从文本空间转移到视觉空间,实现在视觉空间下的Spatial-Slow-Thinking。目前,视觉推理模型已取得阶段性成果,正式版本预计今年与大家见面。