阿里巴巴开源其最新的推理模型 QwQ-32B,

QwQ-32B 是 Qwen 团队 开发的一款 320 亿参数大语言模型(LLM),它的主要特点是 结合了强化学习(RL),大幅提升了模型在 数学、编程、推理 任务上的能力。

📌 关键特点:

  • 强化学习优化推理能力:模型不仅仅通过数据训练,还通过强化学习不断改进自身推理过程,使其在数学、编程等领域表现更优。
  • 媲美超大模型:尽管 QwQ-32B 只有 320 亿参数,但其性能可以媲美 DeepSeek-R1(总参数 6710 亿,实际激活 370 亿)。
  • 智能体能力(Agent-like Features):可以结合工具、执行任务、批判性思考,并根据反馈优化回答。
  • 完全开源:QwQ-32B 已在 Hugging Face 和 ModelScope 开源,可供开发者免费使用。

强化学习(RL)优化推理能力

传统语言模型的问题

一般的大语言模型(LLM),如 ChatGPT、Llama、Mistral,主要通过 两种训练方式

  1. 预训练(Pre-training):在海量文本数据上训练,让模型具备基本的语言、知识、推理能力。
  2. 后训练(Fine-tuning)

    • 监督微调(SFT):使用人工标注的高质量数据让模型表现更稳定。
    • RLHF(强化学习 + 人类反馈):让模型根据人类反馈调整回答,使其更符合用户需求。

但这些方法有一个局限

模型容易生成错误答案,并且难以发现自己的错误!
尤其在数学、编程任务上,模型的推理能力有限!

QwQ-32B 采用新的强化学习方法

QwQ-32B 不仅仅依赖人类反馈,而是让模型自己验证答案的正确性!

  1. 数学任务

    • 不是依赖人工标注的答案,而是让模型自己计算,并检查是否符合数学规律。
    • 例如,QwQ-32B 计算一个数学表达式后,会用额外的步骤验证答案是否正确
  2. 编程任务

    • 让模型自己运行生成的代码,并检查是否通过了测试用例,而不仅仅是生成代码后就认为它正确。
    • 例如,QwQ-32B 在生成 Python 代码后,会尝试在服务器上运行它,并检查它是否能正确执行。

✅ 结果:

  • 这样训练出来的模型,比传统 LLM 在数学、编程上的正确率更高。
  • 解决了 "只会生成答案但不知道对错" 的问题。

具备智能体(Agent)能力

  • 能够 结合工具使用,进行批判性思考
  • 可根据环境反馈调整推理过程,提高智能性。

应用场景

  • 解决复杂逻辑推理问题
  • 适用于 自动编程、数学推理、科学研究
  • 能够执行长时间任务,提高 AI 的自主性

基准测试表现

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

📝 结果:

  • QwQ-32B 的各方面能力媲美 DeepSeek-R1
  • 在数学和代码方面优于 OpenAI o1-mini

完全开源,可自由使用

QwQ-32B 已在 Hugging Face 和 ModelScope 开源,并采用 Apache 2.0 许可证,这意味着:

  • 开发者可以自由使用、修改、部署,无需担心商业限制。
  • 可用于自定义 AI 应用,例如智能助手、数据分析工具、编程助手等。

📌 API 调用示例

``` from openai import OpenAI import os

初始化 QwQ-32B 客户端

client = OpenAI( apikey=os.getenv("DASHSCOPEAPIKEY"), baseurl="https://dashscope.aliyuncs.com/compatible-mode/v1" )

进行数学推理任务

completion = client.chat.completions.create( model="qwq-32b", messages=[{"role": "user", "content": "9.9 和 9.11 哪个更大?"}], stream=True )

for chunk in completion: print(chunk.choices[0].delta.content, end='', flush=True)

```

开发者可以像调用 OpenAI API 一样使用 QwQ-32B,简单方便!


博客: https://qwenlm.github.io/blog/qwq-32b

HF: https://huggingface.co/Qwen/QwQ-32B

ModelScope: https://modelscope.cn/models/Qwen/QwQ-32B

演示: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

Qwen Chat: https://chat.qwen.ai