1、混合推理架构
Qwen3系列初次将“快思考”(非推理模式)与“慢思考”(推理模式)集成至单一模型,通过控制参数enable_thinking实现模式切换。用户可通过文本后缀/no_think或/think动态调整响应策略,例如在简单问答中优先速度,在复杂代码生成或数学推理中启用深度思考。这种设计使Qwen3-235B-A22B在基准测试中与DeepSeek-R1、Grok-3等模型表现相当,同时显著降低算力消耗。
2、稀疏激活技术
MoE(Mixture-of-Experts)架构的引入使Qwen3实现参数效率的突破。例如,Qwen3-30B-A3B模型总参数约300亿,但仅激活30亿参数即可达到QwQ-32B(激活参数超300亿)的性能水平,激活参数占比仅为10%。这种稀疏激活机制大幅减少计算资源占用,同时保持模型在STEM、编码等领域的竞争力。
3、多阶段预训练与长上下文扩展
Qwen3的预训练分为三阶段:
阶段一:基于30万亿token进行基础语言技能训练,上下文长度4K;
阶段二:增加STEM、编程等知识密集型数据,扩展至35万亿token;
阶段三:引入高质量长上下文数据,将上下文长度提升至32K(Dense模型)和128K(MoE模型)。
这种渐进式训练策略使Qwen3-4B等小模型即可匹敌Qwen2.5-72B-Instruct的性能,同时支持超长文本处理。
4、四阶段后训练流程
后训练流程涵盖四个关键阶段:
长思维链冷启动:通过数学、代码等长思维链数据微调,构建基础推理能力;
长思维链强化学习:利用规则奖励增强模型探索能力;
思维模式融合:将非思考模式整合至推理模型,实现快速响应与深度思考的无缝切换;
通用强化学习:在指令遵循、Agent能力等20余个领域优化模型表现。
该流程使Qwen3在ArenaHard人类偏好对齐测试中得分95.6,超越OpenAI-o1及DeepSeek-R1。
5、多语言与工具调用能力的增强
Qwen3支持119种语言及方言,覆盖简体中文、繁体中文、粤语等,并通过Qwen-Agent框架原生支持MCP协议,简化工具调用流程。例如,在BFCL Agent能力评测中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,显著降低复杂任务实现门槛。
6、数据规模与质量的双重提升
预训练数据量达36万亿token,较Qwen2.5的18万亿token增长近一倍。数据来源包括网上数据爬取、PDF文档解析(通过Qwen2.5-VL提取文本并优化质量)、数学/代码数据合成(利用Qwen2.5-Math/Coder生成教材、问答对及代码片段)。这种多模态数据构建策略为模型提供了跨领域的知识储备。
7、灵活的部署与成本控制
Qwen3提供从0.6B到235B的参数规模选择,满足不同场景需求:
轻量化场景:Qwen3-4B适用于手机端部署;
边缘计算:Qwen3-8B支持电脑及车载设备;
企业级应用:Qwen3-32B适配大规模推理任务。
例如,Qwen3-235B-A22B仅需4张H20显卡即可部署,显存占用为同性能模型的三分之一,显著降低部署成本。