阿里通义千问 Qwen3 系列模型正式发布,该系列模型在技术上有何突出亮点?

4 月 29 日凌晨,阿里巴巴发布新一代通义千问 Qwen3 模型,登顶全球最强开源模型。作为国内首个“混合推理模型”,它将“快思考”与“慢思考”集成于同一模型,大幅节省算力消耗。后训练模型及预训练基座模型已在多平台开放使用。阿里云开源两个 MoE 模型权重,分别是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B ,以及约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B 。此外,还开源六个在 Apache 2.0 许可下的 Dense 模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1 等顶级模型相比极具竞争力;小型 MoE 模型 Qwen3-30B-A3B 激活参数少但表现更优,小模型 Qwen3-4B 性能也能匹敌 Qwen2.5-72B-Instruct 。

请先 登录 后评论

2 个回答

潇洒剑客

1、混合推理架构

Qwen3系列初次将“快思考”(非推理模式)与“慢思考”(推理模式)集成至单一模型,通过控制参数enable_thinking实现模式切换。用户可通过文本后缀/no_think或/think动态调整响应策略,例如在简单问答中优先速度,在复杂代码生成或数学推理中启用深度思考。这种设计使Qwen3-235B-A22B在基准测试中与DeepSeek-R1、Grok-3等模型表现相当,同时显著降低算力消耗。

2、稀疏激活技术

MoE(Mixture-of-Experts)架构的引入使Qwen3实现参数效率的突破。例如,Qwen3-30B-A3B模型总参数约300亿,但仅激活30亿参数即可达到QwQ-32B(激活参数超300亿)的性能水平,激活参数占比仅为10%。这种稀疏激活机制大幅减少计算资源占用,同时保持模型在STEM、编码等领域的竞争力。

3、多阶段预训练与长上下文扩展

Qwen3的预训练分为三阶段:

阶段一:基于30万亿token进行基础语言技能训练,上下文长度4K;

阶段二:增加STEM、编程等知识密集型数据,扩展至35万亿token;

阶段三:引入高质量长上下文数据,将上下文长度提升至32K(Dense模型)和128K(MoE模型)。

这种渐进式训练策略使Qwen3-4B等小模型即可匹敌Qwen2.5-72B-Instruct的性能,同时支持超长文本处理。

4、四阶段后训练流程

后训练流程涵盖四个关键阶段:

长思维链冷启动:通过数学、代码等长思维链数据微调,构建基础推理能力;

长思维链强化学习:利用规则奖励增强模型探索能力;

思维模式融合:将非思考模式整合至推理模型,实现快速响应与深度思考的无缝切换;

通用强化学习:在指令遵循、Agent能力等20余个领域优化模型表现。

该流程使Qwen3在ArenaHard人类偏好对齐测试中得分95.6,超越OpenAI-o1及DeepSeek-R1。

5、多语言与工具调用能力的增强

Qwen3支持119种语言及方言,覆盖简体中文、繁体中文、粤语等,并通过Qwen-Agent框架原生支持MCP协议,简化工具调用流程。例如,在BFCL Agent能力评测中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,显著降低复杂任务实现门槛。

6、数据规模与质量的双重提升

预训练数据量达36万亿token,较Qwen2.5的18万亿token增长近一倍。数据来源包括网上数据爬取、PDF文档解析(通过Qwen2.5-VL提取文本并优化质量)、数学/代码数据合成(利用Qwen2.5-Math/Coder生成教材、问答对及代码片段)。这种多模态数据构建策略为模型提供了跨领域的知识储备。

7、灵活的部署与成本控制

Qwen3提供从0.6B到235B的参数规模选择,满足不同场景需求:

轻量化场景:Qwen3-4B适用于手机端部署;

边缘计算:Qwen3-8B支持电脑及车载设备;

企业级应用:Qwen3-32B适配大规模推理任务。

例如,Qwen3-235B-A22B仅需4张H20显卡即可部署,显存占用为同性能模型的三分之一,显著降低部署成本。

请先 登录 后评论
扶摇

1、混合推理模型

Qwen3 是国内初次发布的“混合推理模型”,它把“快思考”和“慢思考”集成到一个模型里。面对复杂问题时,能像人一样多步骤深入思考;遇到简单问题,又能快速给出回答。这种设计既提升了模型的智能水平,还降低了算力消耗,挺实用的。

2、多种思考模式

Qwen3 支持两种思考模式。一种是思考模式,模型会逐步推理,适合复杂问题;另一种是非思考模式,能快速响应,适合简单问题。用户能根据具体任务控制模型的思考程度,比如难题可以让模型多推理几步,简单问题直接要答案,灵活性很高。

3、多语言支持

Qwen3 模型支持 119 种语言和方言,像简体中文、繁体中文、粤语等都在其中。这个广泛的多语言能力让它在国际应用上潜力很大,能让全球更多用户用上这些模型。

4、预训练数据量大

Qwen3 的预训练数据集规模庞大,使用了约 36 万亿个 token,是上一代的两倍。数据来源多样,包括网上数据、PDF 文档等,还通过一些优化方式提高数据质量。经过三个阶段的预训练,模型在处理长输入、语言技能和通用知识方面更强了。

5、性能表现优异

从官方介绍来看,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,和 DeepSeek-R1、o1 等模型相比,结果很有竞争力。而且小型 MoE 模型 Qwen3-30B-A3B 激活参数少,性能却更好,小模型 Qwen3-4B 也能媲美一些更大模型。

6、开源多个模型

阿里云开源了两个 MoE 模型权重,Qwen3-235B-A22B 和 Qwen3-30B-A3B,还开源了六个 Dense 模型,从 Qwen3-32B 到 Qwen3-0.6B 都有,均在 Apache 2.0 许可下开源。这降低了开发门槛,有利于推动技术发展和应用。

7、部署成本低

Qwen3 的部署成本大幅降低,仅需 4 张 H20 显卡就能实现“满血版”部署,显存占用还小。对于部署,官方推荐了一些框架和工具,进一步简化了部署流程。

请先 登录 后评论