今日凌晨,阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型。
据悉,阿里此次发布的Qwen3采用MoE架构,总参数235B,激活仅需22B,预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。
此外,旗舰模型Qwen3-235B-A22B,在编程、数学、通用能力等基准评估中的表现优于DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3等业界知名模型。
Qwen3是国内首个「混合推理模型」,它将「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。
性能大幅提升的同时,Qwen3的部署成本还大幅下降,仅需4张H20即可部署Qwen3满血版,显存占用仅为性能相近模型的三分之一。
关键特性:
·混合思考模式:用户可切换“思考模式、“非思考模式”,控制模型的思考程度;
·推理能力提升:在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);
·支持MCP(模型上下文协议),Agent能力提升:可以在思考和非思考模式下实现大语言模型与外部数据源和工具的集成,并完成复杂任务;
·多语言支持:Qwen3模型支持119种语言和方言,具备多语言理解、推理、指令跟随和生成能力。
目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上开源,均遵循Apache 2.0许可证。
在部署方面,其博客提到,建议开发者使用SGLang和vLLM等框架,推荐本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具,以及Qwen3采用了不同的命名方案,后训练模型不再使用“-Instruct”后缀,基础模型的后缀是“-Base”。
此外,路透社报道称,三位知情人士透露,原计划今年5月发布的DeepSeek-R2模型,正在加速开发,或将提前发布。对此,DeepSeek母公司幻方量化回应称,以官方消息为准。
微信扫一扫,一键转发