通义千问Qwen3系列最新大模型发布,记者实测:数学能力更出色
来源:糖心官网vlog - 全网免费手机在线观看-2024最新糖心下载入口 更新时间:2025-04-30 11:07:01
4月29日凌晨,通义阿里巴巴正式发布通义千问Qwen3系列模型,千问这一包含2个混合专家(MoE)模型与6个稠密模型的系列型发学久久精品亚洲一区二区三区浴池开源大模型家族,以突破性的最新者实架构设计、36万亿 token 的大模训练数据规模及多模态能力,吸引了一大拨开发者的布记关注。记者实测发现,测数出色Qwen3不仅在数学推理、力更代码生成等硬核领域表现惊艳,通义久久精品亚洲一区二区三区浴池其 “思考模式” 与 “非思考模式” 的千问灵活切换,更能提升复杂任务的系列型发学处理效率。
据官方技术文档显示,Qwen3系列模型采用混合专家架构与统一多模态编码体系。大模旗舰模型Qwen3-235B-A22B具备2350亿总参数量,布记通过MoE动态路由机制,测数出色实际激活参数仅220亿,显存占用仅为同性能模型的三分之一。
同时,Qwen3在多模态能力上,首次实现文本、图像、音频、视频的统一处理。例如,记者测试发现,当输入一张包含数学公式的图表时,模型不仅能精准解析公式含义,还能结合上下文推导出解题步骤。这种能力在教育、科研等领域具有广阔应用前景,可辅助论文写作、实验数据分析等场景。
目前,Qwen3已在Hugging Face、ModelScope等平台上线,GitHub星标数突破18.5k。
4月29日,记者实际体验了一下Qwen3模型,整体测试效果令人满意。
首先,在逆文本生成基准测试中,记者要求模型将“YZWB is testing Qwen3-235B-A22B” 这句话逐词反转。Qwen3-235B-A22B在非思考模式下仅用0.3秒输出“B22A-B532-n3newQ gnitset si BWZY”。
其次,记者实测发现Qwen3在数学能力表现相比之前更出色了,模型现在可以同时提供多种解题思路,输出结果也比较准确,展现了其强大的推理能力。而对此前网友向AI提出的“7米长的甘蔗如何通过2米高、1米宽的门”这一经典难题,Qwen3通过三维空间建模推导出“倾斜甘蔗使其对角线长度小于门的对角线(√(2²+1²)≈2.24米)”的方案。
最后,根据最新LiveCodeBench v5评测,Qwen3-235B-A22B以70.7分超越OpenAI Grok-3,记者实测其代码生成能力同样惊人。当要求模型“用 Python 编写一个实时监控服务器日志并发送异常报警的脚本” 时,模型在思考模式下输出了包含日志解析、阈值检测、邮件报警等模块的完整代码,并自动添加了错误处理和配置文件读取功能。
尽管Qwen3在众多基准测试中表现优异,然而记者实测发现Qwen3在处理复杂推理任务及稀疏知识域时仍存在显著局限——即"幻觉生成"现象。例如,记者在测试Qwen3的中文写作能力时,虽然能直观的感到模型对于文字的处理更加细腻、流畅,但生成的文本存在严重的逻辑断层与场景跳跃失控现象,呈现出拼贴画式的叙事结构。这种现象暴露出模型在处理低频知识域或进行多阶推理时,容易将训练数据中的碎片化知识进行错误关联重组,生成看似合理却违背现实的回答,这也是众多大语言模型在认知边界突破过程中面临的共性挑战。
校对 盛媛媛