卷疯了恒信策略,通义千问真的卷疯了。
Qwen3-Coder 刚炸完场,就隔了一天,马上全新开源 Qwen3 系列最强推理模型—— Qwen3-235B-A22B-Thinking-2507。
怎么个最强法?一登场,再次刷新 SOTA,在各项测评中一举拿下「全球最强开源模型」宝座,比肩顶级闭源模型 Gemini-2.5 Pro、o4-mini。
国外网友都馋哭了:
关键是,就在这短短一周里,算上前两天开源的新基础模型 Qwen3-235B-A22B-Instruct-2507(非思考版),和 Qwen3-Coder,通义千问是完成了一波开源三连。
开源还不算,各个出手即 SOTA:接连斩获基础模型、编程模型、推理模型三项全球开源最强。
这个模型更新强度和效能提升,妥妥地引领全球了。
就问小扎慌不慌(doge)。
新版 Qwen3 推理模型,登顶全球开源最强
正如 DeepSeek R1 是在 V3 基础上打造的推理模型,Qwen3 全新推理模型,是基于 Qwen3-235B-A22B 打造——就是 235B 参数那版 MoE,激活参数 22B。
官方表示,新推理模型主要提升了 3 方面的核心能力:
逻辑推理、数学、科学和编码等任务上性能显著提升;
能更好地遵循指令、使用工具、生成文本;
支持 256K 原生上下文,适用于高度复杂的推理任务。
而此番刷新 SOTA,登顶开源最强,确实不是那种一丢丢提升,仔细看测评分数,那是「真有点东西」。
先来看推理方面。
在超高难度测试「人类最后的考试」中,最新的 2507 版推理模型,相较 4 月底初发布的 Qwen3 推理模型,分数从11.8 分提升到了18.2 分。
超过了 DeepSeek-R1-0528 的 17.7 分,和 OpenAI o4-mini 在高性能推理模式下拿到的 18.1 分。
编程方面,在 LiveCodeBench v6 和 CFEval 中恒信策略,Qwen3 新推理模型甚至超越了 Gemini-2.5 Pro 等闭源业界标杆,刷新 SOTA。
除此之外,在知识、对齐、智能体、多语言等基准评测中,Qwen3 新推理模型都有比肩闭源模型的表现,达到开源 SOTA。
纸面上的成绩属实是相当优秀,那么具体使用起来,这个新推理模型表现又会如何?
我们也简单测试了一下。
还是那道经典题:7 米长的甘蔗如何通过 2 米高 1 米宽的门?
Qwen3-235B-A22B-Thinking-2507 思考了 43 秒,最后给出的答案是:
思考过程如下:
相较之下,o4-mini 的答案就简单粗暴了些。
模型三连开源,摘下三项 SOTA
前面也说到,全新推理模型,其实是本周阿里开源第三弹。
总结起来画风其实是酱婶的:
前两弹震得大家伙脑袋嗡嗡的,各种实测部署正上头呢,通义实验室的卷王们啪地又甩出了一对王炸。
就说Qwen3-Coder,开源即刷新 AI 编程 SOTA ——不仅在开源界超过 DeepSeek V3 和 Kimi K2,连业界标杆、闭源的 Claude Sonnet 4 都比下去了。
网友们实测起来,小球弹跳效果是这样的:
HuggingFace 首席执行官 Clement Delangue、Perplexity 首席执行官 Aravind Srinivas 等大佬都第一时间加入了讨论、点赞:
这是开源的胜利。
Qwen3-Coder 火爆,带动阿里千问 API 调用量暴涨。
海外知名模型 API 聚合平台 OpenRouter 数据显示,阿里千问 API 调用量过去几天已突破 1000 亿 Tokens,在 OpenRouter 趋势榜上包揽全球前三,是当下最热门的模型。
基础模型领域,Qwen3 最新版本—— Qwen3-235B-A22B-Instruct-2507(非思考版)也登顶全球开源第一,在 GPQA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等众多测评中表现出色,超越 Claude4(Non-thinking)等领先闭源模型。
中国开源,卷到了世界最前沿
三连开源,连摘三冠,对于中国开源力量而言,或许还只是一个开端。
有一说一,打从 DeepSeek 爆火、Llama 4 翻车,要说开源领域哪股势力最为活跃,成为新的风潮引领者,还得看神秘的东方力量。
每有开源新王诞生,DeepSeek、Qwen、Kimi ……看来看去,还是 made in China。
「中国确实将开源提升到了一个新高度」,越来越多地被讨论、被赞同。
关键是,正如黄仁勋最新一次在北京所说,开源模型方面,「中国发展速度极快」。
以 Qwen 为例,目前,阿里已开源 300 余款通义大模型,通义千问衍生模型突破 14 万个,已经真真正正超越此前的全球开源老大 Llama 系列,成为全球第一开源模型家族。
阿里方面透露,未来三年,阿里巴巴还将投入超过 3800 亿元用于建设云和 AI 硬件基础设施,持续升级全栈 AI 能力。
更重要的是,开源和闭源的差距也正在这种中国速度中被压缩。
增长曲线的交叉点何时出现?尚未可知,但国产模型的身位已经实实在在排在了全球最前沿。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见恒信策略
睿迎网提示:文章来自网络,不代表本站观点。