侧边栏壁纸
  • 累计撰写 106 篇文章
  • 累计创建 279 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

Qwen 3.7 预览版空降!阿里大模型迭代再提速,文本视觉双领域国产第一

Qwen 3.7 预览版空降!阿里大模型迭代再提速,文本视觉双领域国产第一

阿里通义千问团队悄无声息地上线了 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview,在 Arena 全球榜单中文本第 13、视觉第 16,双双拿下国产第一。仅开放思考模式,主打极致推理与深度计算,正式版将在阿里云峰会发布。

一、Qwen 3.7 预览版突然上线

2026 年 5 月 19 日早间,全球大模型性能评测平台 Arena AI 的实时榜单突然更新两个全新测试条目:阿里通义千问旗下的 Qwen3.7 两款旗舰预览版直接冲入上游梯队,上线仅 2 小时就收获了超过 3000 次用户盲测投票,在推理类问题上的正确率远超同梯队其他模型,很快引发了全球大模型从业者的关注。

这次发布极其低调——没有预热、没有发布会,直接在 Arena 上悄然上线。Qwen 官号随后放话:"迫不及待想发布 Qwen3.7 系列了!"

但不少网友发现了一个尴尬的事实:4 月底才发布的 Qwen3.6-Max-Preview 还处于预览版状态,Qwen3.7-Max 预览版就已经端上桌了。一时间不知道是正式版放出的节奏比较缓慢,还是版本迭代的速度太快?

二、双版本并行策略:Max 与 Plus

此次上线的两款预览版定位明确,采用"双版本并行"策略,覆盖不同层级需求:

Qwen3.7-Max-Preview:旗舰级"大脑"

定位: 极致复杂推理与编程能力,综合性能天花板

核心特性:

  • 旗舰级复杂推理:在 SWE-bench Pro、Terminal-Bench 等主流编程基准上表现领先,支持高难度软件工程任务与多步骤逻辑推理
  • 世界知识覆盖增强:精准理解并执行复杂指令,降低知识幻觉与误执行风险
  • 原生多模态理解:支持文本、图像、视频输入,视觉推理能力跻身全球前五
  • 超长上下文处理:支持 256K Token 上下文窗口,可完成代码库级分析与长文档深度理解
  • 混合推理模式:支持思考模式与非思考模式无缝切换,灵活匹配不同任务复杂度

Qwen3.7-Plus-Preview:均衡型选择

定位: 百万级长上下文与 Agentic Coding 的均衡体验

核心特性:

  • 百万 Token 原生上下文:可一次性处理整个代码仓库或超长篇文档,实现端到端的长文本推理与信息提取
  • Agentic Coding 自主编程:在复杂工程环境中自主规划、执行与优化开发任务,支持多轮交互式代码生成与调试
  • 效果与成本均衡:更低推理成本实现接近 Max 版的综合性能,适合高频调用与企业级生产部署场景
  • 多模态原生推理:支持文本、图像、视频混合输入,实现跨模态信息融合与结构化输出
  • 企业级 Agentic AI 优化:与阿里云百炼生态深度集成,提供稳定可靠的商用接入体验

三、Arena 榜单成绩详解

文本领域:全球第 13,国产第一

Qwen3.7-Max-Preview 在 Arena 文本领域综合排名 第 13 位,是全球前十五中唯一的中国模型。

排名在它前面的分别是 Claude Opus4.6/4.7 系列、Gemini-3.1/3 Pro 系列、GPT-5.4/5.4-High 等国际顶级模型。

在细分领域,Qwen3.7-Max-Preview 更是展现出强劲实力,以下赛道均跻身全球前十:

细分领域 排名
数学 第 7
专家提示 第 9
软件/IT 第 9
Coding 第 10

这一成绩直接推动通义千问实验室排名冲入 全球前六,是当前中文大模型厂商在纯推理基准上拿到的最好成绩之一。

视觉领域:全球第 16,国产第一

Qwen3.7-Plus-Preview 在视觉领域排名 第 16 位,推动阿里实验室排名升至 全球第 5。同样是排行榜上国产排名第一的模型。

专家竞技场

在专门针对高难度复杂指令的"专家竞技场"细分赛道中,Qwen3.7-Max-Preview 稳稳占据 全球第 9 的位置。该榜单上还有一个中国模型——小米的 Mimo v2.5 Pro,位列第 7。

四、仅开放思考模式:纯粹推理能力展示

和此前通义千问发布的所有版本不同,此次上线的两款预览版 仅支持"思考模式",暂时屏蔽了网页搜索、代码解释器等所有外围辅助工具,用户只能调用模型的原生能力解决问题。

这一设置的意图非常明确:

  • 最大化还原大模型本身的逻辑推理与深度计算能力
  • 避免工具加成干扰性能评测结果
  • 定向针对高难度数理推演、多步逻辑问题、复杂专业任务求解等场景

换言之,这不是一个"全能助手"的展示,而是对模型"大脑"本身实力的纯粹检验。

五、技术原理深度解析

MoE 混合专家架构

Qwen3.7 继续基于混合专家模型(Mixture of Experts)架构,以较少激活参数实现高密度模型性能,在同等算力下获得更强推理能力。这也是 Qwen3 系列以来的标志性技术路线。

大规模强化学习优化

训练阶段通过自动扩展测试样例提升代码执行成功率,强化模型在编程与复杂任务中的可靠性。不同于传统的 SFT(监督微调),强化学习让模型在实际任务执行中不断自我优化。

长时序强化学习(Long-Horizon RL)

鼓励模型通过多轮交互解决复杂任务,支持持续学习与策略优化,提升 Agent 自主决策能力。这一技术是 Qwen3.7 在 Agentic Coding 方面表现突出的关键支撑。

思考预算控制机制

支持动态调整推理深度,用户可根据任务需求配置思考 Token 预算,平衡响应质量与速度。简单问题用少预算快速回答,复杂问题投入更多预算深度推理。

保留思维链(Preserve Thinking)

在 Agent 任务中保留完整推理过程,确保多轮交互的连续性与可追溯性,便于调试与审计。这对于生产环境部署至关重要——你不仅能看到结果,还能看到模型"怎么想的"。

六、竞品对比:Qwen3.7 vs GPT-5.5 vs DeepSeek V4

对比维度 Qwen3.7 Preview GPT-5.5 DeepSeek V4
模型定位 双版本并行(Max/Plus) 综合能力最强 长上下文性价比之选
Arena 排名 文本第 6、视觉第 5 文本/视觉头部领先 未进入前五
编程能力 SWE-bench Pro 国产领先 综合编程能力强 代码生成与数学推理优秀
上下文长度 Max 256K / Plus 1M 标准上下文 128K Token(可扩展)
推理模式 思考/非思考无缝切换 支持深度推理 支持 thinking 模式
实时检索 依赖外部工具 原生实时网络搜索 需外部检索工具
价格策略 Plus ¥2/百万 Token 起 $5-30/百万 Token 开源免费/API 低价
部署方式 阿里云百炼/Qwen Studio OpenAI API/ChatGPT 开源权重/本地部署
多模态支持 原生文本/图像/视频 全模态支持 文本为主

Qwen3.7 的差异化优势在于:双版本策略覆盖不同需求层级百万 Token 原生上下文,以及 思考/非思考模式的无缝切换

七、Qwen 迭代速度明显提速

有网友感慨:"Qwen 发布新模型有点东西,人们还没来得及讨论完一个模型,下一个模型的预告片就已经自动播放了。"

回顾 Qwen 的发布时间线:

早期(2023-2024):间隔约 4-6 个月放出一个大版本,节奏比较"随大流"

转折点——Qwen3 系列(2025 年 4 月):包括 dense 模型和 MoE 模型,参数规模从 0.6B 到 235B,支持 Thinking(复杂推理)和 Non-Thinking(快速响应)双模式

Qwen3 及以后:迭代节奏明显提速,大版本间隔缩短至 2-3 个月一次

2026 年以来:几乎每个月都有新动作,从 3.5 到 3.6 再到 3.7,版本号更新非常迅速。普遍节奏是 Preview 版本先上线——社区先测/开发者先用——正式版再跟进。

这反映出阿里 Qwen 团队已进入 快速实验、高频交付 的阶段。

八、林俊旸离开后,Qwen 依然在加速

尤记得 Qwen 前负责人林俊旸离开时发布的那条推特:

"Qwen 的兄弟们,按原来安排继续干,没问题的。"

他离开时,Qwen 处于 3.5 时代,和 DeepSeek 一样,是国产开源界的标杆模型。

不管是延续以前的作风,还是新负责人的带领,后续的 Qwen 版本确实依然在一步一步更快,也更好。从 3.5 到 3.6 再到 3.7,迭代速度不仅没有放缓,反而进一步提速。

这或许说明了一个重要的趋势:大模型的迭代已经从"个人英雄"时代进入"团队机器"时代——成熟的团队、成熟的流程,让迭代不再依赖某个核心人物的留守。

九、如何体验 Qwen3.7 Preview

目前可以通过以下方式体验 Qwen3.7 预览版:

  1. Arena 评测平台:访问 Arena 官网(arena.ai),Qwen3.7 Preview 已登陆该平台供公开横向评测
  2. Qwen Chat:官方对话平台也可直接体验
  3. 选择模型版本:Max-Preview 适合极致推理场景,Plus-Preview 适合均衡体验

注意:现阶段仅开放思考模式,网页搜索、代码解释器等辅助工具暂不可用。

正式版预计将在 5 月 20 日阿里云峰会 上正式发布,届时将开放完整功能。

十、应用场景展望

Qwen3.7 的技术特性为以下场景带来突破性可能:

智能软件开发

基于 SWE-bench Pro 领先的编程能力,辅助代码生成、调试与仓库级项目分析,支持高难度软件工程任务。

代码仓库级分析

用 Plus 百万 Token 或 Max 256K 上下文窗口,一次性理解整个代码库结构,实现端到端的架构梳理与优化建议。

企业知识管理

处理超长合同、研报、技术文档的深度理解与关键信息提取,无需分段输入即可保持全局逻辑连贯性。

多模态内容分析

融合文本、图像、视频输入进行跨模态推理,适用于视觉内容理解、视频摘要生成与多媒体资料审核。

自动化智能体构建

依托 Agentic Coding 与混合推理模式,构建可自主规划、多轮交互并调用外部工具的复杂业务自动化流程。

十一、总结与展望

Qwen3.7 Preview 的上线,标志着中国大模型在纯推理能力上达到了新的高度:

  • ✅ Arena 文本领域全球第 13,国产第一
  • ✅ 视觉领域全球第 16,国产第一
  • ✅ 数学、编程等细分赛道跻身全球前十
  • ✅ 双版本策略覆盖极致性能与性价比
  • ✅ 百万 Token 原生上下文 + 思考/非思考无缝切换

阿里云百炼平台年化经常性收入已突破 80 亿元,预计本季度将超 100 亿元,增长主要来自自研通义千问大模型 API 服务及 AI 原生应用。Qwen3.7 正式版将在 5 月 20 日阿里云峰会亮相,届时我们将看到完整的功能解锁。

曾经,我们用几年时间等待一款新手机的升级;如今,我们用几个月甚至几周,就目睹一个模型从稚嫩走向强大。技术从不等待任何人,它像一条奔腾的河流,而我们正站在岸边,既是见证者,也是参与者。



📚 相关文章推荐

你可能还想看:

  1. 飞牛NAS部署OpenClaw教程:XXOS大佬一键应用轻松对接QQ机器人
  2. 16G 显卡能跑 Qwen3.6 吗?27B 和 35B-A3B 量化显存对照表,一张图看懂怎么选
  3. AI 圈又炸锅了!小米开源 MiMo-V2.5、Qwen3.6-27B 发布、OpenAI 30GW 算力规划...
  4. Qwen3.6-35B-A3B 重磅发布:阿里开源新一代 MoE 大模型,编程能力再攀高峰
  5. OpenClaw 2026.3.7更新教程:Docker优化与ACP绑定配置详解

📢 关注「Geek 运维」

了解更多最新 Geek 技术分享!

关注 Geek 运维公众号

长按识别图中二维码,关注「Geek 运维」公众号,获取:

  • 最新 AI 技术资讯
  • 实用技术教程和工具
  • OpenClaw/Skills 使用指南
  • 运维开发最佳实践
  • 第一手技术资源分享
0

评论区