Qwen3.6-35B-A3B 重磅发布:阿里开源新一代 MoE 大模型,编程能力再攀高峰
2025年4月17日,阿里巴巴通义千问团队正式开源 Qwen3.6-35B-A3B 模型。作为 Qwen3.6 系列的首个开源版本,这款模型在 Agentic Coding 和代码生成能力上实现了重大突破,35B 总参数仅激活 3B,性能却超越众多大参数模型。
一、Qwen3.6 是什么?
Qwen3.6 是阿里巴巴通义千问团队推出的最新一代大语言模型系列。继 2025年2月发布 Qwen3.5 系列后,团队在短短两个月内再次带来重磅更新。
1.1 模型定位
Qwen3.6-35B-A3B 是 Qwen3.6 系列的首个开源权重版本,主打以下特点:
- Agentic Coding 专家:在前端工作流和仓库级代码推理方面表现卓越
- 混合专家架构 (MoE):35B 总参数,仅激活 3B,推理成本大幅降低
- 超长上下文:原生支持 262K tokens,可扩展至 101 万 tokens
- 多模态能力:集成视觉编码器,支持图像理解和视频分析
1.2 核心亮点
根据官方技术报告,Qwen3.6 在以下方面实现了显著提升:
| 能力维度 | 提升重点 |
|---|---|
| Agentic Coding | 前端工作流处理更流畅,仓库级推理更精准 |
| 思维链保留 | 新增历史消息推理上下文保留选项,迭代开发更高效 |
| 多模态理解 | 视觉-语言任务性能大幅提升 |
| 推理能力 | 数学、编程、逻辑推理全面增强 |
二、技术架构深度解析
2.1 模型规格参数
Qwen3.6-35B-A3B 的技术规格令人印象深刻:
基础架构: - 模型类型:因果语言模型 + 视觉编码器 - 总参数量:35B - 激活参数量:3B(仅 8.6% 的参数被激活) - 隐藏层维度:2048 - 层数:40 层 - 词表大小:248,320
注意力机制: - Gated DeltaNet:32 个线性注意力头(V)+ 16 个头(QK) - Gated Attention:16 个注意力头(Q)+ 2 个头(KV) - 位置编码:RoPE 64 维
MoE 配置: - 专家数量:256 个 - 激活专家:8 个路由专家 + 1 个共享专家 - 专家中间维度:512
2.2 超长上下文支持
Qwen3.6 支持业界领先的长上下文处理能力:
- 原生上下文长度:262,144 tokens(约 20 万字)
- 可扩展长度:最高 1,010,000 tokens(约 75 万字)
- 多步预测 (MTP):训练时采用多步预测,提升长文本生成质量
这意味着 Qwen3.6 可以: - 一次性处理整本技术书籍 - 分析完整的代码仓库 - 理解长视频的全部内容
三、性能评测:数据说话
3.1 编程能力评测
Qwen3.6-35B-A3B 在编程任务上表现惊艳:
| 评测基准 | Qwen3.5-35B-A3B | Qwen3.6-35B-A3B | 提升幅度 |
|---|---|---|---|
| SWE-bench Verified | 70.0 | 73.4 | +3.4% |
| SWE-bench Multilingual | 60.3 | 67.2 | +6.9% |
| SWE-bench Pro | 44.6 | 49.5 | +4.9% |
| Terminal-Bench 2.0 | 40.5 | 51.5 | +11.0% |
| Claw-Eval Avg | 65.4 | 68.7 | +3.3% |
SWE-bench 是业界公认的代码生成能力评测基准,Qwen3.6 在 Verified、Multilingual 和 Pro 三个版本上都取得了显著提升。
3.2 智能体能力评测
在智能体(Agent)任务上,Qwen3.6 同样表现出色:
| 评测基准 | Qwen3.5-35B-A3B | Qwen3.6-35B-A3B |
|---|---|---|
| TAU3-Bench | 68.9 | 67.2 |
| DeepPlanning | 22.8 | 25.9 |
| MCPMark | 27.0 | 37.0 |
| WideSearch | 59.1 | 60.1 |
3.3 数学与推理能力
| 评测基准 | Qwen3.5-35B-A3B | Qwen3.6-35B-A3B | 提升幅度 |
|---|---|---|---|
| AIME26 | 91.0 | 92.7 | +1.7% |
| GPQA | 84.2 | 86.0 | +1.8% |
| LiveCodeBench v6 | 74.6 | 80.4 | +5.8% |
| HMMT Feb 26 | 78.7 | 83.6 | +4.9% |
3.4 视觉-语言能力
Qwen3.6 在多模态任务上也有显著提升:
| 评测基准 | Qwen3.5-35B-A3B | Qwen3.6-35B-A3B |
|---|---|---|
| MMMU | 81.4 | 81.7 |
| Mathvista(mini) | 86.2 | 86.4 |
| RealWorldQA | 84.1 | 85.3 |
| OmniDocBench1.5 | 89.3 | 89.9 |
| VideoMMMU | 80.4 | 83.7 |
四、实战部署教程
4.1 环境准备
系统要求: - 操作系统:Linux(推荐 Ubuntu 22.04+) - Python:3.9+ - GPU:NVIDIA GPU 显存 >= 24GB(用于 3B 激活参数推理) - CUDA:>= 11.8
安装依赖:
# 创建虚拟环境
conda create -n qwen36 python=3.10
conda activate qwen36
# 安装 PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 安装 Transformers
pip install transformers accelerate
# 安装其他依赖
pip install qwen-vl-utils
4.2 使用 Hugging Face Transformers
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
# 加载模型
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen3.6-35B-A3B",
torch_dtype="auto",
device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.6-35B-A3B")
# 准备输入
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "path/to/image.jpg"},
{"type": "text", "text": "描述这张图片"},
],
}
]
# 生成回复
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to(model.device)
# 生成
outputs = model.generate(**inputs, max_new_tokens=2048)
response = processor.batch_decode(outputs, skip_special_tokens=True)
print(response)
4.3 使用 vLLM 加速推理
对于生产环境,推荐使用 vLLM 进行高效推理:
# 安装 vLLM
pip install vllm
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.6-35B-A3B \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--port 8000
4.4 使用 SGLang 部署
SGLang 是另一个高性能推理框架:
# 安装 SGLang
pip install sglang>=0.5.10
# 启动服务
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--tp 1 \
--context-length 262144
4.5 Docker 部署
# 拉取镜像
docker pull vllm/vllm-openai:latest
# 运行容器
docker run --gpus all \
-p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:latest \
--model Qwen/Qwen3.6-35B-A3B \
--max-model-len 262144
五、使用体验分享
5.1 编程助手体验
在实际使用中,Qwen3.6 展现出了强大的编程能力:
代码生成: - 能够根据自然语言描述生成完整的代码片段 - 支持多种编程语言:Python、JavaScript、Go、Rust 等 - 代码风格规范,注释清晰
代码审查: - 能够发现代码中的潜在问题 - 提供优化建议和最佳实践 - 解释复杂代码的逻辑
Bug 修复: - 根据错误信息定位问题 - 提供修复方案和代码补丁 - 解释 Bug 产生的原因
5.2 多模态理解体验
Qwen3.6 的视觉理解能力令人印象深刻:
- 图像描述:能够准确描述图片内容,包括物体、场景、文字
- OCR 识别:对图片中的文字识别准确率高
- 图表理解:能够理解图表、流程图、架构图
- 视频分析:支持长视频理解,能够总结视频内容
5.3 长文本处理能力
262K 的上下文长度在实际应用中非常有用:
- 文档分析:可以一次性分析整份技术文档
- 代码仓库:能够理解整个代码仓库的结构和逻辑
- 对话历史:在长对话中保持上下文连贯性
六、与竞品模型对比
6.1 同系列对比
| 模型 | 总参数 | 激活参数 | SWE-bench Verified |
|---|---|---|---|
| Qwen3.5-27B | 27B | 27B | 75.0 |
| Qwen3.5-35B-A3B | 35B | 3B | 70.0 |
| Qwen3.6-35B-A3B | 35B | 3B | 73.4 |
| Gemma4-31B | 31B | 31B | 52.0 |
| Gemma4-26B-A4B | 26B | 4B | 17.4 |
6.2 跨系列对比
与 Claude-Sonnet-4.5 等闭源模型相比,Qwen3.6-35B-A3B 在多项评测中表现接近甚至超越:
- Terminal-Bench 2.0:51.5 vs 42.9(Claude-Sonnet-4.5)
- Claw-Eval:68.7 vs 48.5(Claude-Sonnet-4.5)
- AIME26:92.7 vs 89.2(Claude-Sonnet-4.5)
七、适用场景推荐
7.1 开发者场景
- 代码生成:根据需求生成高质量代码
- Code Review:自动化代码审查
- Bug 修复:辅助定位和修复 Bug
- 技术文档:生成和翻译技术文档
7.2 企业场景
- 智能客服:基于多模态能力的客服系统
- 内容审核:图像和文本内容审核
- 数据分析:图表理解和数据洞察
- 知识库问答:基于长文档的问答系统
7.3 个人用户场景
- 学习助手:编程学习、技术问答
- 创作辅助:文章写作、内容创作
- 图像理解:图片内容分析和理解
- 视频总结:长视频内容总结
八、相关资源
官方资源
- ModelScope: https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
- Hugging Face: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
- GitHub: https://github.com/QwenLM/Qwen
- 官方博客: https://qwen.ai/blog?id=qwen3.6-35b-a3b
- 在线体验: https://chat.qwen.ai
技术文档
- 模型卡: 包含详细的技术规格和评测结果
- 使用指南: 官方提供的使用教程
- API 文档: OpenAI 兼容的 API 文档
社区资源
- Discord 群组: Qwen 官方社区
- GitHub Discussions: 技术讨论和问题解答
- Stack Overflow: 问答社区
九、总结
Qwen3.6-35B-A3B 的发布标志着开源大模型在编程能力和 Agentic AI 方面又迈出了一大步。
核心优势: - ✅ 高效推理:35B 参数仅激活 3B,推理成本低 - ✅ 编程专家:在 SWE-bench 等多项评测中表现优异 - ✅ 超长上下文:支持 262K 原生上下文,可扩展至 101 万 tokens - ✅ 多模态能力:视觉-语言任务性能出色 - ✅ 开源免费:Apache 2.0 协议,可商用
适用人群: - 开发者:提升编程效率,辅助代码审查 - 企业:构建智能应用,降低 AI 成本 - 研究者:探索大模型技术,进行二次开发
如果你正在寻找一款高性能、低成本的开源大模型,Qwen3.6-35B-A3B 绝对值得一试!
📚 相关文章推荐
你可能还想看:
- Google 重磅发布!Gemma 4 开源模型震撼登场,性能碾压 20 倍大模型
- 零成本调用 GPT-4o!2026 免费大模型 API 深度评测
- 零成本调用 GPT-4o!2026 免费大模型 API 深度评测
- 还在纠结选哪个?Claude 4、GPT-5、Gemini 2.5深度对比,2025年最适合你的大模型
- Unsloth完全指南:让大模型微调速度提升2倍,显存节省70%
📢 关注「Geek 运维」
了解更多最新 Geek 技术分享!

长按识别图中二维码,关注「Geek 运维」公众号,获取: - 最新 AI 技术资讯 - 实用技术教程和工具 - OpenClaw/Skills 使用指南 - 运维开发最佳实践 - 第一手技术资源分享
本文基于 Qwen3.6 官方技术报告和实测体验整理,如有错误欢迎指正。转载请注明出处。
评论区