Qwen3.6-35B-A3B 重磅发布：阿里开源新一代 MoE 大模型，编程能力再攀高峰

2025年4月17日，阿里巴巴通义千问团队正式开源 Qwen3.6-35B-A3B 模型。作为 Qwen3.6 系列的首个开源版本，这款模型在 Agentic Coding 和代码生成能力上实现了重大突破，35B 总参数仅激活 3B，性能却超越众多大参数模型。

一、Qwen3.6 是什么？

Qwen3.6 是阿里巴巴通义千问团队推出的最新一代大语言模型系列。继 2025年2月发布 Qwen3.5 系列后，团队在短短两个月内再次带来重磅更新。

1.1 模型定位

Qwen3.6-35B-A3B 是 Qwen3.6 系列的首个开源权重版本，主打以下特点：

Agentic Coding 专家：在前端工作流和仓库级代码推理方面表现卓越
混合专家架构 (MoE)：35B 总参数，仅激活 3B，推理成本大幅降低
超长上下文：原生支持 262K tokens，可扩展至 101 万 tokens
多模态能力：集成视觉编码器，支持图像理解和视频分析

1.2 核心亮点

根据官方技术报告，Qwen3.6 在以下方面实现了显著提升：

能力维度	提升重点
Agentic Coding	前端工作流处理更流畅，仓库级推理更精准
思维链保留	新增历史消息推理上下文保留选项，迭代开发更高效
多模态理解	视觉-语言任务性能大幅提升
推理能力	数学、编程、逻辑推理全面增强

二、技术架构深度解析

2.1 模型规格参数

Qwen3.6-35B-A3B 的技术规格令人印象深刻：

基础架构： - 模型类型：因果语言模型 + 视觉编码器 - 总参数量：35B - 激活参数量：3B（仅 8.6% 的参数被激活） - 隐藏层维度：2048 - 层数：40 层 - 词表大小：248,320

注意力机制： - Gated DeltaNet：32 个线性注意力头（V）+ 16 个头（QK） - Gated Attention：16 个注意力头（Q）+ 2 个头（KV） - 位置编码：RoPE 64 维

MoE 配置： - 专家数量：256 个 - 激活专家：8 个路由专家 + 1 个共享专家 - 专家中间维度：512

2.2 超长上下文支持

Qwen3.6 支持业界领先的长上下文处理能力：

原生上下文长度：262,144 tokens（约 20 万字）
可扩展长度：最高 1,010,000 tokens（约 75 万字）
多步预测 (MTP)：训练时采用多步预测，提升长文本生成质量

这意味着 Qwen3.6 可以： - 一次性处理整本技术书籍 - 分析完整的代码仓库 - 理解长视频的全部内容

三、性能评测：数据说话

3.1 编程能力评测

Qwen3.6-35B-A3B 在编程任务上表现惊艳：

评测基准	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B	提升幅度
SWE-bench Verified	70.0	73.4	+3.4%
SWE-bench Multilingual	60.3	67.2	+6.9%
SWE-bench Pro	44.6	49.5	+4.9%
Terminal-Bench 2.0	40.5	51.5	+11.0%
Claw-Eval Avg	65.4	68.7	+3.3%

SWE-bench 是业界公认的代码生成能力评测基准，Qwen3.6 在 Verified、Multilingual 和 Pro 三个版本上都取得了显著提升。

3.2 智能体能力评测

在智能体（Agent）任务上，Qwen3.6 同样表现出色：

评测基准	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
TAU3-Bench	68.9	67.2
DeepPlanning	22.8	25.9
MCPMark	27.0	37.0
WideSearch	59.1	60.1

3.3 数学与推理能力

评测基准	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B	提升幅度
AIME26	91.0	92.7	+1.7%
GPQA	84.2	86.0	+1.8%
LiveCodeBench v6	74.6	80.4	+5.8%
HMMT Feb 26	78.7	83.6	+4.9%

3.4 视觉-语言能力

Qwen3.6 在多模态任务上也有显著提升：

评测基准	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
MMMU	81.4	81.7
Mathvista(mini)	86.2	86.4
RealWorldQA	84.1	85.3
OmniDocBench1.5	89.3	89.9
VideoMMMU	80.4	83.7

四、实战部署教程

4.1 环境准备

系统要求： - 操作系统：Linux（推荐 Ubuntu 22.04+） - Python：3.9+ - GPU：NVIDIA GPU 显存 >= 24GB（用于 3B 激活参数推理） - CUDA：>= 11.8

安装依赖：

# 创建虚拟环境
conda create -n qwen36 python=3.10
conda activate qwen36

# 安装 PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装 Transformers
pip install transformers accelerate

# 安装其他依赖
pip install qwen-vl-utils

4.2 使用 Hugging Face Transformers

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

# 加载模型
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    torch_dtype="auto",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.6-35B-A3B")

# 准备输入
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "path/to/image.jpg"},
            {"type": "text", "text": "描述这张图片"},
        ],
    }
]

# 生成回复
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to(model.device)

# 生成
outputs = model.generate(**inputs, max_new_tokens=2048)
response = processor.batch_decode(outputs, skip_special_tokens=True)
print(response)

4.3 使用 vLLM 加速推理

对于生产环境，推荐使用 vLLM 进行高效推理：

# 安装 vLLM
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --max-model-len 262144 \
    --port 8000

4.4 使用 SGLang 部署

SGLang 是另一个高性能推理框架：

# 安装 SGLang
pip install sglang>=0.5.10

# 启动服务
python -m sglang.launch_server \
    --model-path Qwen/Qwen3.6-35B-A3B \
    --tp 1 \
    --context-length 262144

4.5 Docker 部署

# 拉取镜像
docker pull vllm/vllm-openai:latest

# 运行容器
docker run --gpus all \
    -p 8000:8000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    vllm/vllm-openai:latest \
    --model Qwen/Qwen3.6-35B-A3B \
    --max-model-len 262144

五、使用体验分享

5.1 编程助手体验

在实际使用中，Qwen3.6 展现出了强大的编程能力：

代码生成： - 能够根据自然语言描述生成完整的代码片段 - 支持多种编程语言：Python、JavaScript、Go、Rust 等 - 代码风格规范，注释清晰

代码审查： - 能够发现代码中的潜在问题 - 提供优化建议和最佳实践 - 解释复杂代码的逻辑

Bug 修复： - 根据错误信息定位问题 - 提供修复方案和代码补丁 - 解释 Bug 产生的原因

5.2 多模态理解体验

Qwen3.6 的视觉理解能力令人印象深刻：

图像描述：能够准确描述图片内容，包括物体、场景、文字
OCR 识别：对图片中的文字识别准确率高
图表理解：能够理解图表、流程图、架构图
视频分析：支持长视频理解，能够总结视频内容

5.3 长文本处理能力

262K 的上下文长度在实际应用中非常有用：

文档分析：可以一次性分析整份技术文档
代码仓库：能够理解整个代码仓库的结构和逻辑
对话历史：在长对话中保持上下文连贯性

六、与竞品模型对比

6.1 同系列对比

模型	总参数	激活参数	SWE-bench Verified
Qwen3.5-27B	27B	27B	75.0
Qwen3.5-35B-A3B	35B	3B	70.0
Qwen3.6-35B-A3B	35B	3B	73.4
Gemma4-31B	31B	31B	52.0
Gemma4-26B-A4B	26B	4B	17.4

6.2 跨系列对比

与 Claude-Sonnet-4.5 等闭源模型相比，Qwen3.6-35B-A3B 在多项评测中表现接近甚至超越：

Terminal-Bench 2.0：51.5 vs 42.9（Claude-Sonnet-4.5）
Claw-Eval：68.7 vs 48.5（Claude-Sonnet-4.5）
AIME26：92.7 vs 89.2（Claude-Sonnet-4.5）

七、适用场景推荐

7.1 开发者场景

代码生成：根据需求生成高质量代码
Code Review：自动化代码审查
Bug 修复：辅助定位和修复 Bug
技术文档：生成和翻译技术文档

7.2 企业场景

智能客服：基于多模态能力的客服系统
内容审核：图像和文本内容审核
数据分析：图表理解和数据洞察
知识库问答：基于长文档的问答系统

7.3 个人用户场景

学习助手：编程学习、技术问答
创作辅助：文章写作、内容创作
图像理解：图片内容分析和理解
视频总结：长视频内容总结

八、相关资源

官方资源

ModelScope: https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
Hugging Face: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
GitHub: https://github.com/QwenLM/Qwen
官方博客: https://qwen.ai/blog?id=qwen3.6-35b-a3b
在线体验: https://chat.qwen.ai

技术文档

模型卡: 包含详细的技术规格和评测结果
使用指南: 官方提供的使用教程
API 文档: OpenAI 兼容的 API 文档

社区资源

Discord 群组: Qwen 官方社区
GitHub Discussions: 技术讨论和问题解答
Stack Overflow: 问答社区

九、总结

Qwen3.6-35B-A3B 的发布标志着开源大模型在编程能力和 Agentic AI 方面又迈出了一大步。

核心优势： - ✅ 高效推理：35B 参数仅激活 3B，推理成本低 - ✅ 编程专家：在 SWE-bench 等多项评测中表现优异 - ✅ 超长上下文：支持 262K 原生上下文，可扩展至 101 万 tokens - ✅ 多模态能力：视觉-语言任务性能出色 - ✅ 开源免费：Apache 2.0 协议，可商用

适用人群： - 开发者：提升编程效率，辅助代码审查 - 企业：构建智能应用，降低 AI 成本 - 研究者：探索大模型技术，进行二次开发

如果你正在寻找一款高性能、低成本的开源大模型，Qwen3.6-35B-A3B 绝对值得一试！

📚 相关文章推荐

你可能还想看：

📢 关注「Geek 运维」

了解更多最新 Geek 技术分享！

关注 Geek 运维公众号

长按识别图中二维码，关注「Geek 运维」公众号，获取： - 最新 AI 技术资讯 - 实用技术教程和工具 - OpenClaw/Skills 使用指南 - 运维开发最佳实践 - 第一手技术资源分享

本文基于 Qwen3.6 官方技术报告和实测体验整理，如有错误欢迎指正。转载请注明出处。

目录CONTENT

Qwen3.6-35B-A3B 重磅发布：阿里开源新一代 MoE 大模型，编程能力再攀高峰

Qwen3.6-35B-A3B 重磅发布：阿里开源新一代 MoE 大模型，编程能力再攀高峰

一、Qwen3.6 是什么？

1.1 模型定位

1.2 核心亮点

二、技术架构深度解析

2.1 模型规格参数

2.2 超长上下文支持

三、性能评测：数据说话

3.1 编程能力评测

3.2 智能体能力评测

3.3 数学与推理能力

3.4 视觉-语言能力

四、实战部署教程

4.1 环境准备

4.2 使用 Hugging Face Transformers

4.3 使用 vLLM 加速推理

4.4 使用 SGLang 部署

4.5 Docker 部署

五、使用体验分享

5.1 编程助手体验

5.2 多模态理解体验

5.3 长文本处理能力

六、与竞品模型对比

6.1 同系列对比

6.2 跨系列对比

七、适用场景推荐

7.1 开发者场景

7.2 企业场景

7.3 个人用户场景

八、相关资源

官方资源

技术文档

社区资源

九、总结

📚 相关文章推荐

📢 关注「Geek 运维」

评论区