目 录CONTENT

文章目录

Qwen3.6-35B-A3B 重磅发布:阿里开源新一代 MoE 大模型,编程能力再攀高峰

Qwen3.6-35B-A3B 重磅发布:阿里开源新一代 MoE 大模型,编程能力再攀高峰

2025年4月17日,阿里巴巴通义千问团队正式开源 Qwen3.6-35B-A3B 模型。作为 Qwen3.6 系列的首个开源版本,这款模型在 Agentic Coding 和代码生成能力上实现了重大突破,35B 总参数仅激活 3B,性能却超越众多大参数模型。


一、Qwen3.6 是什么?

Qwen3.6 是阿里巴巴通义千问团队推出的最新一代大语言模型系列。继 2025年2月发布 Qwen3.5 系列后,团队在短短两个月内再次带来重磅更新。

1.1 模型定位

Qwen3.6-35B-A3B 是 Qwen3.6 系列的首个开源权重版本,主打以下特点:

  • Agentic Coding 专家:在前端工作流和仓库级代码推理方面表现卓越
  • 混合专家架构 (MoE):35B 总参数,仅激活 3B,推理成本大幅降低
  • 超长上下文:原生支持 262K tokens,可扩展至 101 万 tokens
  • 多模态能力:集成视觉编码器,支持图像理解和视频分析

1.2 核心亮点

根据官方技术报告,Qwen3.6 在以下方面实现了显著提升:

能力维度 提升重点
Agentic Coding 前端工作流处理更流畅,仓库级推理更精准
思维链保留 新增历史消息推理上下文保留选项,迭代开发更高效
多模态理解 视觉-语言任务性能大幅提升
推理能力 数学、编程、逻辑推理全面增强

二、技术架构深度解析

2.1 模型规格参数

Qwen3.6-35B-A3B 的技术规格令人印象深刻:

基础架构: - 模型类型:因果语言模型 + 视觉编码器 - 总参数量:35B - 激活参数量:3B(仅 8.6% 的参数被激活) - 隐藏层维度:2048 - 层数:40 层 - 词表大小:248,320

注意力机制: - Gated DeltaNet:32 个线性注意力头(V)+ 16 个头(QK) - Gated Attention:16 个注意力头(Q)+ 2 个头(KV) - 位置编码:RoPE 64 维

MoE 配置: - 专家数量:256 个 - 激活专家:8 个路由专家 + 1 个共享专家 - 专家中间维度:512

2.2 超长上下文支持

Qwen3.6 支持业界领先的长上下文处理能力:

  • 原生上下文长度:262,144 tokens(约 20 万字)
  • 可扩展长度:最高 1,010,000 tokens(约 75 万字)
  • 多步预测 (MTP):训练时采用多步预测,提升长文本生成质量

这意味着 Qwen3.6 可以: - 一次性处理整本技术书籍 - 分析完整的代码仓库 - 理解长视频的全部内容


三、性能评测:数据说话

3.1 编程能力评测

Qwen3.6-35B-A3B 在编程任务上表现惊艳:

评测基准 Qwen3.5-35B-A3B Qwen3.6-35B-A3B 提升幅度
SWE-bench Verified 70.0 73.4 +3.4%
SWE-bench Multilingual 60.3 67.2 +6.9%
SWE-bench Pro 44.6 49.5 +4.9%
Terminal-Bench 2.0 40.5 51.5 +11.0%
Claw-Eval Avg 65.4 68.7 +3.3%

SWE-bench 是业界公认的代码生成能力评测基准,Qwen3.6 在 Verified、Multilingual 和 Pro 三个版本上都取得了显著提升。

3.2 智能体能力评测

在智能体(Agent)任务上,Qwen3.6 同样表现出色:

评测基准 Qwen3.5-35B-A3B Qwen3.6-35B-A3B
TAU3-Bench 68.9 67.2
DeepPlanning 22.8 25.9
MCPMark 27.0 37.0
WideSearch 59.1 60.1

3.3 数学与推理能力

评测基准 Qwen3.5-35B-A3B Qwen3.6-35B-A3B 提升幅度
AIME26 91.0 92.7 +1.7%
GPQA 84.2 86.0 +1.8%
LiveCodeBench v6 74.6 80.4 +5.8%
HMMT Feb 26 78.7 83.6 +4.9%

3.4 视觉-语言能力

Qwen3.6 在多模态任务上也有显著提升:

评测基准 Qwen3.5-35B-A3B Qwen3.6-35B-A3B
MMMU 81.4 81.7
Mathvista(mini) 86.2 86.4
RealWorldQA 84.1 85.3
OmniDocBench1.5 89.3 89.9
VideoMMMU 80.4 83.7

四、实战部署教程

4.1 环境准备

系统要求: - 操作系统:Linux(推荐 Ubuntu 22.04+) - Python:3.9+ - GPU:NVIDIA GPU 显存 >= 24GB(用于 3B 激活参数推理) - CUDA:>= 11.8

安装依赖:

# 创建虚拟环境
conda create -n qwen36 python=3.10
conda activate qwen36

# 安装 PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装 Transformers
pip install transformers accelerate

# 安装其他依赖
pip install qwen-vl-utils

4.2 使用 Hugging Face Transformers

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

# 加载模型
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    torch_dtype="auto",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.6-35B-A3B")

# 准备输入
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "path/to/image.jpg"},
            {"type": "text", "text": "描述这张图片"},
        ],
    }
]

# 生成回复
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to(model.device)

# 生成
outputs = model.generate(**inputs, max_new_tokens=2048)
response = processor.batch_decode(outputs, skip_special_tokens=True)
print(response)

4.3 使用 vLLM 加速推理

对于生产环境,推荐使用 vLLM 进行高效推理:

# 安装 vLLM
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --max-model-len 262144 \
    --port 8000

4.4 使用 SGLang 部署

SGLang 是另一个高性能推理框架:

# 安装 SGLang
pip install sglang>=0.5.10

# 启动服务
python -m sglang.launch_server \
    --model-path Qwen/Qwen3.6-35B-A3B \
    --tp 1 \
    --context-length 262144

4.5 Docker 部署

# 拉取镜像
docker pull vllm/vllm-openai:latest

# 运行容器
docker run --gpus all \
    -p 8000:8000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    vllm/vllm-openai:latest \
    --model Qwen/Qwen3.6-35B-A3B \
    --max-model-len 262144

五、使用体验分享

5.1 编程助手体验

在实际使用中,Qwen3.6 展现出了强大的编程能力:

代码生成: - 能够根据自然语言描述生成完整的代码片段 - 支持多种编程语言:Python、JavaScript、Go、Rust 等 - 代码风格规范,注释清晰

代码审查: - 能够发现代码中的潜在问题 - 提供优化建议和最佳实践 - 解释复杂代码的逻辑

Bug 修复: - 根据错误信息定位问题 - 提供修复方案和代码补丁 - 解释 Bug 产生的原因

5.2 多模态理解体验

Qwen3.6 的视觉理解能力令人印象深刻:

  • 图像描述:能够准确描述图片内容,包括物体、场景、文字
  • OCR 识别:对图片中的文字识别准确率高
  • 图表理解:能够理解图表、流程图、架构图
  • 视频分析:支持长视频理解,能够总结视频内容

5.3 长文本处理能力

262K 的上下文长度在实际应用中非常有用:

  • 文档分析:可以一次性分析整份技术文档
  • 代码仓库:能够理解整个代码仓库的结构和逻辑
  • 对话历史:在长对话中保持上下文连贯性

六、与竞品模型对比

6.1 同系列对比

模型 总参数 激活参数 SWE-bench Verified
Qwen3.5-27B 27B 27B 75.0
Qwen3.5-35B-A3B 35B 3B 70.0
Qwen3.6-35B-A3B 35B 3B 73.4
Gemma4-31B 31B 31B 52.0
Gemma4-26B-A4B 26B 4B 17.4

6.2 跨系列对比

与 Claude-Sonnet-4.5 等闭源模型相比,Qwen3.6-35B-A3B 在多项评测中表现接近甚至超越:

  • Terminal-Bench 2.0:51.5 vs 42.9(Claude-Sonnet-4.5)
  • Claw-Eval:68.7 vs 48.5(Claude-Sonnet-4.5)
  • AIME26:92.7 vs 89.2(Claude-Sonnet-4.5)

七、适用场景推荐

7.1 开发者场景

  • 代码生成:根据需求生成高质量代码
  • Code Review:自动化代码审查
  • Bug 修复:辅助定位和修复 Bug
  • 技术文档:生成和翻译技术文档

7.2 企业场景

  • 智能客服:基于多模态能力的客服系统
  • 内容审核:图像和文本内容审核
  • 数据分析:图表理解和数据洞察
  • 知识库问答:基于长文档的问答系统

7.3 个人用户场景

  • 学习助手:编程学习、技术问答
  • 创作辅助:文章写作、内容创作
  • 图像理解:图片内容分析和理解
  • 视频总结:长视频内容总结

八、相关资源

官方资源

  • ModelScope: https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
  • Hugging Face: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
  • GitHub: https://github.com/QwenLM/Qwen
  • 官方博客: https://qwen.ai/blog?id=qwen3.6-35b-a3b
  • 在线体验: https://chat.qwen.ai

技术文档

  • 模型卡: 包含详细的技术规格和评测结果
  • 使用指南: 官方提供的使用教程
  • API 文档: OpenAI 兼容的 API 文档

社区资源

  • Discord 群组: Qwen 官方社区
  • GitHub Discussions: 技术讨论和问题解答
  • Stack Overflow: 问答社区

九、总结

Qwen3.6-35B-A3B 的发布标志着开源大模型在编程能力和 Agentic AI 方面又迈出了一大步。

核心优势: - ✅ 高效推理:35B 参数仅激活 3B,推理成本低 - ✅ 编程专家:在 SWE-bench 等多项评测中表现优异 - ✅ 超长上下文:支持 262K 原生上下文,可扩展至 101 万 tokens - ✅ 多模态能力:视觉-语言任务性能出色 - ✅ 开源免费:Apache 2.0 协议,可商用

适用人群: - 开发者:提升编程效率,辅助代码审查 - 企业:构建智能应用,降低 AI 成本 - 研究者:探索大模型技术,进行二次开发

如果你正在寻找一款高性能、低成本的开源大模型,Qwen3.6-35B-A3B 绝对值得一试!



📚 相关文章推荐

你可能还想看:

  1. Google 重磅发布!Gemma 4 开源模型震撼登场,性能碾压 20 倍大模型
  2. 零成本调用 GPT-4o!2026 免费大模型 API 深度评测
  3. 零成本调用 GPT-4o!2026 免费大模型 API 深度评测
  4. 还在纠结选哪个?Claude 4、GPT-5、Gemini 2.5深度对比,2025年最适合你的大模型
  5. Unsloth完全指南:让大模型微调速度提升2倍,显存节省70%

📢 关注「Geek 运维」

了解更多最新 Geek 技术分享!

关注 Geek 运维公众号

长按识别图中二维码,关注「Geek 运维」公众号,获取: - 最新 AI 技术资讯 - 实用技术教程和工具 - OpenClaw/Skills 使用指南 - 运维开发最佳实践 - 第一手技术资源分享


本文基于 Qwen3.6 官方技术报告和实测体验整理,如有错误欢迎指正。转载请注明出处。

0

评论区