中文版本: 阅读中文版
Based on Qwen3.5 official technical documentation and code structure analysis.
交互式架构对比
下面是 Qwen3-VL 与 Qwen3.5 的交互式架构可视化,支持 Tab 切换、拖拽平移、滚轮缩放,点击节点查看详细信息。
操作提示:点击顶部 Tab 切换 Qwen3-VL / Qwen3.5 / Compare 视图;滚轮缩放;拖拽平移;点击节点查看参数详情。
1. 注意力机制:根本性重构
这是最大的代际差异。Qwen3 用标准 Transformer 注意力,Qwen3.5 引入了混合注意力(Hybrid Attention)。
| 维度 | Qwen3 | Qwen3.5 |
|---|---|---|
| 注意力类型 | 标准 Softmax 注意力 | 混合注意力:Gated DeltaNet (线性) + Full Attention |
| 层间比例 | 全部是 Full Attention | 3:1 — 每 3 层线性注意力 + 1 层完整注意力 |
| 复杂度 | O(L²·d) | O(L·d²),近线性 |
| KV Cache | 存储全部历史 KV 对,随序列线性增长 | 75% 的层用固定大小循环状态 S_t,不缓存 KV |
| 长文本衰减 | 有 | 线性层有衰减,但每隔 4 层 Full Attention 做"上下文刷新" |
| 序列并行 | 支持 | 不支持(注意力实现不兼容) |
1.1 Gated DeltaNet 状态更新公式
| |
β_t= 门控参数(控制记忆保留/遗忘)Δ_t= 增量更新参数(精确修改特定位置,不是全量覆写)- 状态空间固定 O(1),不随序列长度增长
1.2 层分布示例(24 层模型)
| |
配置参数:
| |
1.3 KV Cache 内存对比
| 序列长度 | 纯 Full Attention | 纯线性注意力 | 混合 (3:1) |
|---|---|---|---|
| 32K | 8 GB | 256 MB | ~2.7 GB |
| 128K | 128 GB | 1 GB | ~34 GB |
| 262K | 512 GB | 2 GB | ~130 GB |
混合方案在 128K 序列长度下,KV Cache 内存减少 73%。
1.4 计算量对比(24 层, 32K 序列)
| 策略 | Full Attn 层数 | Linear Attn 层数 | 相对计算量 |
|---|---|---|---|
| 纯 Full Attention | 24 | 0 | 100% |
| 纯线性注意力 | 0 | 24 | ~25% |
| 混合 (interval=4) | 6 | 18 | ~44% |
混合方案节省 56% 计算量,同时保持模型质量。
2. 视觉编码器:从 DeepStack 多层注入到联合训练
| 维度 | Qwen3-VL | Qwen3.5 |
|---|---|---|
| Vision Encoder 架构 | SigLIP2, 24层, patch_size=16, merge_size=2 | 完全相同 |
| DeepStack | deepstack_visual_indexes: [5, 11, 17] 三层注入 | deepstack_visual_indexes: [] 关闭 |
| 融合架构 | Late Fusion(ViT + tokenizer 独立编码后拼接) | 仍是 Late Fusion |
| 训练策略 | ViT 预训练 → LLM 预训练 → 对齐微调 + DeepStack 补丁 | 从预训练第一步就多模态联合训练 |
关键变化
DeepStack 被移除:Qwen3-VL 的 DeepStack 从 ViT 的第 5、11、17 层提取多尺度特征,通过 3 个 Merger 以残差加法注入 LLM 前 3 层——这是对"LLM 预训练不看视觉 token"的工程补丁。Qwen3.5 将其完全移除(
deepstack_visual_indexes = [])。Early Training, not Early Fusion:Qwen3.5 的 Vision Encoder 架构参数与 Qwen3-VL 完全相同,视觉 token 化管线也完全保留。其本质是训练策略的改变——从预训练阶段就将视觉和语言数据联合输入,用 joint loss 监督;它并未达到学术意义上的 Early Fusion(模态在底层共享表示空间)。当模型从第一步就同时处理两种模态时,LLM 的每一层注意力自然学会跨模态路由,DeepStack 补丁不再必要。
3. 线性注意力层的独特参数(Qwen3.5 新增)
这些 SSM 组件是 Gated DeltaNet 的核心,Qwen3 完全没有:
| 参数 | 作用 |
|---|---|
conv1d.weight | 1D 卷积(kernel size=4),捕获局部依赖,补偿线性注意力的弱局部建模 |
A_log | 状态转移矩阵(log 存储,加载时取 -exp(A_log) 保证数值稳定) |
dt_proj (weight + bias) | 时间步门控投影,生成动态门控参数(Gated DeltaNet 自适应记忆更新的核心) |
D_proj | 残差/跳跃连接,增强梯度回传,提高训练稳定性 |
线性注意力专用配置参数:
| 参数 | 说明 | 典型值 |
|---|---|---|
linear_conv_kernel_dim | 1D 卷积核大小 | 4 |
linear_key_head_dim | Key 向量头维度 | 128 |
linear_value_head_dim | Value 向量头维度 | 128 |
linear_num_key_heads | Key 头数(决定记忆容量上限) | 16 |
linear_num_value_heads | Value 头数(决定输出维度) | 16 |
4. MoE 架构升级
| 维度 | Qwen3-MoE | Qwen3.5-MoE |
|---|---|---|
| 稀疏度 | 基础 MoE | 高稀疏 MoE,激活比 < 5% |
| 路由策略 | — | Top-8 路由,64 个专家 + 共享专家 |
| 与注意力结合 | 独立 | MoE + 混合注意力深度结合,FFN 用 MoE,注意力用混合机制 |
| 显存效率 | 标准 | 显存占用降低 60% |
MoE 版本对比:
| 模型 | 总参数 | 激活参数 | 激活比 |
|---|---|---|---|
| Qwen3.5-35B-A3B | 35B | 3B | ~8.6% |
| Qwen3.5-122B-A10B | 122B | 10B | ~8.2% |
| Qwen3.5-397B-A17B | 397B | 17B | ~4.3% |
高稀疏 MoE + 混合注意力的组合,使得超大模型(397B)仅用 17B 激活参数就能高效推理,显存和计算成本大幅降低。
5. 位置编码变化
| 维度 | Qwen3 | Qwen3.5 |
|---|---|---|
| RoPE 应用比例 | 标准比例 | partial_rotary_factor: 0.25,只对 25% 的注意力头维度应用 RoPE |
| 最大上下文 | 256K | 1M tokens |
| M-RoPE | 需要区分图像/视频 token | 同样需要,但新增 mm_token_type_ids(image=1, video=2) |
RoPE 只应用于 25% 的注意力头维度,意味着 75% 的头不受位置编码约束。这与混合注意力架构配合——线性注意力层本身不需要位置编码,Full Attention 层也只需要部分头携带位置信息,就能在 1M tokens 的超长上下文中保持质量。
6. Tool Calling 格式变化
| Qwen3 | Qwen3.5 | |
|---|---|---|
| 格式 | JSON:{"name": "...", "arguments": {...}} | XML:<function=name><parameter=key>value</parameter></function> |
| 优势 | 结构化,易于程序解析 | 更接近自然语言,模型生成更流畅 |
7. 架构代际演进总结
flowchart LR
subgraph Qwen3["Qwen3"]
A1["标准 Softmax Attention"]
A2["外挂视觉编码器"]
A3["DeepStack Merger"]
A4["基础 MoE"]
A5["标准 RoPE"]
A6["JSON Tool Calling"]
end
subgraph Qwen35["Qwen3.5"]
B1["混合注意力
(Gated DeltaNet + Full Attention)"]
B2["Joint multimodal training"]
B3["移除,更简洁的视觉架构"]
B4["高稀疏 MoE
(激活比 < 5%)"]
B5["Partial RoPE (25%)
+ 1M 上下文"]
B6["XML Tool Calling"]
end
A1 --> B1
A2 --> B2
A3 --> B3
A4 --> B4
A5 --> B5
A6 --> B6Qwen3.5 的核心设计哲学可以概括为:用结构创新换效率。混合注意力用 56% 的计算量维持质量,高稀疏 MoE 用 <5% 的激活比驱动大模型,Partial RoPE 支撑 1M 上下文——每一项都是在不牺牲(甚至提升)能力的前提下,大幅降低推理成本。
References
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
- Qwen Team, 2026. Qwen3.5-Omni Technical Report. arXiv:2604.15804
- Yang, S. et al., 2024. Gated Delta Networks: Improving Mamba2 with Delta Rule. arXiv:2412.06464
- Su, J. et al., 2021. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864
- Zhai, X. et al., 2023. Sigmoid Loss for Language Image Pre-Training (SigLIP). arXiv:2303.15343
- Meng, L. et al., 2024. DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs. arXiv:2406.04334
Related Concepts
- Partial RoPE geometry — geometric foundation of position encoding decoupling used by Qwen3.5, see /posts/mathematics/position-encoding/rope-geometry/
- MLA vs Hybrid Attention — Qwen3.5’s hybrid linear attention and DeepSeek-V2’s MLA pursue different KV cache reduction routes, see /posts/mathematics/position-encoding/mla-from-rope/