Qwen3.5 vs Qwen3: A Deep Architectural Comparison

中文版本: 阅读中文版

Qwen3.5-Omni Architecture Figure from Qwen3.5-Omni Technical Report

Based on Qwen3.5 official technical documentation and code structure analysis.

交互式架构对比

下面是 Qwen3-VL 与 Qwen3.5 的交互式架构可视化，支持 Tab 切换、拖拽平移、滚轮缩放，点击节点查看详细信息。

操作提示：点击顶部 Tab 切换 Qwen3-VL / Qwen3.5 / Compare 视图；滚轮缩放；拖拽平移；点击节点查看参数详情。

1. 注意力机制：根本性重构

这是最大的代际差异。Qwen3 用标准 Transformer 注意力，Qwen3.5 引入了混合注意力（Hybrid Attention）。

维度	Qwen3	Qwen3.5
注意力类型	标准 Softmax 注意力	混合注意力：Gated DeltaNet (线性) + Full Attention
层间比例	全部是 Full Attention	3:1 — 每 3 层线性注意力 + 1 层完整注意力
复杂度	O(L²·d)	O(L·d²)，近线性
KV Cache	存储全部历史 KV 对，随序列线性增长	75% 的层用固定大小循环状态 S_t，不缓存 KV
长文本衰减	有	线性层有衰减，但每隔 4 层 Full Attention 做"上下文刷新"
序列并行	支持	不支持（注意力实现不兼容）

1.1 Gated DeltaNet 状态更新公式

1
S_t = β_t ⊙ S_{t-1} + Δ_t ⊗ (K_t ⊗ V_t)

β_t = 门控参数（控制记忆保留/遗忘）
Δ_t = 增量更新参数（精确修改特定位置，不是全量覆写）
状态空间固定 O(1)，不随序列长度增长

1.2 层分布示例（24 层模型）

1
2
3
4
5
6
7
8
9
Layer 0:  linear_attention
Layer 1:  linear_attention
Layer 2:  linear_attention
Layer 3:  full_attention    ← 上下文刷新
Layer 4:  linear_attention
Layer 5:  linear_attention
Layer 6:  linear_attention
Layer 7:  full_attention    ← 上下文刷新
... 重复（full_attention_interval=4）

配置参数：

1
2
3
4
5
6
7
8
{
  "num_hidden_layers": 24,
  "layer_types": [
    "linear_attention", "linear_attention",
    "linear_attention", "full_attention"
  ],
  "full_attention_interval": 4
}

1.3 KV Cache 内存对比

序列长度	纯 Full Attention	纯线性注意力	混合 (3:1)
32K	8 GB	256 MB	~2.7 GB
128K	128 GB	1 GB	~34 GB
262K	512 GB	2 GB	~130 GB

混合方案在 128K 序列长度下，KV Cache 内存减少 73%。

1.4 计算量对比（24 层, 32K 序列）

策略	Full Attn 层数	Linear Attn 层数	相对计算量
纯 Full Attention	24	0	100%
纯线性注意力	0	24	~25%
混合 (interval=4)	6	18	~44%

混合方案节省 56% 计算量，同时保持模型质量。

2. 视觉编码器：从 DeepStack 多层注入到联合训练

维度	Qwen3-VL	Qwen3.5
Vision Encoder 架构	SigLIP2, 24层, patch_size=16, merge_size=2	完全相同
DeepStack	`deepstack_visual_indexes: [5, 11, 17]` 三层注入	`deepstack_visual_indexes: []` 关闭
融合架构	Late Fusion（ViT + tokenizer 独立编码后拼接）	仍是 Late Fusion
训练策略	ViT 预训练 → LLM 预训练 → 对齐微调 + DeepStack 补丁	从预训练第一步就多模态联合训练

关键变化

DeepStack 被移除：Qwen3-VL 的 DeepStack 从 ViT 的第 5、11、17 层提取多尺度特征，通过 3 个 Merger 以残差加法注入 LLM 前 3 层——这是对"LLM 预训练不看视觉 token"的工程补丁。Qwen3.5 将其完全移除（deepstack_visual_indexes = []）。
Early Training, not Early Fusion：Qwen3.5 的 Vision Encoder 架构参数与 Qwen3-VL 完全相同，视觉 token 化管线也完全保留。其本质是训练策略的改变——从预训练阶段就将视觉和语言数据联合输入，用 joint loss 监督；它并未达到学术意义上的 Early Fusion（模态在底层共享表示空间）。当模型从第一步就同时处理两种模态时，LLM 的每一层注意力自然学会跨模态路由，DeepStack 补丁不再必要。

3. 线性注意力层的独特参数（Qwen3.5 新增）

这些 SSM 组件是 Gated DeltaNet 的核心，Qwen3 完全没有：

参数	作用
`conv1d.weight`	1D 卷积（kernel size=4），捕获局部依赖，补偿线性注意力的弱局部建模
`A_log`	状态转移矩阵（log 存储，加载时取 `-exp(A_log)` 保证数值稳定）
`dt_proj` (weight + bias)	时间步门控投影，生成动态门控参数（Gated DeltaNet 自适应记忆更新的核心）
`D_proj`	残差/跳跃连接，增强梯度回传，提高训练稳定性

线性注意力专用配置参数：

参数	说明	典型值
`linear_conv_kernel_dim`	1D 卷积核大小	4
`linear_key_head_dim`	Key 向量头维度	128
`linear_value_head_dim`	Value 向量头维度	128
`linear_num_key_heads`	Key 头数（决定记忆容量上限）	16
`linear_num_value_heads`	Value 头数（决定输出维度）	16

4. MoE 架构升级

维度	Qwen3-MoE	Qwen3.5-MoE
稀疏度	基础 MoE	高稀疏 MoE，激活比 < 5%
路由策略	—	Top-8 路由，64 个专家 + 共享专家
与注意力结合	独立	MoE + 混合注意力深度结合，FFN 用 MoE，注意力用混合机制
显存效率	标准	显存占用降低 60%

MoE 版本对比：

模型	总参数	激活参数	激活比
Qwen3.5-35B-A3B	35B	3B	~8.6%
Qwen3.5-122B-A10B	122B	10B	~8.2%
Qwen3.5-397B-A17B	397B	17B	~4.3%

高稀疏 MoE + 混合注意力的组合，使得超大模型（397B）仅用 17B 激活参数就能高效推理，显存和计算成本大幅降低。

5. 位置编码变化

维度	Qwen3	Qwen3.5
RoPE 应用比例	标准比例	`partial_rotary_factor: 0.25`，只对 25% 的注意力头维度应用 RoPE
最大上下文	256K	1M tokens
M-RoPE	需要区分图像/视频 token	同样需要，但新增 `mm_token_type_ids`（image=1, video=2）

RoPE 只应用于 25% 的注意力头维度，意味着 75% 的头不受位置编码约束。这与混合注意力架构配合——线性注意力层本身不需要位置编码，Full Attention 层也只需要部分头携带位置信息，就能在 1M tokens 的超长上下文中保持质量。

6. Tool Calling 格式变化

	Qwen3	Qwen3.5
格式	JSON：`{"name": "...", "arguments": {...}}`	XML：`<function=name><parameter=key>value</parameter></function>`
优势	结构化，易于程序解析	更接近自然语言，模型生成更流畅

7. 架构代际演进总结

flowchart LR
    subgraph Qwen3["Qwen3"]
        A1["标准 Softmax Attention"]
        A2["外挂视觉编码器"]
        A3["DeepStack Merger"]
        A4["基础 MoE"]
        A5["标准 RoPE"]
        A6["JSON Tool Calling"]
    end

    subgraph Qwen35["Qwen3.5"]
        B1["混合注意力
(Gated DeltaNet + Full Attention)"]
        B2["Joint multimodal training"]
        B3["移除，更简洁的视觉架构"]
        B4["高稀疏 MoE
(激活比 < 5%)"]
        B5["Partial RoPE (25%)
+ 1M 上下文"]
        B6["XML Tool Calling"]
    end

    A1 --> B1
    A2 --> B2
    A3 --> B3
    A4 --> B4
    A5 --> B5
    A6 --> B6

Qwen3.5 的核心设计哲学可以概括为：用结构创新换效率。混合注意力用 56% 的计算量维持质量，高稀疏 MoE 用 <5% 的激活比驱动大模型，Partial RoPE 支撑 1M 上下文——每一项都是在不牺牲（甚至提升）能力的前提下，大幅降低推理成本。

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

Qwen Team, 2026. Qwen3.5-Omni Technical Report. arXiv:2604.15804
Yang, S. et al., 2024. Gated Delta Networks: Improving Mamba2 with Delta Rule. arXiv:2412.06464
Su, J. et al., 2021. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864
Zhai, X. et al., 2023. Sigmoid Loss for Language Image Pre-Training (SigLIP). arXiv:2303.15343
Meng, L. et al., 2024. DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs. arXiv:2406.04334

Partial RoPE geometry — geometric foundation of position encoding decoupling used by Qwen3.5, see /posts/mathematics/position-encoding/rope-geometry/
MLA vs Hybrid Attention — Qwen3.5’s hybrid linear attention and DeepSeek-V2’s MLA pursue different KV cache reduction routes, see /posts/mathematics/position-encoding/mla-from-rope/

交互式架构对比#

1. 注意力机制：根本性重构#

1.1 Gated DeltaNet 状态更新公式#

1.2 层分布示例（24 层模型）#

1.3 KV Cache 内存对比#

1.4 计算量对比（24 层, 32K 序列）#

2. 视觉编码器：从 DeepStack 多层注入到联合训练#

关键变化#

3. 线性注意力层的独特参数（Qwen3.5 新增）#

4. MoE 架构升级#

5. 位置编码变化#

6. Tool Calling 格式变化#

7. 架构代际演进总结#

References#

Related Concepts#

相关文章