Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu
访客 704 人次 · 访问 1065 次