Autonomous Driving: End-to-End, VLA, and Beyond on Xu'Blog

Autonomous Driving: End-to-End, VLA, and Beyond on Xu'Bloghttps://xuquant.com/posts/autodrive/Recent content in Autonomous Driving: End-to-End, VLA, and Beyond on Xu'BlogXu'Bloghttps://xuquant.com/images/profile.jpghttps://xuquant.com/images/profile.jpgHugo -- 0.152.2enWed, 29 Apr 2026 14:00:00 +0800Qwen3.5 vs Qwen3: A Deep Architectural Comparisonhttps://xuquant.com/posts/autodrive/qwen3-vs-qwen3-5-architecture/Wed, 29 Apr 2026 14:00:00 +0800https://xuquant.com/posts/autodrive/qwen3-vs-qwen3-5-architecture/A deep architectural comparison of Qwen3.5 versus Qwen3, examining hybrid attention, native multimodal fusion, high-sparsity MoE, and partial RoPE across attention, vision, and MoE dimensionsReinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvementhttps://xuquant.com/posts/autodrive/basic_rl/Tue, 20 Jan 2026 10:00:00 +0800https://xuquant.com/posts/autodrive/basic_rl/Comprehensive analysis of applying reinforcement learning to end-to-end autonomous driving, covering metric caching, Direct Preference Optimization (DPO) across action representations, and strategies for breaking sampling ceilings in iterative self-improvement.Vision-Language-Action Models for Autonomous Driving: The Cosmos-Reason Approachhttps://xuquant.com/posts/autodrive/nvidia_vla/Sun, 11 Jan 2026 10:00:00 +0800https://xuquant.com/posts/autodrive/nvidia_vla/Technical deep-dive into Nvidia's Cosmos-Reason (Alpamayo) VLA system for autonomous driving, covering tri-plane vision encoding, ego-shortcut avoidance, Cause-of-Change dataset paradigm, and reasoning-action alignment via reinforcement learning.End-to-End Autonomous Driving: From Modular Decoders to VLA Architectureshttps://xuquant.com/posts/autodrive/e2e-autonomous-driving-evolution/Thu, 01 May 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/e2e-autonomous-driving-evolution/A technical survey on the architectural evolution of end-to-end autonomous driving, covering planner decoder selection (AR vs Diffusion vs Flow Matching), VLA integration strategies, and engineering best practices for data infrastructure, training optimization, and evaluation systems.Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPOhttps://xuquant.com/posts/autodrive/rl-policy-optimization-e2e-driving/Wed, 30 Apr 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/rl-policy-optimization-e2e-driving/A systematic derivation of policy optimization methods for end-to-end autonomous driving: from REINFORCE through PPO to GRPO, covering advantage estimation, sampling differences between LLM and driving, multi-objective loss design, and the role of noise in diffusion-based exploration.InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modelinghttps://xuquant.com/posts/autodrive/inspatio-world-4d-simulator/Sun, 20 Apr 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/inspatio-world-4d-simulator/A deep technical analysis of InSpatio-World: a 1.3B-parameter real-time 4D world simulator that combines implicit spatiotemporal caching with explicit geometric constraints, achieving 24 FPS novel-view synthesis from monocular video.Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigmhttps://xuquant.com/posts/autodrive/ar-trajectory-tokenization/Tue, 01 Apr 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/ar-trajectory-tokenization/A deep dive into trajectory tokenization for autoregressive driving planners: from state-based discretization via k-means clustering, through token matching and reconstruction, to the AR+Diffusion paradigm and GRPO-based reinforcement learning post-training.Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Drivinghttps://xuquant.com/posts/autodrive/generative-planning-nonconvex/Sat, 15 Mar 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/generative-planning-nonconvex/A first-principles analysis of why regression-based planners fail in autonomous driving: the feasible set is non-convex, MSE averages into obstacles, GMM is a patch not a solution, and generative approaches are necessary.Multi-Head Latent Attention: Efficient KV Cache Compression in DeepSeek-V2https://xuquant.com/posts/autodrive/deepseek_series1_mla/Sat, 15 Feb 2025 10:00:00 +0800https://xuquant.com/posts/autodrive/deepseek_series1_mla/Deep technical analysis of Multi-Head Latent Attention (MLA) from DeepSeek-V2, covering low-rank KV cache compression, decoupled RoPE design, and computational cost comparison with MHA, MQA, and GQA.