E2E-Driving on Xu'Blog

E2E-Driving on Xu'Bloghttps://xuquant.com/en/tags/e2e-driving/Recent content in E2E-Driving on Xu'BlogXu'Bloghttps://xuquant.com/og-default.pnghttps://xuquant.com/og-default.pngHugo -- 0.152.2enSat, 20 Sep 2025 10:00:00 +0800Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvementhttps://xuquant.com/en/posts/autonomous-driving/basic_rl/Sat, 20 Sep 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/basic_rl/Comprehensive analysis of applying reinforcement learning to end-to-end autonomous driving, covering metric caching, Direct Preference Optimization (DPO) across action representations, and strategies for breaking sampling ceilings in iterative self-improvement.Alpamayo: Reasoning-Action Aligned VLA for Autonomous Drivinghttps://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Sat, 30 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Technical deep-dive into Nvidia's Alpamayo VLA system for autonomous driving, built on the Cosmos-Reason VLM backbone, covering tri-plane vision encoding, ego-shortcut avoidance, Cause-of-Change dataset paradigm, and reasoning-action alignment via reinforcement learning.Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPOhttps://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/Sat, 09 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/A systematic derivation of policy optimization methods for end-to-end autonomous driving: from REINFORCE through PPO to GRPO, covering advantage estimation, sampling differences between LLM and driving, multi-objective loss design, and the role of noise in diffusion-based exploration.End-to-End Autonomous Driving: From Modular Decoders to VLA Architectureshttps://xuquant.com/en/posts/autonomous-driving/e2e-autonomous-driving-evolution/Sat, 19 Jul 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/e2e-autonomous-driving-evolution/A technical survey on the architectural evolution of end-to-end autonomous driving, covering planner decoder selection (AR vs Diffusion vs Flow Matching), VLA integration strategies, and engineering best practices for data infrastructure, training optimization, and evaluation systems.Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Drivinghttps://xuquant.com/en/posts/autonomous-driving/generative-planning-nonconvex/Sat, 07 Jun 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/generative-planning-nonconvex/A first-principles analysis of why regression-based planners fail in autonomous driving: the feasible set is non-convex, MSE averages into obstacles, GMM is a patch not a solution, and generative approaches are necessary.