RL on Xu'Blog

RL on Xu'Bloghttps://xuquant.com/en/tags/rl/Recent content in RL on Xu'BlogXu'Bloghttps://xuquant.com/og-default.pnghttps://xuquant.com/og-default.pngHugo -- 0.152.2enSat, 22 Nov 2025 10:00:00 +0800CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discoveryhttps://xuquant.com/en/posts/foundation-models/coral-autonomous-multi-agent-evolution/Sat, 22 Nov 2025 10:00:00 +0800https://xuquant.com/en/posts/foundation-models/coral-autonomous-multi-agent-evolution/How delegating evolutionary search decisions to autonomous agents—rather than relying on fixed heuristics—enables faster convergence and stronger results across mathematical and systems optimization tasks.Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvementhttps://xuquant.com/en/posts/autonomous-driving/basic_rl/Sat, 20 Sep 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/basic_rl/Comprehensive analysis of applying reinforcement learning to end-to-end autonomous driving, covering metric caching, Direct Preference Optimization (DPO) across action representations, and strategies for breaking sampling ceilings in iterative self-improvement.Alpamayo: Reasoning-Action Aligned VLA for Autonomous Drivinghttps://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Sat, 30 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Technical deep-dive into Nvidia's Alpamayo VLA system for autonomous driving, built on the Cosmos-Reason VLM backbone, covering tri-plane vision encoding, ego-shortcut avoidance, Cause-of-Change dataset paradigm, and reasoning-action alignment via reinforcement learning.Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPOhttps://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/Sat, 09 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/A systematic derivation of policy optimization methods for end-to-end autonomous driving: from REINFORCE through PPO to GRPO, covering advantage estimation, sampling differences between LLM and driving, multi-objective loss design, and the role of noise in diffusion-based exploration.Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigmhttps://xuquant.com/en/posts/autonomous-driving/ar-trajectory-tokenization/Sat, 28 Jun 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/ar-trajectory-tokenization/A deep dive into trajectory tokenization for autoregressive driving planners: from state-based discretization via k-means clustering, through token matching and reconstruction, to the AR+Diffusion paradigm and GRPO-based reinforcement learning post-training.