Posts on Xu'Blog

Posts on Xu'Bloghttps://xuquant.com/en/posts/Recent content in Posts on Xu'BlogXu'Bloghttps://xuquant.com/og-default.pnghttps://xuquant.com/og-default.pngHugo -- 0.152.2enSat, 07 Mar 2026 14:00:00 +0800Qwen3.5 vs Qwen3: A Deep Architectural Comparisonhttps://xuquant.com/en/posts/foundation-models/qwen3-vs-qwen3-5-architecture/Sat, 07 Mar 2026 14:00:00 +0800https://xuquant.com/en/posts/foundation-models/qwen3-vs-qwen3-5-architecture/A deep architectural comparison of Qwen3.5 versus Qwen3, examining hybrid attention, joint multimodal training, high-sparsity MoE, and partial RoPE across attention, vision, and MoE dimensionsCORAL: Autonomous Multi-Agent Evolution for Open-Ended Discoveryhttps://xuquant.com/en/posts/foundation-models/coral-autonomous-multi-agent-evolution/Sat, 22 Nov 2025 10:00:00 +0800https://xuquant.com/en/posts/foundation-models/coral-autonomous-multi-agent-evolution/How delegating evolutionary search decisions to autonomous agents—rather than relying on fixed heuristics—enables faster convergence and stronger results across mathematical and systems optimization tasks.InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modelinghttps://xuquant.com/en/posts/foundation-models/inspatio-world-4d-simulator/Sat, 25 Oct 2025 10:00:00 +0800https://xuquant.com/en/posts/foundation-models/inspatio-world-4d-simulator/A deep technical analysis of InSpatio-World: a 1.3B-parameter real-time 4D world simulator that combines implicit spatiotemporal caching with explicit geometric constraints, achieving 24 FPS novel-view synthesis from monocular video.Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvementhttps://xuquant.com/en/posts/autonomous-driving/basic_rl/Sat, 20 Sep 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/basic_rl/Comprehensive analysis of applying reinforcement learning to end-to-end autonomous driving, covering metric caching, Direct Preference Optimization (DPO) across action representations, and strategies for breaking sampling ceilings in iterative self-improvement.Multi-Head Latent Attention: DeepSeek V2/V3 Engineering Viewhttps://xuquant.com/en/posts/foundation-models/deepseek_series1_mla/Sat, 13 Sep 2025 10:00:00 +0800https://xuquant.com/en/posts/foundation-models/deepseek_series1_mla/MLA from the deployment perspective of DeepSeek V2/V3: KV cache compression ratio, inference throughput, engineering comparison with GQA/MQA, and real-world gains under long context. The mathematical derivation is in the companion article.Alpamayo: Reasoning-Action Aligned VLA for Autonomous Drivinghttps://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Sat, 30 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/nvidia_vla/Technical deep-dive into Nvidia's Alpamayo VLA system for autonomous driving, built on the Cosmos-Reason VLM backbone, covering tri-plane vision encoding, ego-shortcut avoidance, Cause-of-Change dataset paradigm, and reasoning-action alignment via reinforcement learning.Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPOhttps://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/Sat, 09 Aug 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/rl-policy-optimization-e2e-driving/A systematic derivation of policy optimization methods for end-to-end autonomous driving: from REINFORCE through PPO to GRPO, covering advantage estimation, sampling differences between LLM and driving, multi-objective loss design, and the role of noise in diffusion-based exploration.End-to-End Autonomous Driving: From Modular Decoders to VLA Architectureshttps://xuquant.com/en/posts/autonomous-driving/e2e-autonomous-driving-evolution/Sat, 19 Jul 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/e2e-autonomous-driving-evolution/A technical survey on the architectural evolution of end-to-end autonomous driving, covering planner decoder selection (AR vs Diffusion vs Flow Matching), VLA integration strategies, and engineering best practices for data infrastructure, training optimization, and evaluation systems.Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigmhttps://xuquant.com/en/posts/autonomous-driving/ar-trajectory-tokenization/Sat, 28 Jun 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/ar-trajectory-tokenization/A deep dive into trajectory tokenization for autoregressive driving planners: from state-based discretization via k-means clustering, through token matching and reconstruction, to the AR+Diffusion paradigm and GRPO-based reinforcement learning post-training.Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Drivinghttps://xuquant.com/en/posts/autonomous-driving/generative-planning-nonconvex/Sat, 07 Jun 2025 10:00:00 +0800https://xuquant.com/en/posts/autonomous-driving/generative-planning-nonconvex/A first-principles analysis of why regression-based planners fail in autonomous driving: the feasible set is non-convex, MSE averages into obstacles, GMM is a patch not a solution, and generative approaches are necessary.