首页|G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

来源：

英文摘要

Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.

作者：Liang Chen、Hongcheng Gao、Tianyu Liu、Zhiqi Huang、Flood Sung、Xinyu Zhou、Yuxin Wu、Baobao Chang

作者单位：

学科分类：计算技术、计算机技术

推荐引用：Liang Chen,Hongcheng Gao,Tianyu Liu,Zhiqi Huang,Flood Sung,Xinyu Zhou,Yuxin Wu,Baobao Chang.G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning[EB/OL].(2025-05-19)[2025-06-17].https://arxiv.org/abs/2505.13426.点此复制

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

评论