rl | Unknown NLP Lab

Aug 19, 2025	ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION
Mar 11, 2025	Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
Mar 04, 2025	SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
Mar 04, 2025	Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
Jul 02, 2024	RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs
Apr 30, 2024	Training diffusion modelse with reinforcement learning