Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

논문 정보

Date: 2025-07-15
Reviewer: 전민진

Abstract

최근의 reasoning oriented model(LRM)은 여러 수학 데이터셋에서 높은 성능 달성을 보이나, natural instruction following에 대한 성능은 분석되지 않음
본 논문에서는 이러한 LRM들의 instruction following 능력을 분석하기 위해 MathIF라는 데이터셋을 제안, math 도메인에서의 instruction following 성능을 평가
실험 결과, reasoning을 효과적으로 하는 모델이 user direction에 따르는 것을 어려워 하는 현상 발견
- 긴 CoT dataset에 SFT하거나 RL로 학습한 모델이 답변 길이가 길어질수록 instruction following 능력이 떨어지는 현상 발견
- 간단한 개입(CoT 마지막 부분에 instruction을 다시 붙여서 넣어줌)으로 instruction following 성능을 향상시킬 수 있음을 보임

Introduction

CoT reasoning을 scaling하는 것은 reasoning ability를 향상시킴
- SFT or RLVR 사용
LRM의 경우 간단한 instruction도 following하는 것을 어려워 한다는 것을 발견

⇒ reasoning-oriented learning을 하면 모델 자체의 reasoning ability는 향상돼도 controllability는 떨어지는게 아닐까?

하지만 현재는 범용 목적의 instruction following(IF) 벤치마크만 존재

⇒ 수학 도메인에서의 IF 벤치마크를 만들고 평가해보자!

실험 결과, instruction following과 reasoning capability사이의 일종의 trade-off가 존재
- 즉, SFT 혹은 RL로 reasoning ability를 향상시킨 모델은 reasoning 성능은 올라도 IF 성능은 떨어짐
- 특히, CoT 길이가 길어질수록 IF 성능이 악화됨
contribution
- MathIF, 첫번째로 수학 도메인에서 instruction following 능력을 시스템적으로 측정하는 벤치마크 데이터셋 도입
- 23개의 LRM를 해당 벤치마크에 대해서 평가
- reasoning performance와 instruction-following사이의 trade-off가 있음을 실험적으로 보임

LRM
- high-quality long CoT by distilling from more capable LRMs or combining primitive reasoning actions
  - s1 : 적은 양의 CoT data로도 reasoning ability를 향상시킴
  - LIMO : 관련 도메인이 이미 pre-training때 포함되어 있다면, 최소한의 cognitive process를 담은 demonstration으로 reasoning capabilities를 발생시킬 수 있다고 서술
- cold-RL
  - deepseek-R1-zero로 주목 받게 된 방법론
  - SFT와 달리, cold-RL은 긴 CoT dataset에 의존하지 않고, final outcome으로 reward를 받아서 학습
  - RL과정을 간단, 가속화 하기 위해서 dynamic sampling, process-reward, off-policy guidance, CoT preference optimziation 등이 제안됨
Instruction-followiwng benchmark
- 이전의 벤치마크는 보통 user query의 completeness에 초점, proprietary language model에 의존해서 win rate를 측정하는 식으로 평가
- format constraint, multi-turn instruction, refutation instruction, compositional instruction을 따르는지를 평가
- 하지만 대부분의 IF 벤치마크는 일반적인 도메인에 집중, 상대적으로 직관적인 query를 사용

→ 이러한 도메인 차이와 long CoT의 부재는 LRM을 평가하는데에 방해가 됨

MathIF

Overview
- toy experiment로 IFEval과 FollowBench에 대한 LRM과 Instruct 모델 성능 비교

확실히 LRM의 성능이 상대적으로 낮으나, 낮은 원인이 domain shift때문인지 IF성능 때문인지는 분명하지 않음

⇒ 수학 도메인의 IF benchmark를 만들자!

- python으로 검증 가능한 constraint를 고려, 2-3개의 constraint를 합쳐서 instruction으로 부여하는 방안을 고려

- contraint를 얼마나 만족했는지를 평가하기 위해 Hard accuracy(HAcc), Soft accruacy(SAcc)로 측정

Constraint type
- length, lexical, format, affix로 크게 4가지 type으로 분류, 그 안에 sub-type을 명시
- proprietary language model에 의존하지 않기 위해서 python으로 제약을 만족했는지 검증 가능하도록 설계

Compositional Constraint
- 2-3개의 constraint를 조합해서 compositional constraint를 구축
- 같이 존재할 수 없는 constraint나 같은 subtype끼리 있으면 filtering, 그 외의 조합에서 random sampling해서 데이터셋을 구축
- 이러한 과정을 통해 30개의 dual-constraint와 15개의 triple-constraint를 구축
Math problem collection
- GSM8K, MATH-500, Minerva, Olympiad에서 90개씩 sampling
  - 초등학교부터 올림피아드 수준의 문제까지 아우르도록 함
- 각 데이터에 대해서 single, dual, triple constraint를 적용
- sanity check를 위해 사람이 직접 검수, math problem에 추가된 constraint가 모순되지 않는지 더블췍

Evaluation metric
- HAcc : constraint다 만족해야 1
- SAcc : contraint 개당 만족하면 1 아니면 0으로 계산, 평균

구체적인 언급 없으면 correctness는 contraint가 있는 상태에서 나온 답변으로 계산

Experiment

모든 LRM은 nucleus sampling(T=1.0, p=0.95)로 디코딩, 최대 답변 길이 16,384 토큰, vLLM 사용

모든 LRM은 IF성능이 하락함
- 최고 성능을 낸 Qwen3-14B마저도 50.71밖에 안됨
- 특히 deepseek-R1-distill-llama-70B나 open-reasonser-zero-32B의 경우 모델 크기에 비해서 매우 낮은 IF 성능을 보임
Qwen3 시리즈가 그나마 높은 IF 성능을 보임
모델 크기가 IF 성능을 결정하진 않음
- 같은 계열에서는 종종 경향성이 있으나, 다른 계열까지 한번에 봤을 때는 크기가 크다고 IF 성능이 보장되진 않음
명시적인 reasoning seperation (,)가 있는 모델이 전반적으로 IF 성능이 높음
- Qwen2.5-Math-1.5B, 7B-Instruct, Qwen2.5-1.5B, 7B-SimpleRL-Zoo 친구들이 명시적인 reasoning token 없는 애들 ⇒ 성능이 쏘 처참
instruction-following과 mathematical reasoning사이에 trade-off가 존재
- Diff를 보면 대부분의 모델이 constraint가 있을 때와 없을 때의 correctness차이가 큼

LRM모델이 constraint를 잘 따르는게 문제 난이도와 연관이 있는지를 살펴보기 위해 데이터셋 별로 IF성능을 표현
문제가 어려울수록 constraint를 잘 만족하지 못한다는 것을 알 수 있음

제약이 많아질수록 IF 성능 하락, 특히 2개이상부터 크게 하락..

제약조건을 만족하면서 문제를 맞추는 경우는 크지 않음
보통 제약조건 혹은 문제 하나만을 만족함 + 즉, 제약조건을 걸면 문제 풀이 성능이 하락

constraint가 있을 때와 없을 때의 성능 차이
특히, GSM8K, Minerva에서 극심 ⇒ 문제 난이도와 상관 없이 contraint가 있으면 reasoning ability가 하락

CoT가 길수록 IF 성능 하락

IF가 낮았던 Qwen2.5를 대상으로 실험, 데이터는 deepscalar를 사용, QwQ로 CoT생성, 정답을 맞추면서 너무 길지 않은 애들만 필터링해서 학습에 사용
- format reward는 think token를 포함하는지 여부로 포함하면 답이 틀려도 0.1점 줌
실험 결과, reasoning-orienteed 방법론이 reasoning성능은 향상시키지만 IF는 하락하는 것을 볼 수 있음

Figure 7

모델이 reasonign path를 종료하려고 할 때마다 wait를 걸어서 강제로 CoT길이를 늘림
CoT길이가 길어질수록 constraint instruction과 멀어져서 constraint에 대한 acc가 떨어지는 것으로 추론

Table 5

cold-RL에서 roll-out 길이를 조정하며 학습, 길어질수록 reasoning은 향상되나 IF는 떨어짐

간단하게 reasoning이 끝나갈 때 쯤에 wait을 넣고 constraint instruction을 반복해서 넣어준 경우의 성능을 측정
IF성능은 향상되나 Correctness는 하락하는 것을 볼 수 있음

Conclusion

Reasoning-oriented model들이 생각보다 instruction following 성능이 악화됨
대부분 간단한 형식에 대한 제약인데도, 제약이 있을 때와 없을 때의 성능 차이가 큰게 충격적
LLM이 정말 reasoning을 하는걸까? 그냥 답변 길이가 길어져서 발생하는 attention sink일까?

Abstract

Introduction

Related Work

MathIF

Experiment

Conclusion