Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

논문 정보

  • Date: 2025-07-15
  • Reviewer: 전민진

Abstract

  • 최근의 reasoning oriented model(LRM)은 여러 수학 데이터셋에서 높은 성능 달성을 보이나, natural instruction following에 대한 성능은 분석되지 않음

  • 본 논문에서는 이러한 LRM들의 instruction following 능력을 분석하기 위해 MathIF라는 데이터셋을 제안, math 도메인에서의 instruction following 성능을 평가

  • 실험 결과, reasoning을 효과적으로 하는 모델이 user direction에 따르는 것을 어려워 하는 현상 발견

    • 긴 CoT dataset에 SFT하거나 RL로 학습한 모델이 답변 길이가 길어질수록 instruction following 능력이 떨어지는 현상 발견

    • 간단한 개입(CoT 마지막 부분에 instruction을 다시 붙여서 넣어줌)으로 instruction following 성능을 향상시킬 수 있음을 보임

Introduction

  • CoT reasoning을 scaling하는 것은 reasoning ability를 향상시킴

    • SFT or RLVR 사용
  • LRM의 경우 간단한 instruction도 following하는 것을 어려워 한다는 것을 발견

⇒ reasoning-oriented learning을 하면 모델 자체의 reasoning ability는 향상돼도 controllability는 떨어지는게 아닐까?

  • 하지만 현재는 범용 목적의 instruction following(IF) 벤치마크만 존재

⇒ 수학 도메인에서의 IF 벤치마크를 만들고 평가해보자!

  • 실험 결과, instruction following과 reasoning capability사이의 일종의 trade-off가 존재

    • 즉, SFT 혹은 RL로 reasoning ability를 향상시킨 모델은 reasoning 성능은 올라도 IF 성능은 떨어짐

    • 특히, CoT 길이가 길어질수록 IF 성능이 악화됨

  • contribution

    • MathIF, 첫번째로 수학 도메인에서 instruction following 능력을 시스템적으로 측정하는 벤치마크 데이터셋 도입

    • 23개의 LRM를 해당 벤치마크에 대해서 평가

    • reasoning performance와 instruction-following사이의 trade-off가 있음을 실험적으로 보임

  • LRM

    • high-quality long CoT by distilling from more capable LRMs or combining primitive reasoning actions

      • s1 : 적은 양의 CoT data로도 reasoning ability를 향상시킴

      • LIMO : 관련 도메인이 이미 pre-training때 포함되어 있다면, 최소한의 cognitive process를 담은 demonstration으로 reasoning capabilities를 발생시킬 수 있다고 서술

    • cold-RL

      • deepseek-R1-zero로 주목 받게 된 방법론

      • SFT와 달리, cold-RL은 긴 CoT dataset에 의존하지 않고, final outcome으로 reward를 받아서 학습

      • RL과정을 간단, 가속화 하기 위해서 dynamic sampling, process-reward, off-policy guidance, CoT preference optimziation 등이 제안됨

  • Instruction-followiwng benchmark

    • 이전의 벤치마크는 보통 user query의 completeness에 초점, proprietary language model에 의존해서 win rate를 측정하는 식으로 평가

    • format constraint, multi-turn instruction, refutation instruction, compositional instruction을 따르는지를 평가

    • 하지만 대부분의 IF 벤치마크는 일반적인 도메인에 집중, 상대적으로 직관적인 query를 사용

→ 이러한 도메인 차이와 long CoT의 부재는 LRM을 평가하는데에 방해가 됨

MathIF

  • Overview

    • toy experiment로 IFEval과 FollowBench에 대한 LRM과 Instruct 모델 성능 비교
  • 확실히 LRM의 성능이 상대적으로 낮으나, 낮은 원인이 domain shift때문인지 IF성능 때문인지는 분명하지 않음

⇒ 수학 도메인의 IF benchmark를 만들자!

- python으로 검증 가능한 constraint를 고려, 2-3개의 constraint를 합쳐서 instruction으로 부여하는 방안을 고려

- contraint를 얼마나 만족했는지를 평가하기 위해 Hard accuracy(HAcc), Soft accruacy(SAcc)로 측정
  • Constraint type

    • length, lexical, format, affix로 크게 4가지 type으로 분류, 그 안에 sub-type을 명시

    • proprietary language model에 의존하지 않기 위해서 python으로 제약을 만족했는지 검증 가능하도록 설계

  • Compositional Constraint

    • 2-3개의 constraint를 조합해서 compositional constraint를 구축

    • 같이 존재할 수 없는 constraint나 같은 subtype끼리 있으면 filtering, 그 외의 조합에서 random sampling해서 데이터셋을 구축

    • 이러한 과정을 통해 30개의 dual-constraint와 15개의 triple-constraint를 구축

  • Math problem collection

    • GSM8K, MATH-500, Minerva, Olympiad에서 90개씩 sampling

      • 초등학교부터 올림피아드 수준의 문제까지 아우르도록 함
    • 각 데이터에 대해서 single, dual, triple constraint를 적용

    • sanity check를 위해 사람이 직접 검수, math problem에 추가된 constraint가 모순되지 않는지 더블췍

  • Evaluation metric

    • HAcc : constraint다 만족해야 1

    • SAcc : contraint 개당 만족하면 1 아니면 0으로 계산, 평균

  • 구체적인 언급 없으면 correctness는 contraint가 있는 상태에서 나온 답변으로 계산

Experiment

  • 모든 LRM은 nucleus sampling(T=1.0, p=0.95)로 디코딩, 최대 답변 길이 16,384 토큰, vLLM 사용
  • 모든 LRM은 IF성능이 하락함

    • 최고 성능을 낸 Qwen3-14B마저도 50.71밖에 안됨

    • 특히 deepseek-R1-distill-llama-70B나 open-reasonser-zero-32B의 경우 모델 크기에 비해서 매우 낮은 IF 성능을 보임

  • Qwen3 시리즈가 그나마 높은 IF 성능을 보임

  • 모델 크기가 IF 성능을 결정하진 않음

    • 같은 계열에서는 종종 경향성이 있으나, 다른 계열까지 한번에 봤을 때는 크기가 크다고 IF 성능이 보장되진 않음
  • 명시적인 reasoning seperation (,)가 있는 모델이 전반적으로 IF 성능이 높음

    • Qwen2.5-Math-1.5B, 7B-Instruct, Qwen2.5-1.5B, 7B-SimpleRL-Zoo 친구들이 명시적인 reasoning token 없는 애들 ⇒ 성능이 쏘 처참
  • instruction-following과 mathematical reasoning사이에 trade-off가 존재

    • Diff를 보면 대부분의 모델이 constraint가 있을 때와 없을 때의 correctness차이가 큼
  • LRM모델이 constraint를 잘 따르는게 문제 난이도와 연관이 있는지를 살펴보기 위해 데이터셋 별로 IF성능을 표현

  • 문제가 어려울수록 constraint를 잘 만족하지 못한다는 것을 알 수 있음

  • 제약이 많아질수록 IF 성능 하락, 특히 2개이상부터 크게 하락..
  • 제약조건을 만족하면서 문제를 맞추는 경우는 크지 않음

  • 보통 제약조건 혹은 문제 하나만을 만족함 + 즉, 제약조건을 걸면 문제 풀이 성능이 하락

  • constraint가 있을 때와 없을 때의 성능 차이

  • 특히, GSM8K, Minerva에서 극심 ⇒ 문제 난이도와 상관 없이 contraint가 있으면 reasoning ability가 하락

  • CoT가 길수록 IF 성능 하락
  • IF가 낮았던 Qwen2.5를 대상으로 실험, 데이터는 deepscalar를 사용, QwQ로 CoT생성, 정답을 맞추면서 너무 길지 않은 애들만 필터링해서 학습에 사용

    • format reward는 think token를 포함하는지 여부로 포함하면 답이 틀려도 0.1점 줌
  • 실험 결과, reasoning-orienteed 방법론이 reasoning성능은 향상시키지만 IF는 하락하는 것을 볼 수 있음

Figure 7

  • 모델이 reasonign path를 종료하려고 할 때마다 wait를 걸어서 강제로 CoT길이를 늘림

  • CoT길이가 길어질수록 constraint instruction과 멀어져서 constraint에 대한 acc가 떨어지는 것으로 추론

Table 5

  • cold-RL에서 roll-out 길이를 조정하며 학습, 길어질수록 reasoning은 향상되나 IF는 떨어짐
  • 간단하게 reasoning이 끝나갈 때 쯤에 wait을 넣고 constraint instruction을 반복해서 넣어준 경우의 성능을 측정

  • IF성능은 향상되나 Correctness는 하락하는 것을 볼 수 있음

Conclusion

  • Reasoning-oriented model들이 생각보다 instruction following 성능이 악화됨

  • 대부분 간단한 형식에 대한 제약인데도, 제약이 있을 때와 없을 때의 성능 차이가 큰게 충격적

  • LLM이 정말 reasoning을 하는걸까? 그냥 답변 길이가 길어져서 발생하는 attention sink일까?