Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

논문 정보

  • Date: 2025-07-15
  • Reviewer: 전민진

Abstract

  • 최근 LLM이 복잡한 reasoning task에서 괄목할만한 성능을 보이고 있으나, (모델에게) 편한 reasoning pattern에 의존하는 경향이 있음

    • 이를 Reaosning rigidity로 정의
  • 사용자의 명시적인 instruction이 있음에도 불구하고, 습관적인 reasoning trajectory를 생성, 오답으로 귀결

  • 이를 분석하기 위해 reasoning trap이라는 진단 데이터셋을 도입

    • deviation을 요구하도록 기존 데이터셋을 수정한 상태

    • 예를 들어, 모든 토끼는 불임이다. 토끼가 3쌍이 있고 토끼 한 쌍이 암수 각 1마리씩 총 2마리를 낳는다고 가정하면, 2세대를 거치면 몇마리의 토끼가 되는가? 라는 질문.

⇒ 이를 통해서 모델이 습관적으로 쓰는 contamination된 pattern을 식별할 수 있음

  • 모델이 주어진 instruction 을 무시하거나 왜곡하도록 함

  • reasoning trap을 통해서 모덷이 습관적으로 사용하는 reasoning pattern을 발견, 분류

    • interpretation overload

    • input distrust

    • partial instruction attnetion

⇒ 해당 데이터셋을 통해 LLM에 있는 reasoning rigidity를 해소하는 미래 연구를 용이하게 함

Introduction

  • LLM은 수학, 복잡한 코딩 문제, 퍼즐 풀이를 포함한 여러 어려운 태스크에서 주목할만한 성능을 보임

    • 특히 test-time scaling을 활용해 확장된 CoT prompting을 활용하는 reasoning model들이 큰 주목을 받고 있음
  • 하지만, 이러한 모델들에게 문제 행동, reasoning rigidity가 발견됨

    • 특히 긴 CoT reasoning으로 학습된 모델에게 나타남
  • reasoning rigidity는 cognitive bias를 반영, 주어진 조건을 이해해도 자기 방식대로 override, 무시하고 문제를 푸는 현상을 뜻함

⇒ 이는 기존에 언급되어왔던 hallucinataion, prompt brittlness들을 해소해도 존재할 수 있음

  • hallucination : 틀린 정보를 생성하는 것

  • prompt brittlness : 미묘한 prompt 차이에 따라 답변이 바뀜. 답변이 unstable한 현상

  • reasoning rigidity는 사용자가 서술한 제약이 중요한 도메인에서 큰 문제가 됨

    • 예를 들어, 수학이나 퍼즐 풀이의 경우, 뒤의 문제와 관계 없이 유저가 바로 정답으로 이어질 수 있는 조건을 줬을 경우, 이를 무시하면 완전히 오답이 될 수 밖에 없음

⇒ 사용자의 지시를 무의식 중에 편집하거나 무시(reasoning rigidity), 모델의 reasoning path전체가 오염, 오답으로 이어짐

  • 이러한 현상은 아주 크리티컬하나, 본 논문에서 처음으로 문제를 정의

  • reasoning rigidity를 식별할 수 있도록, 기존의 수학, 퍼즐 데이터셋을 활용해 reasoningtrap이라는 벤치마크를 제안

    • 잘 알려진 cahllenges와 닮았으나, 조건이 수정되어서 답이 완전 바뀌는 문제들로 구성

    • 모델이 습관적으로 문제를 풀 경우 오답으로 이어지는 구조로 설계

  • ReasoningTrap으로 여러 모델을 평가한 결과, 여러 중요한 현상들을 발견

    • reasoning process의 중간 단계에서 contamination이 시작

    • 이러한 contamination은 명백하게 식별 가능, 반복되는 패턴을 가짐

  • 또한, 이러한 contamination의 패턴을 3가지로 분류

    • interpretation overload, input distrust, partial insturction attention
  • Large Reasoning Models

    • LLM의 reasoning ability를 향상시키기 위해 CoT를 길게 생성하도록 학습하는 방법론이 제안

    • 또한, Qwen3의 경우 reasoning과 non-reasoning mode를 둘다 지원하는 unified fusion architecture를 공개

      • user가 모델이 긴 CoT를 생성하도록 할지 여부를 고를 수 있음
  • Instruction following of reasoning models

    • 여러 in-context examples 혹은 장황한 instruction을 넣으면 reasoning model들의 성능이 떨어진다는 것을 잘 알려짐

⇒ 즉, LRM이 user-provided example을 following하는 능력이 부족

  • 본 연구는 이와 결은 같지만, 모델이 친숙한 reaosning pattern을 고집한다는 것에 초점을 둠

  • Rigidity in reasoning models

    • 몇몇 연구들이 LLM이 reasoning할 때 rigid pattern을 보인다는 것을 지적함

      • medical domain, educational domain

      • 우리의 연구는 더 큰 도메인이 수학, 퍼즐에 초첨

    • 본 연구와 유사하게, 몇몇 논문들이 LLM이 rigidity를 탐구

      • 이러한 연구들은 LLM이 creative problem solving에 적용될 때 혹은 matha word problem의 unseen variant의 일반화 에 초점을 둠
  • Underlying reason for rigidity

    • 몇몇 연구들이 왜 LLM이 이러한 rigidity를 가지는지에 대해 분석했고, training data 혹은 optimization 방식에 임베딩된 bias를 지적

    • 한 연구에서 RL로 학습된 모델들이 exploitation이 뛰어나고, 이로 인해 높은 성능은 달성했지만 역설적이게도 non-reasoning model에 비해 좁은 knowledge coverage를 보인다고 주장

    • 다른 연구에서는 training data에 내재된 bias때문이라고 함

ReasoningTrap: Reasoning Rigidity Diagnostic Set

Data structure

  • 크게 2가지로 도메인으로 구성 : 수학(ConditionedMath), 퍼즐(PuzzleTrivial)

  • 각 데이터는 원래 Q-R-A tuple (q_orig, r_orig, a_orig)과 수정된 tuple (q_mod, r_mod, a_mod)로 구성

  • 총 164개의 데이터셋, 84개는 수학, 80개는 퍼즐

  • ConditionedMath에 있는 모든 질문은 개념적으로 다르고, 겹치지 않고, human annotator에 의해 엄격하게 검증됨

  • PuzzleTrival은 10개의 puzzle concept를 가짐

ConditionedMath: popular math benchmark with addtional conditions

  • AIME 2022-24 , MATH500 level 5를 활용해서 제작

  • 원래 질문을 수정하고, 수정된 질문이 아래 조건에 부합하는지를 확인, 필터링

    • validity : 기존 condition과 모순되는지

    • divergence : 기존 답, 풀이와 상이한지

    • existence : 답이 있는지

⇒ 문제를 수정할 때는 gpt-4o-mini활용, 필터링 할 때는 o4-mini를 사용

  • 220개의 원본 데이터를 5가지의 variant로 modified, 필터링 후에 최종 84개만 남음

PuzzleTrivial: Puzzles with subtle Modifications to Trivial Solutions

  • classic puzzle은 조건을 수정하면 급격하게 단순해지거나 답이 여러개일 수 있음

  • ambiguity를 줄이기 위해, “valid solution을 위해 가장 간단한 답을 찾아라”라는 문구를 instruction에 추가

  • 과정 자체는 위와 동일

Contamination Ratio and Early Detection Algorithm

  • 시스템적으로 reasoning model의 contamination을 측정하기 위해서, Contamination ratio를 제안

    • 친숙한 패턴에서 contaminated reasoning이 얼마나 차지하는지를 나타냄

    • 이를 자동적으로 식별하는 방법도 제안

Contamination Ratio in Synthetic Dataset

  • 모델이 문제를 풀 때, 수정된 조건을 이해하고 풀었는지 이해하지 않고 풀었는지를 구분하기 위해 metric을 도입

  • 생성된 reasoning path를 단락별로 쪼개고, 각 단락을 textual representation으로 embedding

    • openAI의 text-embedding-small model을 사용

    • 단락은 double line break를 기준으로 분리

  • 각 단락과 오리지널 문제의 reasoning path, 각 단락과 modified reasoning path와의 cosine 유사도를 계산, 둘을 비교해 original reasoning path와의 유사도가 더 높을 경우 1로 계산

    • 즉, 조건이 수정되었는데도 무시하고 습관처럼 reasoning을 했다는 뜻

Evaluation of Reasoning Rigidity

  • reasoning rigidity를 잘 관찰하기 위해, 모델이 수정된 조건을 이해했는데도 습관처럼 풀었는지 아니면 인지조차 하지 못했는지를 구분

    • 모델이 조건을 잘못 이해한 경우 / 조건을 잘 이해했으나 reasoning을 잘못한 경우
  • 이를 반영한 metric을 p-passs@k라고 정의, reasosning path에서 constraint를 인지하고 있는 경우에만 accuracy를 측정

  • constraint를 인지했는지는 모델이 생성한 reasoning path중 첫 15개의 단락과 정답, 질문을 LLM에 넣고 판단하도록 함(p_i)

Signals for Contamination in Realistic Situation

  • question만 주어지는 현실적인 상황에서, generated reasosning이 원치 않지만 친숙한 pattern으로 contaminated됐는지 자동적으로 식별하는 것을 불가능

  • 그래서 간단하게, contamination의 종류를 분류해서, 각 type별 의심스러운 pattern을 식별

  • Interpretation overload : 모델이 주어진 문제 조건을 거절하는 것으로 시작, 문제를 바로 해석하는 것보다 여러 방식으로 재해석. 보통 reasoning 중간 단계에서 발생, inconsistent 혹은 contraditory한 결론을 야기

  • Input Distrust : 모델이 번역 오류, input error, typo존재 등을 가정함. 직관적으로 바로 문제를 풀 수 있음에도 부정하고 매우 복잡하게 풀게 됨.

  • Partial Instruction Attention : 모델이 제공된 instruction의 일부분만을 선택적으로 집중

Experiments

  • ReasoningTrap을 여러 LLM에 inference

  • 실험은 CoT prompting을 사용, ‘Please reason step by step, and put your final answer within \boxed{}.\n\n{Question}’ 포맷으로 질문을 전달

  • table 2,3은 16번 sampling, 다른 실험은 4번 sampling

  • 수학 문제의 경우, exat matching으로 correctness 판단, puzzle의 경우 free-from sentence로 답이 구성되다 보니, LLM을 사용해서 정답과 모델 답변을 함께 제공해 correctness를 판단

  • 실험 결과, 대부분 reason모드일 때보다 base모드에서 더 높은 성능을 보임

    • 즉, 길게 reasoning을 하면서 습관적인 reasoning pattern을 사용, 오답으로 이어지는 경우가 많다는 것
  • Buget forcing : 버짓 마지막에 ‘Considering the limited time by the user, I have to give the solution based on the thinking directly now.</think>’를 추가하여 답을 바로 내도록 함

    • MATH500 : low 2000, medium 4000, high 6000 토큰 사용

    • AIME : low 2000, medium 6000, high 10000

  • prompt hinting : 문제에 오타 없고 지시 그대로 하라는 prompt를 추가

  • 실험 결과, budget이 커질 수록 성능이 악화됨

  • prompt로 hint를 줘도 여전히 reasoning rigidity가 존재

  • 모델 크기에 따른 실험. base모델이 성능이 전반적으로 높게 나오는 편