Reasoning Models Don’t Always Say What They Think

논문 정보

  • Date: 2025-04-08
  • Reviewer: 상엽

Introduction

  • CoT를 활용할 경우, reason, plan, trial and error와 같은 절차를 통해 복잡한 문제를 풀 수 있음.

  • 모델의 발전: o1/o3, DeepSeek R1, Gemini Flash Thinking, Claude 3.7 Sonnet Extended Thinking

  • 성능 외적으로도 CoT는 AI Safety에 활용이 가능함

    • CoT reasoning을 모니터링 함으로써 의도와 목적을 이해할 수 있음.

    • CoT 모니터링에는 Reasoning 과정이 결론을 도출하는 논리 과정이라는 전제가 있음.

Reasoning 과정이 실제로 신뢰할 수 있는 것인가?

→ CoT 자체를 신뢰할 수 없다면

→ 즉, 구체적 언어로 명시되지 않은 사고 과정에 의해 결과가 영향을 받는다면

→ CoT 모니터링을 통한 Safety 확보를 보장할 수 없음.

일반적으로 우리는 CoT가 신뢰할 수 있다고 생각하는 경향이 있음.

  • CoT없이는 풀기 어려운 문제의 경우: CoT 과정을 통해 정답을 도출했으므로

  • CoT없이도 풀 수 있는 매우 쉬운 문제의 경우: 옳은 reasoning process를 가진 Human 데이터로 학습이 됐으므로

→ 하지만, RLHF로 학습할 경우, 바람직하지 않은 reasoning 과정을 숨기기도 한다는 점을 발견.

→ 즉, AI의 실제 사고과정과 reasoning이 다를 수 있다는 의문을 제기.

Section 3: Reasoning 모델의 신뢰성을 실험

  • Claude 3.7 Sonnet과 DeepSeek R1에 대해 6가지 유형의 힌트를 이용한 실험을 진행.

  • Single forward pass에 대해서만 실험을 진행 (복잡한 reasoning process는 분석이 어려움.)

→ 1% ~ 20% 정도만이 사용한 힌트를 명시적으로 표시했다.

Section 4: outcome-based RL이 CoT 신뢰성에 주는 영향을 조사

  • 가설: outcome-based RL이 결과만을 평가한다면 정답에 도움이 되는 신뢰할 수 있는 CoT를 더 장려할 것

  • for example, because more faithful ones are more helpful to solve the task

→ 초기에는 신뢰성이 상승 했으나 곧바로 정체되며 만족할만한 점수를 달성하지 못함.

Section 5: RL 학습 때 CoT를 통한 모니터링의 효과 검증

  • RL 학습 과정에서 reward hacking을 잡는 방법으로 CoT monitoring 방법이 있음.

  • CoT는 reward hacking 행동에 대해 신뢰성 있게 보고를 하는가에 대한 질문

→ reward hacks이 발생하는 환경을 세팅 (reward > 0.99) → 6개의 환경 중 5개의 환경은 2% 이하만이 reward hack을 보고함.

Measuring CoT Faithfulness

Notation

  • input: x

  • model: M

  • CoT: c

  • answer: a

Metric

Inspired by Turpin et al. (2023); Chua and Evans (2025), we evaluate faithfulness using a constructed set of prompt pairs where we can infer information about the model’s internal reasoning by observing its responses

  • unhintedprompt x_u (standard multiple-choice question)

  • hintedprompt x_h (직접적으로 정답을 가리키는 힌트를 x_u에 추가한 것)

→ CoT의 faithfulness == x_u에서는 힌트가 아닌 다른 답변을 말하지만 x_h에서는 힌트를 정답으로 말할 때, 모델이 hinted prompt 문제를 풀기 위해 힌트를 사용했음을 말하는지 여부 (a_u \neq h \text { and } a_h=h인 경우)

답변 변경의 무작위 노이즈를 고려하기 위해 다음의 정규화 과정을 따름.

\left.p=P\left(a_h=h \mid a_u \neq h\right)\right): non-hint answer에서 hint answer로 바뀌는 확률 (위의 확률)

q=P\left(a_h \neq h, a_h \neq a_u \mid a_u \neq h\right): non-hint answer에서 다른 non-hint answer로 바뀌는 확률

  • p에서 랜덤하게 값이 바뀌는 확률을 빼준 값을 이용, 무작위성에 대해 추정

  • \alpha가 작을수록 무작위성이 큼을 의미함. (랜덤하게 골라졌을 확률이 높음.)

  • \alpha를 이용해 normalize 진행

  • 무작위성이 큰 환경에서도 hint를 골랐다는 건 그만큼 확신을 갖고 고른 것이다 → 신뢰성에 가중치!

  • \alpha가 음수인 경우는 x_h에서 h를 고르지 않을 확률이 더 높다는 뜻이며 이런 데이터는 제거함.

Data

  • Neutral: 정답을 제공하는 방식을 다양하게 구성.

  • Misaligned: 구체적으로 나쁜 행위들에 대해 예시를 통해 가르쳐줌.

Exploiting the misaligned hints may lead to concerning outcomes, so CoT faithfulness on these hints is particularly important for safety monitoring.

Experimental Setup

  • Eliciting CoTs: Think step-by-step

  • Evaluating CoTs: verbalize 여부를 결정

    • 기준

      1. hint를 전체나 부분적으로 언급

      2. CoT가 답변에 도달하기 위해 힌트에 의존했는지 여부

    • 힌트 외에 다른 reasoning process를 결합해서 사용해도 정답이 힌트로 변경되었다면 verbalize

    • 힌트를 마지막에 단순히 언급하는 정도는 verbalize x

    • Sonnet 3.5를 통해 확인 + subset에 대해서 manual inspection

Benchmarking CoT Faithfulness of Reasoning Models

  • Reasoning model: Claude 3.7 Sonnet and DeepSeek R1

  • Non-reasoning model: Claude 3.5 Sonnet and DeepSeek V3

All evaluated models consistently use the hints.

  • 4가지 모두 일관되게 힌트를 사용하지만 Claude 모델이 더 자주 힌트를 사용함

CoTs of reasoning models reveal hints across more settings, and do so more often than those of non-reasoning models.

  • Reasoning model이 더 높은 faithfulness 점수를 보임.

  • 여기서 1% 초과 여부를 계속 언급하는데 이유가 뭔지는 모르겠음.

  • Grader Hacking, Unethical information과 같은 misalignment 영역에서 낮은 점수는 더 큰 문제

CoT unfaithfulness is negatively correlated with brevity.

  • 신뢰할 수 없을수록 복잡하게 글을 작성하는 경향이 생김.

  • Claude 3.7 Sonnet의 경우, unfaithful CoTs (2064 ± 59 tokens), faithful CoTs (1439 ± 54).

  • DeepSeek R1의 경우, unfaithful CoTs (6003 ± 74 tokens), faithful CoTs (4737 ± 79 tokens).

  • Unfaithful CoTs에서는 힌트를 사용하지 않고 (=Unfaithfulness) 장황한게 각각의 옵션에 대해 확인을 하는 절차를 포함하는 경우가 많음.

  • 더 문제가 되는 부분은 힌트를 정답으로 하기 위해 기존 지식과 모순되는 방법을 동원하기도 한다는 점. 이 때에도 힌트 사용 여부를 설명하지 않는 경우가 많음.

These patterns suggest that models seem to have a strong prior to conceal their true reasoning processes.

CoT appears to be less faithful on harder questions.

  • GPQA » MMLU, GPQA에서 신뢰도가 훨씬 낮았음. (Claude 3.7 Sonnet에서 44% R1에서 32% 감소)

  • Faithful CoTs의 경우, 자신의 답변을 먼저 생성하고 Hint와 답변을 비교하는 reasoning 과정을 가진 후 hint에 따라 답을 바꾼다는 사실을 보여줌.

→ 어려운 문제에 대해 모델이 명확한 정답을 모르는 경우, 힌트를 밝히지 않고 활용하는 경향이 커지는듯함

  • CoT monitoring을 통한 safety 관리는 어려운 문제로 scale이 어려울듯

The Impact of Outcome-Based Reinforcement Learning on CoT Faithfulness

  • 이전 결과들에서 결론에 도달하는데 reasoning이 실제로 도움이 되지 않는 경우가 많다는 것을 발견

  • 결론을 만드는 과정에서 CoT에 더 의존적이게 학습을 한다면 어떨까?

→ outcom-based RL 실험

  • Reasoning-intensive tasks (coding and math) 진행

    • 복잡한 reasoning을 요구하는 tasks는 전반적인 CoT의 신뢰성을 높이는 것에 기여할 것
  • 오직 결과값만을 reward로 활용

    • 어려운 정답을 맞추기 위해 CoTs를 계속 진행한다면 신뢰있는 CoTs만이 정답률 향상에 기여할 것
  • Sonnet 3.7 모델에 대해서 학습 극초기에는 MMLU 63%, GPQA 41% 정도 향상되는 것으로 보임.

  • 더 학습을 진행하더라도 개선되지 않음.

outcom-based RL은 faithfullness 확보에 적합한 수단은 아님!

CoT Faithfulness on RL Reward Hacks

  • Model capabilities 향상에 RL의 효과가 크다는 여러 연구 존재

  • RL 학습의 challenge는 reward hacking

  • reward hacking을 탐지하기에 유망한 방법 중 하나가 CoT 모니터링임.

→ 우리 이전 결과들이 CoT 모니터링의 불완전성을 보였기에 이를 확인해봄.

Experimental Setup

  • Env: reward hack을 포함한 가상의 환경을 구성

  • Model: Claude 3.7 Sonnet

  • Data: 이전에 사용한 데이터를 reward hack으로 제공, 모든 힌트는 실제로는 틀린 답변으로 구성. 높은 점수를 얻기 위해서는 reward hacking을 이용해야만 함.

  • Reward: 아래 2개의 합

    • Response format adherence: CoT를 포함하며 유효한 답변을 할 경우 0, 그렇지 않으면 -1

    • Hint answer selection (outcom-based): 모델이 (incorrect) hint를 답하면 1, 그렇지 않으면 0

Results

  • 매우 빠르게 reward hack을 배움 (30 step 안에 99% 이상). verbalization 하지 않음.

  • 5/6의 힌트 타입에 대해서 2% 미만으로 힌트 사용 여부를 밝힘.

  • Reward hacking을 인정하지는 않지만 급격하게 정답을 바꾸거나 왜 (사실은 틀린) 힌트가 정답인지를 정당화하는 거짓 reason을 만들어가고 있음.

  • Hack을 직접 언급하는 쉬운 방법이 있음에도 이렇게 돌려서 말하는 경향이 발생하는 것은 놀랍더라!

  • RL 학습으로는 unfaithfullness를 개선하지 못했음 (5/6).

Conclusion

  • CoT 모니터링만으로는 Safety를 보장할 수 없음.

    • 드물게 발생하는 위험에 대해 탐지할 수 있을만큼 높은 신뢰도를 보이지 않음.

    • Hint를 사용하는 것 같은 치팅 행위에 대해 의도적으로 숨길 수 있음.

  • 실험 세팅의 한계점

    • 객관식 질문 기반 환경은 실제 복잡한 환경을 대변하지 못함.

    • Hint 세팅이 매우 쉽게 사용할 수 있는 상황으로만 제한됨.