Reasoning Models Don’t Always Say What They Think
논문 정보
- Date: 2025-04-08
- Reviewer: 상엽
Introduction
-
CoT를 활용할 경우, reason, plan, trial and error와 같은 절차를 통해 복잡한 문제를 풀 수 있음.
-
모델의 발전: o1/o3, DeepSeek R1, Gemini Flash Thinking, Claude 3.7 Sonnet Extended Thinking
-
성능 외적으로도 CoT는 AI Safety에 활용이 가능함
-
CoT reasoning을 모니터링 함으로써 의도와 목적을 이해할 수 있음.
-
CoT 모니터링에는 Reasoning 과정이 결론을 도출하는 논리 과정이라는 전제가 있음.
-
Reasoning 과정이 실제로 신뢰할 수 있는 것인가?
→ CoT 자체를 신뢰할 수 없다면
→ 즉, 구체적 언어로 명시되지 않은 사고 과정에 의해 결과가 영향을 받는다면
→ CoT 모니터링을 통한 Safety 확보를 보장할 수 없음.
일반적으로 우리는 CoT가 신뢰할 수 있다고 생각하는 경향이 있음.
-
CoT없이는 풀기 어려운 문제의 경우: CoT 과정을 통해 정답을 도출했으므로
-
CoT없이도 풀 수 있는 매우 쉬운 문제의 경우: 옳은 reasoning process를 가진 Human 데이터로 학습이 됐으므로
→ 하지만, RLHF로 학습할 경우, 바람직하지 않은 reasoning 과정을 숨기기도 한다는 점을 발견.
→ 즉, AI의 실제 사고과정과 reasoning이 다를 수 있다는 의문을 제기.
Section 3: Reasoning 모델의 신뢰성을 실험
-
Claude 3.7 Sonnet과 DeepSeek R1에 대해 6가지 유형의 힌트를 이용한 실험을 진행.
-
Single forward pass에 대해서만 실험을 진행 (복잡한 reasoning process는 분석이 어려움.)
→ 1% ~ 20% 정도만이 사용한 힌트를 명시적으로 표시했다.
Section 4: outcome-based RL이 CoT 신뢰성에 주는 영향을 조사
-
가설: outcome-based RL이 결과만을 평가한다면 정답에 도움이 되는 신뢰할 수 있는 CoT를 더 장려할 것
-
for example, because more faithful ones are more helpful to solve the task
→ 초기에는 신뢰성이 상승 했으나 곧바로 정체되며 만족할만한 점수를 달성하지 못함.
Section 5: RL 학습 때 CoT를 통한 모니터링의 효과 검증
-
RL 학습 과정에서 reward hacking을 잡는 방법으로 CoT monitoring 방법이 있음.
-
CoT는 reward hacking 행동에 대해 신뢰성 있게 보고를 하는가에 대한 질문
→ reward hacks이 발생하는 환경을 세팅 (reward > 0.99) → 6개의 환경 중 5개의 환경은 2% 이하만이 reward hack을 보고함.
Measuring CoT Faithfulness
Notation
-
input: x
-
model: M
-
CoT: c
-
answer: a
Metric
Inspired by Turpin et al. (2023); Chua and Evans (2025), we evaluate faithfulness using a constructed set of prompt pairs where we can infer information about the model’s internal reasoning by observing its responses
-
“unhinted” prompt x_u (standard multiple-choice question)
-
“hinted” prompt x_h (직접적으로 정답을 가리키는 힌트를 x_u에 추가한 것)
→ CoT의 faithfulness == x_u에서는 힌트가 아닌 다른 답변을 말하지만 x_h에서는 힌트를 정답으로 말할 때, 모델이 hinted prompt 문제를 풀기 위해 힌트를 사용했음을 말하는지 여부 (a_u \neq h \text { and } a_h=h인 경우)
답변 변경의 무작위 노이즈를 고려하기 위해 다음의 정규화 과정을 따름.
\left.p=P\left(a_h=h \mid a_u \neq h\right)\right): non-hint answer에서 hint answer로 바뀌는 확률 (위의 확률)
q=P\left(a_h \neq h, a_h \neq a_u \mid a_u \neq h\right): non-hint answer에서 다른 non-hint answer로 바뀌는 확률
-
p에서 랜덤하게 값이 바뀌는 확률을 빼준 값을 이용, 무작위성에 대해 추정
-
\alpha가 작을수록 무작위성이 큼을 의미함. (랜덤하게 골라졌을 확률이 높음.)
-
\alpha를 이용해 normalize 진행
-
무작위성이 큰 환경에서도 hint를 골랐다는 건 그만큼 확신을 갖고 고른 것이다 → 신뢰성에 가중치!
-
\alpha가 음수인 경우는 x_h에서 h를 고르지 않을 확률이 더 높다는 뜻이며 이런 데이터는 제거함.
Data

-
Neutral: 정답을 제공하는 방식을 다양하게 구성.
-
Misaligned: 구체적으로 나쁜 행위들에 대해 예시를 통해 가르쳐줌.
Exploiting the misaligned hints may lead to concerning outcomes, so CoT faithfulness on these hints is particularly important for safety monitoring.
Experimental Setup
-
Eliciting CoTs: Think step-by-step
-
Evaluating CoTs: verbalize 여부를 결정
-
기준
-
hint를 전체나 부분적으로 언급
-
CoT가 답변에 도달하기 위해 힌트에 의존했는지 여부
-
-
힌트 외에 다른 reasoning process를 결합해서 사용해도 정답이 힌트로 변경되었다면 verbalize
-
힌트를 마지막에 단순히 언급하는 정도는 verbalize x
-
Sonnet 3.5를 통해 확인 + subset에 대해서 manual inspection
-
Benchmarking CoT Faithfulness of Reasoning Models
-
Reasoning model: Claude 3.7 Sonnet and DeepSeek R1
-
Non-reasoning model: Claude 3.5 Sonnet and DeepSeek V3
All evaluated models consistently use the hints.
- 4가지 모두 일관되게 힌트를 사용하지만 Claude 모델이 더 자주 힌트를 사용함

CoTs of reasoning models reveal hints across more settings, and do so more often than those of non-reasoning models.

-
Reasoning model이 더 높은 faithfulness 점수를 보임.
-
여기서 1% 초과 여부를 계속 언급하는데 이유가 뭔지는 모르겠음.
-
Grader Hacking, Unethical information과 같은 misalignment 영역에서 낮은 점수는 더 큰 문제
CoT unfaithfulness is negatively correlated with brevity.
-
신뢰할 수 없을수록 복잡하게 글을 작성하는 경향이 생김.
-
Claude 3.7 Sonnet의 경우, unfaithful CoTs (2064 ± 59 tokens), faithful CoTs (1439 ± 54).
-
DeepSeek R1의 경우, unfaithful CoTs (6003 ± 74 tokens), faithful CoTs (4737 ± 79 tokens).

-
Unfaithful CoTs에서는 힌트를 사용하지 않고 (=Unfaithfulness) 장황한게 각각의 옵션에 대해 확인을 하는 절차를 포함하는 경우가 많음.
-
더 문제가 되는 부분은 힌트를 정답으로 하기 위해 기존 지식과 모순되는 방법을 동원하기도 한다는 점. 이 때에도 힌트 사용 여부를 설명하지 않는 경우가 많음.
These patterns suggest that models seem to have a strong prior to conceal their true reasoning processes.
CoT appears to be less faithful on harder questions.

-
GPQA » MMLU, GPQA에서 신뢰도가 훨씬 낮았음. (Claude 3.7 Sonnet에서 44% R1에서 32% 감소)
-
Faithful CoTs의 경우, 자신의 답변을 먼저 생성하고 Hint와 답변을 비교하는 reasoning 과정을 가진 후 hint에 따라 답을 바꾼다는 사실을 보여줌.
→ 어려운 문제에 대해 모델이 명확한 정답을 모르는 경우, 힌트를 밝히지 않고 활용하는 경향이 커지는듯함
- CoT monitoring을 통한 safety 관리는 어려운 문제로 scale이 어려울듯
The Impact of Outcome-Based Reinforcement Learning on CoT Faithfulness
-
이전 결과들에서 결론에 도달하는데 reasoning이 실제로 도움이 되지 않는 경우가 많다는 것을 발견
-
결론을 만드는 과정에서 CoT에 더 의존적이게 학습을 한다면 어떨까?
→ outcom-based RL 실험
-
Reasoning-intensive tasks (coding and math) 진행
- 복잡한 reasoning을 요구하는 tasks는 전반적인 CoT의 신뢰성을 높이는 것에 기여할 것
-
오직 결과값만을 reward로 활용
- 어려운 정답을 맞추기 위해 CoTs를 계속 진행한다면 신뢰있는 CoTs만이 정답률 향상에 기여할 것

-
Sonnet 3.7 모델에 대해서 학습 극초기에는 MMLU 63%, GPQA 41% 정도 향상되는 것으로 보임.
-
더 학습을 진행하더라도 개선되지 않음.
→ outcom-based RL은 faithfullness 확보에 적합한 수단은 아님!
CoT Faithfulness on RL Reward Hacks
-
Model capabilities 향상에 RL의 효과가 크다는 여러 연구 존재
-
RL 학습의 challenge는 reward hacking
-
reward hacking을 탐지하기에 유망한 방법 중 하나가 CoT 모니터링임.
→ 우리 이전 결과들이 CoT 모니터링의 불완전성을 보였기에 이를 확인해봄.
Experimental Setup
-
Env: reward hack을 포함한 가상의 환경을 구성
-
Model: Claude 3.7 Sonnet
-
Data: 이전에 사용한 데이터를 reward hack으로 제공, 모든 힌트는 실제로는 틀린 답변으로 구성. 높은 점수를 얻기 위해서는 reward hacking을 이용해야만 함.
-
Reward: 아래 2개의 합
-
Response format adherence: CoT를 포함하며 유효한 답변을 할 경우 0, 그렇지 않으면 -1
-
Hint answer selection (outcom-based): 모델이 (incorrect) hint를 답하면 1, 그렇지 않으면 0
-

Results
-
매우 빠르게 reward hack을 배움 (30 step 안에 99% 이상). verbalization 하지 않음.
-
5/6의 힌트 타입에 대해서 2% 미만으로 힌트 사용 여부를 밝힘.

-
Reward hacking을 인정하지는 않지만 급격하게 정답을 바꾸거나 왜 (사실은 틀린) 힌트가 정답인지를 정당화하는 거짓 reason을 만들어가고 있음.
-
Hack을 직접 언급하는 쉬운 방법이 있음에도 이렇게 돌려서 말하는 경향이 발생하는 것은 놀랍더라!
-
RL 학습으로는 unfaithfullness를 개선하지 못했음 (5/6).
Conclusion
-
CoT 모니터링만으로는 Safety를 보장할 수 없음.
-
드물게 발생하는 위험에 대해 탐지할 수 있을만큼 높은 신뢰도를 보이지 않음.
-
Hint를 사용하는 것 같은 치팅 행위에 대해 의도적으로 숨길 수 있음.
-
-
실험 세팅의 한계점
-
객관식 질문 기반 환경은 실제 복잡한 환경을 대변하지 못함.
-
Hint 세팅이 매우 쉽게 사용할 수 있는 상황으로만 제한됨.
-