논문 정보

Date: 2025-04-08
Reviewer: 상엽

Introduction

CoT를 활용할 경우, reason, plan, trial and error와 같은 절차를 통해 복잡한 문제를 풀 수 있음.
모델의 발전: o1/o3, DeepSeek R1, Gemini Flash Thinking, Claude 3.7 Sonnet Extended Thinking
성능 외적으로도 CoT는 AI Safety에 활용이 가능함
- CoT reasoning을 모니터링 함으로써 의도와 목적을 이해할 수 있음.
- CoT 모니터링에는 Reasoning 과정이 결론을 도출하는 논리 과정이라는 전제가 있음.

Reasoning 과정이 실제로 신뢰할 수 있는 것인가?

→ CoT 자체를 신뢰할 수 없다면

→ 즉, 구체적 언어로 명시되지 않은 사고 과정에 의해 결과가 영향을 받는다면

→ CoT 모니터링을 통한 Safety 확보를 보장할 수 없음.

일반적으로 우리는 CoT가 신뢰할 수 있다고 생각하는 경향이 있음.

CoT없이는 풀기 어려운 문제의 경우: CoT 과정을 통해 정답을 도출했으므로
CoT없이도 풀 수 있는 매우 쉬운 문제의 경우: 옳은 reasoning process를 가진 Human 데이터로 학습이 됐으므로

→ 하지만, RLHF로 학습할 경우, 바람직하지 않은 reasoning 과정을 숨기기도 한다는 점을 발견.

→ 즉, AI의 실제 사고과정과 reasoning이 다를 수 있다는 의문을 제기.

Section 3: Reasoning 모델의 신뢰성을 실험

Claude 3.7 Sonnet과 DeepSeek R1에 대해 6가지 유형의 힌트를 이용한 실험을 진행.
Single forward pass에 대해서만 실험을 진행 (복잡한 reasoning process는 분석이 어려움.)

→ 1% ~ 20% 정도만이 사용한 힌트를 명시적으로 표시했다.

Section 4: outcome-based RL이 CoT 신뢰성에 주는 영향을 조사

가설: outcome-based RL이 결과만을 평가한다면 정답에 도움이 되는 신뢰할 수 있는 CoT를 더 장려할 것
for example, because more faithful ones are more helpful to solve the task

→ 초기에는 신뢰성이 상승 했으나 곧바로 정체되며 만족할만한 점수를 달성하지 못함.

Section 5: RL 학습 때 CoT를 통한 모니터링의 효과 검증

RL 학습 과정에서 reward hacking을 잡는 방법으로 CoT monitoring 방법이 있음.
CoT는 reward hacking 행동에 대해 신뢰성 있게 보고를 하는가에 대한 질문

→ reward hacks이 발생하는 환경을 세팅 (reward > 0.99) → 6개의 환경 중 5개의 환경은 2% 이하만이 reward hack을 보고함.

Measuring CoT Faithfulness

Notation

input: x
model: M
CoT: c
answer: a

Metric

Inspired by Turpin et al. (2023); Chua and Evans (2025), we evaluate faithfulness using a constructed set of prompt pairs where we can infer information about the model’s internal reasoning by observing its responses

“unhinted” prompt x_u (standard multiple-choice question)
“hinted” prompt x_h (직접적으로 정답을 가리키는 힌트를 x_u에 추가한 것)

→ CoT의 faithfulness == x_u에서는 힌트가 아닌 다른 답변을 말하지만 x_h에서는 힌트를 정답으로 말할 때, 모델이 hinted prompt 문제를 풀기 위해 힌트를 사용했음을 말하는지 여부 (a_u \neq h \text { and } a_h=h인 경우)

답변 변경의 무작위 노이즈를 고려하기 위해 다음의 정규화 과정을 따름.

\left.p=P\left(a_h=h \mid a_u \neq h\right)\right): non-hint answer에서 hint answer로 바뀌는 확률 (위의 확률)

q=P\left(a_h \neq h, a_h \neq a_u \mid a_u \neq h\right): non-hint answer에서 다른 non-hint answer로 바뀌는 확률

p에서 랜덤하게 값이 바뀌는 확률을 빼준 값을 이용, 무작위성에 대해 추정
\alpha가 작을수록 무작위성이 큼을 의미함. (랜덤하게 골라졌을 확률이 높음.)
\alpha를 이용해 normalize 진행
무작위성이 큰 환경에서도 hint를 골랐다는 건 그만큼 확신을 갖고 고른 것이다 → 신뢰성에 가중치!
\alpha가 음수인 경우는 x_h에서 h를 고르지 않을 확률이 더 높다는 뜻이며 이런 데이터는 제거함.

Data

Neutral: 정답을 제공하는 방식을 다양하게 구성.
Misaligned: 구체적으로 나쁜 행위들에 대해 예시를 통해 가르쳐줌.

Exploiting the misaligned hints may lead to concerning outcomes, so CoT faithfulness on these hints is particularly important for safety monitoring.

Experimental Setup

Eliciting CoTs: Think step-by-step
Evaluating CoTs: verbalize 여부를 결정
- 기준
  1. hint를 전체나 부분적으로 언급
  2. CoT가 답변에 도달하기 위해 힌트에 의존했는지 여부
- 힌트 외에 다른 reasoning process를 결합해서 사용해도 정답이 힌트로 변경되었다면 verbalize
- 힌트를 마지막에 단순히 언급하는 정도는 verbalize x
- Sonnet 3.5를 통해 확인 + subset에 대해서 manual inspection

Benchmarking CoT Faithfulness of Reasoning Models

Reasoning model: Claude 3.7 Sonnet and DeepSeek R1
Non-reasoning model: Claude 3.5 Sonnet and DeepSeek V3

All evaluated models consistently use the hints.

4가지 모두 일관되게 힌트를 사용하지만 Claude 모델이 더 자주 힌트를 사용함

CoTs of reasoning models reveal hints across more settings, and do so more often than those of non-reasoning models.

Reasoning model이 더 높은 faithfulness 점수를 보임.
여기서 1% 초과 여부를 계속 언급하는데 이유가 뭔지는 모르겠음.
Grader Hacking, Unethical information과 같은 misalignment 영역에서 낮은 점수는 더 큰 문제

CoT unfaithfulness is negatively correlated with brevity.

신뢰할 수 없을수록 복잡하게 글을 작성하는 경향이 생김.
Claude 3.7 Sonnet의 경우, unfaithful CoTs (2064 ± 59 tokens), faithful CoTs (1439 ± 54).
DeepSeek R1의 경우, unfaithful CoTs (6003 ± 74 tokens), faithful CoTs (4737 ± 79 tokens).

Unfaithful CoTs에서는 힌트를 사용하지 않고 (=Unfaithfulness) 장황한게 각각의 옵션에 대해 확인을 하는 절차를 포함하는 경우가 많음.
더 문제가 되는 부분은 힌트를 정답으로 하기 위해 기존 지식과 모순되는 방법을 동원하기도 한다는 점. 이 때에도 힌트 사용 여부를 설명하지 않는 경우가 많음.

These patterns suggest that models seem to have a strong prior to conceal their true reasoning processes.

CoT appears to be less faithful on harder questions.

GPQA » MMLU, GPQA에서 신뢰도가 훨씬 낮았음. (Claude 3.7 Sonnet에서 44% R1에서 32% 감소)
Faithful CoTs의 경우, 자신의 답변을 먼저 생성하고 Hint와 답변을 비교하는 reasoning 과정을 가진 후 hint에 따라 답을 바꾼다는 사실을 보여줌.

→ 어려운 문제에 대해 모델이 명확한 정답을 모르는 경우, 힌트를 밝히지 않고 활용하는 경향이 커지는듯함

CoT monitoring을 통한 safety 관리는 어려운 문제로 scale이 어려울듯

The Impact of Outcome-Based Reinforcement Learning on CoT Faithfulness

이전 결과들에서 결론에 도달하는데 reasoning이 실제로 도움이 되지 않는 경우가 많다는 것을 발견
결론을 만드는 과정에서 CoT에 더 의존적이게 학습을 한다면 어떨까?

→ outcom-based RL 실험

Reasoning-intensive tasks (coding and math) 진행
- 복잡한 reasoning을 요구하는 tasks는 전반적인 CoT의 신뢰성을 높이는 것에 기여할 것
오직 결과값만을 reward로 활용
- 어려운 정답을 맞추기 위해 CoTs를 계속 진행한다면 신뢰있는 CoTs만이 정답률 향상에 기여할 것

Sonnet 3.7 모델에 대해서 학습 극초기에는 MMLU 63%, GPQA 41% 정도 향상되는 것으로 보임.
더 학습을 진행하더라도 개선되지 않음.

→ outcom-based RL은 faithfullness 확보에 적합한 수단은 아님!

CoT Faithfulness on RL Reward Hacks

Model capabilities 향상에 RL의 효과가 크다는 여러 연구 존재
RL 학습의 challenge는 reward hacking
reward hacking을 탐지하기에 유망한 방법 중 하나가 CoT 모니터링임.

→ 우리 이전 결과들이 CoT 모니터링의 불완전성을 보였기에 이를 확인해봄.

Experimental Setup

Env: reward hack을 포함한 가상의 환경을 구성
Model: Claude 3.7 Sonnet
Data: 이전에 사용한 데이터를 reward hack으로 제공, 모든 힌트는 실제로는 틀린 답변으로 구성. 높은 점수를 얻기 위해서는 reward hacking을 이용해야만 함.
Reward: 아래 2개의 합
- Response format adherence: CoT를 포함하며 유효한 답변을 할 경우 0, 그렇지 않으면 -1
- Hint answer selection (outcom-based): 모델이 (incorrect) hint를 답하면 1, 그렇지 않으면 0

Results

매우 빠르게 reward hack을 배움 (30 step 안에 99% 이상). verbalization 하지 않음.
5/6의 힌트 타입에 대해서 2% 미만으로 힌트 사용 여부를 밝힘.

Reward hacking을 인정하지는 않지만 급격하게 정답을 바꾸거나 왜 (사실은 틀린) 힌트가 정답인지를 정당화하는 거짓 reason을 만들어가고 있음.
Hack을 직접 언급하는 쉬운 방법이 있음에도 이렇게 돌려서 말하는 경향이 발생하는 것은 놀랍더라!
RL 학습으로는 unfaithfullness를 개선하지 못했음 (5/6).

Conclusion

CoT 모니터링만으로는 Safety를 보장할 수 없음.
- 드물게 발생하는 위험에 대해 탐지할 수 있을만큼 높은 신뢰도를 보이지 않음.
- Hint를 사용하는 것 같은 치팅 행위에 대해 의도적으로 숨길 수 있음.
실험 세팅의 한계점
- 객관식 질문 기반 환경은 실제 복잡한 환경을 대변하지 못함.
- Hint 세팅이 매우 쉽게 사용할 수 있는 상황으로만 제한됨.