Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

논문 정보

Date: 2025-07-01
Reviewer: 준원 장
Property: Reasoning

1. Introduction

Test-time scaling is trending, but longer reasoning is not always better.
Reasoning와 accuracy가 항상 상관관계를 이루지 않는다는 최신연구 존재 (Xie et al., 2025; Jin et al., 2024; Wu et al., 2025)

(연구들 안봤지만 (1) 모델이 작거나 (2) 32K, 64K까지 inference안해봐서 그럴거 같다고 생각.. o3도 아예 못푸는 lcb pro 수준이라면 예외)

여튼, 이러한 흐름에 따라 최근에 나온 용어
- Overthinking phenomenon; simple problems에도 verbose outputs을 생성하는 현상
그래서 논문은 DeepSeek-1.5B-Distill과 DeepScaler-1.5B-Preview를 가지고 reasoning length와 accuracy를 가지고 체계적인 분석을 수행하겠다!

⇒ lengthy reasoning 문제를 관측하고, 이를 해결하기 위한 학습방법론들

Concise thinking
- reward나 pre-sampling (뭔진 몰겠음..)으로 RL/SFT-training때 good accuracy를 유지하면서 상대적으로 짧은 reasoning path를 생성하는 연구 계열
Adaptive thinking
- (prompting 위주) 문제 난이도·모델 확신도에 따라 토큰 예산을 동적으로 조정하거나 조기 종료

→ lengthy reasoning path가 high accuracy를 보장하지 않는다는 실험적인 결과를 보이는 경우가 많음

Optimal Thinking
- reasoning path가 길어지면 성능이 처음엔 오르다가 다시 떨어진다는 점을 이론·실험으로 입증

(…이게 이론으로 입증이.. 되나..?)

3. Experimental Setting

Model
- DeepSeek-1.5B-Distill (Denoted as R1-Distill)
- DeepScaler-1.5B-Preview (Denoted as R1-Preview)
Dataset
- GSM8K
- MATH
Params.
- temperature T = 1.0 (most calibrated)
- top-p = 1
Notations
- question: q
- of completions: N
- {(o(q)i , l(q)_i , c(q)_i )}^{N −1}{i=0}
  - o(): output
  - l(): length
  - l(): correctness 여부 {0,1}

4. Sample-Level Analysis

→ q는 고정하고 길이가 다른 10개 completion을 비교해 length와 accuracy의 직접 상관을 조사

난이도에 대한 변인을 고정하고 length ↔ accuracy 관계만 볼 수 있음

Non-Linear Relationship of Sample Length and Correctness

L_r, Acc_r: r번째로 짧은 reasoning path의 평균 length/accuracy

(모든 q에 대해 10개씩 다 생성하고 가장 짧은 completion의 길이 평균: L_0)

consistent non-monotonic trend 관찰
- Distill 기준 어느정도는 길어야 best acc, 너무 길어지면 decline

(준원 뇌피셜: 일단 R1은 (1) MATH 관련 데이터는 외워서 풀것 같기 때문에 temp=1.0, top_p=1로 줘서 decoding path 길어지면 degen 발생했을것으로 예상 (2) GSM8K 유사 난이도는 거의 외웠을것이고 + 상대적으로 쉽기 때문에 1~1.5K thinking budget내로는 거의 비슷할거 같음..)

초록: q에 대한 정답 completion중 가장 짧은 거
파랑: q에 대한 정답 completion중 가장 긴거
빨강: q에 대한 오답 completion중 가장 짧은 거
노랑: q에 대한 정답 completion중 가장 긴거
R1-Preview는 MATH, GSM8K 모두 80% 이상의 질문에서 가장 짧은 샘플로 정답을 생성할 수 있음을 보임
most length한 completion중에 correct response도 있지만 incorrect response도 존재 (논문 해석 이상..)

5. Question-Level Analysis

단순하게 문제 난이도를 틀림 여부로 볼때, incorrect response가 어떤 조합에서든 response 길이가 더 길었음

N-completion별로 difficulty를 분류
- Easy: model이 10 completion 모두 정답률 100%
- Medium: model이 10 completion에서 정답률 0% < acc < 100%
- Hard: model이 10 completion에서 정답률 0%

⇒ 그러나 (1) 문제가 어려워서 lengthy한지 (2) length해져서 틀린건지 판단이 어려움

Q^{easy}{\cap} = Q^{easy}{i} \cap Q^{easy}_{j}
Q^{easy}{i/j} = Q^{easy}{i} / Q^{easy}_{j} > M_i 에서만 쉬운 문제
Q^{easy}{j/i} = Q^{easy}{j} / Q^{easy}_{i} > M_j에서만 쉬운 문제
보편적으로 쉬운 문제가 아니라 another model’s advantage set (다른모델에서 쉬운 문제)에서 오히려 lengthy generation을 보임
signficant로 보면 M_i → M_j-Adv Set을 풀때 보다 lengthy해짐

hard question에서는 Q^{hard}_{\cap}에서 보다 another model’s advantage set에서 lengthy해질 것을 기대했으나 그렇진 않음
- hard question에서 clear pattern은 없음

→ 문제가 너무 어려운 경우 모델이 어려운 문제의 난이도 증가를 인식하고 이에 대응하는 데 어려움을 겪을 수 있음 (e.g., 문제 난이도를 과소평가하여 짧게 생성)

(어떻게 실험했는지는 모르겠는데..) token length가 짧아질수록 accuracy가 올라간다.
위에 실험을 기반으로 token legnth가 짧으니 확률적으로 당연히 accuracy가 높은 답변일수록 PPL도 낮을 것

6. Effect of Length Preference Optimization

지금까지 지적된 문제들을 해결하기 위해 correct/length-balanced reward-based RL등이 소개되었음

(N» samples, ground truth label이 필요)

이를 위해 이전에 drive-out한 직관들을 가지고 간단한 실험을 진행.
- LM을 가지고 2개의 completion을 생성
- (데이터셋이 쉬웠으니) 정답 유무에 상관없이 짧은 response가 정답일 확률이 높을거라는 가정하에 짧은 response에 preference가 가해지도록 SimPO
- MATH/GSM8K training set, 8K rollout

training step을 반복할수록 accuracy 변동폭은 적으나 average token length 30%에서 60% 감소

(length decrease가 정답의 단축 때문인지, 오답의 단축 때문인지, 아니면 둘 다 때문인지…?)

SimPO가 진행됨에 따라 incorrect response의 생성이 줄어들었다.

→ (준원) 해석을 해보면,

어짜피 맞을 문제는 2 completion 다 짧을거였으니 그 중에서도 짧게 생성하도록 model 학습
틀린 문제는 2 completion 다 길게 생성했을것이나 (그 중 하나는 조금이라도 짧게 생성했을테니) 학습이 됨에 따라 조금씩 짧게 생성하도록 했을 것

7. Conclusion & Limitation

generation length와 final answer correctness에 대해서 심도 있는 분석
- 변인 통제도 신경썼고, takeaway도 많음
LM의 크기가 너무 작고, benchmark가 너무 쉬움…
- 큰 LM도 어려운 문제에 대해서 lengthy generation을 하면서 잘 못푸는 모습 (reflexion x)을 많이 관찰했는데, 관련 내용이 있었으면 좋았을듯..