Are Emergent Abilities of Large Language Models a Mirage?

논문 정보

Date: 2023-12-26
Reviewer: 준원 장
Property: LLM, Evaluation Metric

0. Abstract

최근 연구들에서 small scale의 model에서는 보여지지는 않지만 larger scale model에서는 보여지는 LLM의 ability를 emergent abilities라고 정의한다.
하지만, 이 연구에서는 LLM의 emergent abilities가 task에서 사용하는 metric을 어떻게 설정하느냐에 따라서 (연구자의 선택에 의해서) 발생하는 일종의 신기루라고 설명한다.

1. Introduction

“More Is Different”
- System이 복잡해질수록, 그 system의 정교한 detail한 이해를 기반으로도 예측불가능한 (설명이 불가능한) 새로운 성질이 형성되는데, 이를 “Emergent Properties라고 한다.
Emergent Abilities of LLMs
- smaller scale model에는 없지만, larger-scale model에서는 보이는 어떤 능력.

(단순히 smaller scale model을 extrapolating하는 것은 불가능함)

GPT-3 family를 필두로 보이는 이 ‘Emergent Abilities’는 2가지 하위 속성이 있음

*Sharpness:*** **transitioning seemingly instantaneously from not present to present

(어느 순간 갑자기 선명하게 능력치가 활성화됨)

*Unpredictability***:** transitioning at seemingly unforeseeable model scales

(모델 사이즈가 커지면서 예측 불가능하게 갑자기 활성화됨)

이러한 abilities를 무엇이 언제 어떻게 control하는가?가 이 논문이 해결하고자하는 가장 큰 Reseach Question.
논문에서는 특정 task에서 model size(=논문에서는 model family의 scale변화 등등 다양한 표현 사용)의 변화에 따라서 sharp하고 unpredictable한 model output (=performance)를 보여서 LLMs이 emergent abilities을 가지는것처럼 보이는 이유가 ‘Metric’ 때문이라고 주장함.
- model의 per-token error-rate이 nonlinearly & discontinuously하게 scale한다.
또한, test set이 smaller model의 performance를 안정적으로 측정하기에는 충분하지 않아서 emergent abilities가 더 선명하게 들어난다고 주장함.
이를 위해서, 간단한 mathematical model (model scale에 따른 performance bench marking)을 제시하고, LLM의 emergent abilities에 대한 대안적인 설명/주장을 펼쳐감

2. Alternative Explantation for Emergent Abilities

LLM의 emergent abilities에 대한 대안적인 설명/주장을 하기에 없어 하나의 가정을 상정함

→ 1개의 Model Familiy내에서 Model Scale이 커짐에 따라 Test Loss는 smoothly, continuously, and predictably하게 감소함

이런 가정이 맞다고 할 수 있는 이유는 다음과 같은 선행연구들의 배경 때문 (neural scaling laws: empirical observations that deep networks exhibit power law scaling in the test loss as a function of training dataset size, number of parameters or compute)

→ 위의 논의를 조금 더 명확하게 하기 위해 mathematical model을 고안하는데, model parameter가 N>0, constant c> 0, a < 0일때 다음과 같은식들을 전개해볼 수 있다.

2A. Model’s per-token cross entropy loss

각 model의 per-token cross entropy는 parameter size N에 따라서 다음과 같이 power law를 따른다.

V가 vocab set, p^_N이 parameter 크기가 N인 model의 예측분포일때 다음과 같이 써지는데 이게 특정 token을 예측한다는 관점에서 ground truth p(v)를 모르기 때문에,

observed token v∗를 넣어서 (one-hot distribution) 대안적인 cross entropy값을 찍는다.

2B. per-token probability of selecting the correct token

위에서 구한게 결국 1개의 token에 대한 log-probability나 다름 없으니까, 이걸 확률의 영역으로 re-scaling로 해주면 다음과 같다.

2C. per-token probability of selecting the correct L token

어떤 metric이 model이 생성한 모든 token이 정확해야 맞다고 한다고 해보자. ex) 10+24= 35에서 3과 5가 모두 맞아야 1임.
2B의 관점에서 (parameter가 N인 모델에서) 각 token이 정답일 확률이 독립적(가정이 사실이 아닌건 저자들이 인정하지만 LLM emergent abilities를 보여주는데 있어서 질적으로 유사함0)일때, L개가 다 맞아서 scoring할 확률은 다음과 같이 근사할 수 있다.

** → Accuracy는 per-token error rate에 따라 scale하는데 (non-linear), approximately linear metric like Token Edit Distance로 바꾸면 LLM의 emergent abilities가 실은 없는거 아닐까?**

**Accuracy (2C)**

**Token Edit Dist=ance (2E)**

2D. discontinuous metric like Multiple Choice Grade

discontinuous metric을 사용할 때, emergent abilities를 보이는데

2F. continuous metric like Brier Score

continuous metric으로 바꾸면 그 현상을 사라지게 한다.

결론적으로 LLM의 emergent abilties는 다음과 같은 현상 때문에 발생한다고 주장.

(1) the researcher choosing a metric that nonlinearly or discontinuously scales the per-token error rate

(2) having insufficient resolution to estimate model performance in the smaller parameter regime, with resolution set (model performance를 측정할 수 있는 최소 단위) by 1/test dataset size

(3) insufficiently sampling the larger parameter regime. → 이건 해결 못한듯..

(350M, 1.3B, 6.7B, 175B)

3. Analyzing InstructGPT/GPT-3’s Emergent Arithmetic Abilities

Section 02에서 보인 LLM의 emergent abilities에 대한 대안적인 설명/주장을 실험적으로 보이기 위해 GPT/Instruct GPT를 활용해 실험을 진행.
Task는 2가지 정수를 더하거나 곱하는 2-shot ICL
위에서 주장한 LLM의 emergent abilities에 대한 대안적인 설명/주장이 사실임을 보이기 위해 아래 3가지 예측에 대한 실험을 진행

nonlinear or discontinuous metric에서 linear or continuous metric으로 metric을 갈아끼우면 model scale에 따른 performance curve가 smooth, continuous, predictable하게 변함.
For nonlinear metrics이라도 test set을 추가하면, 선택한 지표의 예측 가능한 비선형 효과에 상응하는 smooth, continuous, predictable model improvements를 보일 수 있음.
target string length가 증가하면 accuracy(non-linear)는 model performance를 geometrically하게 token-edit distance는 model performance를 quasilinearly하게 영향을 미침.

Prediction: Emergent Abilities Disappear With Different Metrics

Metric 변경하면 emergent abitilies는 사라지며 (L=5)
Token Edit Distance의 경우 L이 증가함에 따라 성능하락 폭이 approximately quasilinear manner하다.

Prediction: Emergent Abilities Disappear With Better Statistics

Test set를 추가하니 Accuracy를 사용했음에도 가장 작은 모델이 어느정도 성능은 보임을 확인할 수 있다.

(Resolution set이 그동안은 너무 작았다.)

Mathematical Model처럼 target string length가 증가함에 따라 accuracy가 geometric하게 감소한다.

4. Meta-Analysis of Claimed Emergent Abilities

→ GPT Family외에는 (연구당시) 직접 접근해서 분석할 수 있는 모델이 제한적이었기에 BIG-BENCH에 제공된 실험결과를 대상으로 위에서 진행된 논의에 대한 추가적인 논의를 이어감

→ 이를 위해 다음 2가지 prediction(가정)을 설정하고 보임

Task-Metric-Model Family가 있다고 할때, LLM의 emergent abilities는 특정 metric(nonlinear&discontinuous)에서 뚜렷하게 드러나지, Task-Model Family Pair만으로는 들어나지 않는다.
1번이 사실이라는 가정하에 metric을 변경하면 같은 task의 동일한 model output이라도 LLM의 emergent abilities가 드러나지 않을 수 있다.

Prediction: Emergent Abilities Should Appear with Metrics, not Task-Model Families

선행연구에 따라 다음과 같이 emergence score를 산정

(x_i: model scale, y_i: x_i에서의 performance, N: model familiy의 전체 scale 개수)

Meta-analysis결과 5/39개가 emergence score가 높고, hand-annotated-task-abilities기반(선행연구)으로 분석한 결과 4/39개가 높음

→ Multiple Choice Grade is discontinuous, and Exact String Match is nonlinear.

(2개가 LLM의 emergent abilities을 선명하게 들어내는데 가장 주효한 metric)

Prediction: Changing Metric Removes Emergent Abilities

LaMDA Output이 BigBENCH에서 available해서 Multiple Choice Grade(discontinuous)를 사용하는 task를 식별한 후 metric을 continuous한 Brier Score로 갈아끼움.
- ** Brier Score**

LaMDA’s emergent abilities가 metric을 바꿨을 뿐인데 사라짐 (Top→Bottom)

5. Inducing Emergent Abilities in Networks on Vision Tasks

다양성을 위해서 Vision Domain에서 추가적인 실험을 진행 (저자들 주장으로는 Vision Domain에서는 처음 한다고 함)
- shallow (i.e., single hidden layer) nonlinear autoencoders trained on CIFAR100 natural images을 가지고 recontruction error을 측정.
- 위의 metric에서 sharpness를 보이기 위해서 metric을 아래와 같이 수정함.
  - 특정 error cutoff(=c) 이하가 되어야 count가 되는 recontruction metric.

새롭게 정의된 metric하에서는 shallow autoencoder도 emergent abilities를 보임 (right)

6. Limitations

이 논문에서 주장하는 바는, LLM이 emergent abilities가 없다고 주장하는게 아니라 이전 논문에서 주장하는 일부 ‘LLM의 emergent abilities’들이 연구자들의 analyses(metric)에 만들어진 신기루일 수도 있다는 것이다. (갑자기 한발 물러섬)
다른 Private model에 대한 제한된 분석 (PaLM 1, Gopher, Chinchilla) .. 어쩔 수 없지
당연하게도 가장 좋은 metric은 인간의 선호에 의해서 결정되는게 맞다고 이야기함. 인간의 판단이 들어갔을 때 LLM이 emergent abilities이 어떻게 편하는가에 대해서는 연구가 없다고 함.