논문 정보

Date: 2025-03-11
Reviewer: hyowon Cho

1. Intro

LLM의 학습 연산 및 메모리 비용 문제를 해결하기 위한 방법론으로 대표적인 것은 PEFT이지만, 간혹 Task Vector를 이용한 접근법들이 등장하고 있다.

태스크 벡터 기법은 다음과 같이 작동한다:

단순한 태스크에서 사전 학습 모델을 미세 조정하여 태스크 벡터를 생성 → 이는 미세 조정된 모델과 사전 학습 모델 간의 가중치 차이를 나타냄.
보다 복잡한 태스크를 처리하기 위해 여러 태스크 벡터를 선형 조합하여 모델을 수정 → 복잡한 태스크에 대한 추가 미세 조정 없이 효율적인 적응이 가능함.

이 방법은 선형 조합만으로도 다양한 다운스트림 태스크에 적응할 수 있는 장점이 있으며, 다음과 같은 특성을 보인다:

태스크 벡터 추가 → 해당 태스크 성능 향상
태스크 벡터 제거 → 특정 태스크의 지식 제거 (unlearning)
적절한 조합 → 라벨 데이터 없이도 유사한 관계를 가진 새로운 태스크(out-of-domain task)에 일반화 가능
또한, 저차원(low-rank) 또는 희소(sparse) 태스크 벡터를 사용하면 성능을 유지하면서도 효율성을 더욱 향상할 수 있음

태스크 벡터의 실용적 성공에도 불구하고, 이에 대한 이론적 분석은 아직 충분하지 않음. 특히, 다음과 같은 질문이 제기된다:

태스크 벡터가 멀티태스크 학습, unlearning, 및 out-of-domain generalization를** *****언제, 왜*** 성공적으로 수행할 수 있는가?

오늘 소개할 논문은 비선형 Transformer 모델에서 태스크 벡터(task arithmetic)의 이론적 일반화 분석을 최초로 수행하며, multi-task learning, unlearning, out-of-domain generalization에 대한 이론적 근거를 제공한다.

특히, binary classification 태스크를 대상으로 태스크 벡터 효과가 산술적 하이퍼파라미터(arithmetic hyperparameters)에 어떻게 의존하는지를 정량적으로 분석한다.

비록 분석은 단순화된 단일 헤드(single-head) 및 단일 층(one-layer) 비선형 Transformer을 기반으로 하지만, 이론적 통찰은 실제 아키텍처에서도 검증된다.

(건우 연구에 태스크 벡터가 활용된다고 들어서, 선행 연구 참고용으로 가져왔습니다🙌)

논문의 contribution은 다음과 같다:

task addition 및 task negation에 대한 세밀한 특성 학습 분석

태스크 추가(task addition)
- 태스크 간 연관성이 없거나(aligned) 서로 긍정적인 영향을 미치는 경우 멀티태스크 학습이 효과적으로 수행됨.
태스크 제거(task negation)
- 태스크가 무관(irrelevant)하거나 상충(contradictory)할 경우, 즉 한 태스크의 성능 향상이 다른 태스크의 성능 저하를 초래하는 경우, 태스크 제거가 효과적임.

태스크 벡터를 활용한 out-of-domain generalization에 대한 최초의 이론적 보장 제공

연관성이 없는 태스크들의 태스크 벡터 집합을 활용하여 적절한 산술 계수(arithmetic coefficients)를 선택하면 다양한 새로운 태스크에 일반화할 수 있음을 증명.
일반화를 위해 필요한 적절한 산술 계수의 범위를 특성화.

태스크 벡터의 low-rank approximation 및 magnitude-based pruning에 대한 이론적 정당화

태스크 벡터의 저차원 및 희소(sparse) **근사가 **일반화 성능에 미치는 영향을 최소화할 수 있음을 증명.

Weight interpolation technique

가중치 보간 또는 모델 병합(model merging)은 여러 모델의 가중치를 선형적으로 보간(interpolation) 하는 기법
이 기법은 서로 다른 다운스트림 태스크에서 미세 조정된 모델 또는 다른 하이퍼파라미터로 학습된 모델을 병합하는 방법으로 활용됨 (model soups)
실험적으로, 가중치 보간은 모델을 더 넓은 최적점(wider optima)으로 유도하여 일반화 성능을 향상할 수 있으며 단일 태스크(single-task) 및 멀티태스크(multi-task) 성능에서 기존 미세 조정(fine-tuning) 방법을 능가할 수도 있음.
태스크 벡터 접근법은 이러한 가중치 보간의 특수한 형태로 볼 수 있으며, 태스크 벡터에 대한 선형 연산(linear operations)을 수행하는 방식.

Feature learning analysis for Transformers.

최근 연구들은 Transformer의 최적화 및 일반화 성능을 특성 학습(feature learning) 관점에서 분석.
신경망이 학습 과정에서 중요한 특징을 점차적으로 학습하고, 불필요한 특징을 배제하는 과정을 설명하는 프레임워크를 따름.
하지만, 병합된 모델에 대한 논의는 전혀 이루어지지 않음

2. TASK VECTOR: DEFINITION AND OBSERVATIONS

2.1 PRELIMINARIES

신경망 f: X \times \Theta \to Y 는 입력 X \in X 를 받아 출력 y \in Y 를 생성하며, \Psi \in \Theta 는 모델의 파라미터를 나타낸다.

\Psi^{(0)}: 사전 학습된(pre-trained) 모델
\Psi^*_T: 특정 태스크 T 에 대해 미세 조정된(fine-tuned) 모델

태스크 벡터(Task Vector) 정의

정의 1. 태스크 T 에 대한 **태스크 벡터 **\Delta \Psi_T 는 사전 학습 모델과 미세 조정 모델 간의 가중치 차이로 정의됨:

\Delta \Psi_T = \Psi^*_T - \Psi^{(0)}

즉, 특정 태스크에 대한 모델의 변화량을 나타내는 벡터임.

Task Arithmetic과 일반화

주어진 사전 학습 모델 \Psi^{(0)}와 여러 태스크 벡터 { {\Delta \Psi{T_i}}{i \in V}}를 사용하여 병합된 모델(merged model) 을 구성할 수 있음:
- \Psi = \Psi^{(0)} + \sum{i \in V} \lambda_i \Delta \Psi{T_i}
- 여기서 \lambda_i 는 태스크 벡터의 가중치.
손실 함수 l(X, y; \Psi) 를 사용하여 태스크 **T′** 에 대한 일반화 오류는 다음과 같이 정의됨:
- \mathbb{E}{(X,y) \sim D{T’}} l(X, y; \Psi)
멀티태스크 학습 (Multi-Task Learning)
- 태스크 벡터를 추가( λi>0 )하면, 해당 태스크들의 성능을 유지하면서 동시에 학습 가능:
  - \mathbb{E}{(X,y) \sim D{T_i}} l(X, y; \Psi) \leq \Theta(\epsilon), \quad \forall i \in V_A
  - 멀티태스크 학습이 성공했을 때, 모델 Ψ가 모든 태스크 Ti 에 대해 일정 수준 이하의 일반화 오류(Θ(ϵ) )를 유지함을 의미
학습 제거 (Unlearning)
- 특정 태스크 벡터를 부호 반전( λi<0 )하여 제거하면, 해당 태스크의 성능이 저하됨: \mathbb{E}{(X,y) \sim D{T_i}} l(X, y; \Psi) \geq \Theta(1), \quad \forall i \in V_N

\mathbb{E}{(X,y) \sim D{T_j}} l(X, y; \Psi) \leq \Theta(\epsilon), \quad \forall j \in V \setminus V_N

도메인 외 일반화 (Out-of-Domain Generalization)
- 태스크 벡터를 활용하여 새로운 태스크에 일반화 가능: \Delta \Psi{T’} = \Delta \Psi{TA} + (\Delta \Psi{TB} - \Delta \Psi{T_C})
- 이는 특정 태스크 벡터 조합을 사용하여 유사한 관계를 가진 새로운 태스크에 적용할 수 있음을 의미함.

2.2 EMPIRICAL OBSERVATIONS

Colored-MNIST 데이터셋을 활용하여 태스크 간 관계를 분석

무관한 태스크 (Irrelevant Tasks)
- 한 데이터셋에서는 홀수/짝수 분류가 빨강/초록 색과 강하게 연관되지만, 다른 데이터셋에서는 색과 무관.
정렬된 태스크 (Aligned Tasks)
- 두 데이터셋 모두 홀수/짝수 분류가 빨강/초록 색과 같은 방식으로 연관.
상충하는 태스크 (Contradictory Tasks)
- 두 데이터셋에서 홀수/짝수 분류와 색의 관계가 정반대.

모델 평가 방식

두 개의 태스크 T1 과 T2 를 고려하여, 모델 \Psi = \Psi^{(0)} + \Delta \Psi{T_1} + \lambda \Delta \Psi{T_2} 의 성능을 측정.

주요 실험 결과 1

무관한 태스크 (Irrelevant Tasks)
- 멀티태스크 학습과 학습 제거가 모두 우수함
정렬된 태스크 (Aligned Tasks)
- 멀티태스크 학습 성능이 좋음
- 하지만 학습 제거(Unlearning) 성능은 낮음
상충하는 태스크 (Contradictory Tasks)
- 학습 제거(Unlearning) 성능이 매우 뛰어남
- 그러나 멀티태스크 학습 성능이 저조함

그렇다면 질문이 생긴다:

💡 핵심 질문(Q1): 태스크 간의 상관관계가 멀티태스크 학습과 학습 제거 성능에 미치는 영향은 어떻게 정량적으로 측정될 수 있는가?

주요 실험 결과 2

Colored-MNIST를 이용해 새로운 태스크 T′ 를 구성
- T′는 T1 과 정렬된 태스크, T2와 상충하는 태스크
\lambda1, \lambda_2를 최적화하여 \Psi = \Psi^{(0)} + \lambda_1 \Delta \Psi{T1} + \lambda_2 \Delta \Psi{T_2} 를 학습
실험 결과, 적절한 λ1,λ2 선택 시 개별 미세 조정된 모델보다 뛰어난 성능을 보임

💡 핵심 질문(Q2): 태스크 벡터 연산이 도메인 외 일반화에서 효과적인 이유는 무엇이며, 최적의 λi 를 선택하는 방법은 무엇인가?

3. A DEEP DIVE INTO TASK VECTORS

💡 핵심 질문(Q1): 태스크 간의 상관관계가 멀티태스크 학습과 학습 제거 성능에 미치는 영향은 어떻게 정량적으로 측정될 수 있는가?

💡 핵심 질문(Q2): 태스크 벡터 연산이 도메인 외 일반화에서 효과적인 이유는 무엇이며, 최적의 λi 를 선택하는 방법은 무엇인가?

이제 제안된 질문들을 해결함과 동시에

태스크 벡터를 수학적으로 formulate하고
멀티 태스크, 언러닝, OOD에 대한 이론적 분석을 수행해봅시다
또한, low-rank approximation & sparsification 방법이 성능을 유지하면서 계산 비용을 줄일 수 있음을 증명한다.

3.1 Main Theoretical Insights

이 연구에서는 이진 분류(binary classification) 태스크 집합을 다룬다.

각 태스크의 레이블(label)은 판별적 토큰(discriminative tokens)과 그 반대되는 토큰(opposite tokens) 간의 다수결(majority voting)로 결정됨.
단일 층(one-layer) 및 단일 헤드(single-head) Transformer 모델을 분석 대상으로 함.

Major takeaways:

P1. 태스크 추가(Task Addition) 및 제거(Task Negation)의 정량적 분석
- 태스크 T1 과 T2 간의 상관관계(correlation) α 를 정의:
  - α>0 → 정렬된(aligned) 태스크
  - α<0 → 상충하는(contradictory) 태스크
  - α=0 → 무관한(irrelevant) 태스크
- 멀티태스크 학습이 성공적으로 수행되는 조건

\lambda \geq 1 - \alpha + \beta (여기서 β 는 작은 상수)

학습 제거(unlearning)이 성공하는 조건
```
- **무관한 태스크의 경우**: \lambda \leq 0

- **상충하는 태스크의 경우**:
```
\lambda \in [-\Theta(\alpha^{-2}), O(\alpha^{-1})]
P2. Out-of-Domain Generalization through Task Arithmetic
- 기존 태스크 Ti 와 타겟 태스크 T′간의 상관관계 **\gamma_i** 를 정의.
- 만약 모든 Ti 가 T′ 와 완전히 무관하지 않다면, 적절한 태스크 벡터 조합을 통해 도메인 외 일반화가 가능함을 증명.
- 일반화 성능을 보장하기 위해 산술적 하이퍼파라미터(arithmetic hyperparameter)를 **\gamma_i** 의 함수로 정량적으로 도출.
P3. Low-Rank Approximation 및 Magnitude-Based Pruning가 모델 editing 성능을 유지함
- 태스크 벡터를 저차원 근사 또는 희소화하여 계산 비용을 줄이는 기법이 일반화 성능을 보장함을 최초로 이론적으로 증명.
- MLP 층에서 태스크 벡터의 작은 크기의 행(rows with small magnitudes)을 제거하여 희소화 가능.

3.2 PROBLEM FORMULATION

데이터 및 모델 정의

데이터 X = (x_1, x_2, \dots, x_P) \in \mathbb{R}^{d \times P}는 P 개의 토큰을 포함하며,
- 각 토큰 x_i 는 d-차원의 벡터이고,
- 모든 토큰은 단위 노름을 가짐 (∥xi∥=1).
레이블 y∈{+1,−1} 는 스칼라 값.

Transformer 모델 구조

본 연구에서는 단일 층 Transformer을 사용하며, 모델은 self-attention 레이어 1개와 2층 MLP으로 구성됨.

수학적으로 모델은 다음과 같이 표현된다:

f(X; \Psi) = \frac{1}{P}\sum{l=1}^P a^\top \text{ReLU}(W_O \sum{l=1}^P W_V x \cdot \text{softmax} (x^\top W_K^\top W_Q x))

여기서,

\Psi = { {a^{(l)}}_{l=1}^{P}, W_O, W_V, W_K, W_Q } 는 모델의 모든 파라미터 집합.
a^{(l)} \in \mathbb{R}^{m} 및 W_O \in \mathbb{R}^{m \times m_a} 는 MLP 계층의 가중치.

Fine-tuning Algorithm

손실 함수로 Hinge Loss 사용함:
SGD 사용하여 모델을 fine-tuning
a^{(l)}_i 는 {+1/\sqrt{m}, -1/\sqrt{m}} 에서 샘플링됨.
Fine-tuning 동안 **a^{(l)}**는 업데이트되지 않음.

데이터 생성 과정 (Definition 2: Data Formulation)

데이터 X는 여러 개의 토큰 x1,x2,…,xP로 이루어진다.

각 토큰은 d차원의 벡터이고, X \in \mathbb{R}^{d \times P}이다.

레이블 y는 {+1,−1}중 하나이며, 이진 분류 문제이다.

이때, 각 태스크 T는 특정한 패턴(=판별적 정보, discriminative pattern) **\mu_T**를 가진다.

이 패턴은 레이블을 결정하는 데 중요한 역할을 하는 특수한 벡터라고 보면 된다.

1. 레이블 y정하기

y=+1 또는 y=−1 중에서 랜덤하게 선택한다. (즉, 데이터를 반반 확률로 양성(+) 또는 음성(-) 샘플로 정함)

2. 데이터 X 만들기

데이터 X는 P개의 토큰으로 이루어져 있다.

각 토큰은 다음 중 하나가 된다:

판별적 패턴(Discriminative Pattern): \mu_T 또는 −\mu_T

이 패턴은 레이블과 관련이 있다.
y=+1 이면, μT 가 더 많이 등장한다.
y=−1 이면, −μT 가 더 많이 등장한다.
(예: “고양이”를 분류하는 태스크라면, μT 는 “고양이 관련 특징”을 포함하는 벡터라고 볼 수 있음)

태스크 무관(irrelevant) 토큰: v1,v2,…,vM

이 토큰들은 레이블과 무관하다.
vj들은 μT 와 직교(orthogonal)한 랜덤 벡터들이다.
(예: “고양이” 태스크와 무관한 “날씨” 관련 단어들처럼, 분류할 때 필요하지 않은 정보)

3. 토큰 구성 비율

각 샘플에는 다음과 같이 세 종류의 토큰이 포함됨:

레이블 관련 토큰 (Label-Relevant Tokens, μT): 전체 토큰 중 비율이 δ∗
혼동 패턴 (Confusion Pattern, −μT): 비율이 δ#
태스크 무관 토큰 (Task-Irrelevant Tokens, vj): 비율이 (1 - \delta^* - \delta^#)/M

즉, 레이블을 결정하는 핵심 토큰( μT,−μT)과 그렇지 않은 토큰(vj)이 섞여 있는 구조다.

**예제**

예제 1: 동물 사진 분류

태스크: 개 🐶 vs 고양이 🐱 분류
판별적 패턴: 개를 나타내는 특징 벡터 μT (예: 귀 모양, 꼬리 형태)
태스크 무관 토큰: 배경 색상, 카메라 화질 등 (이것들은 개/고양이를 구별하는 데 영향을 주지 않음)

데이터 생성 과정

사진 한 장을 랜덤으로 뽑고, 개인지 고양이인지 결정 (y)
개의 사진이라면, “개 관련 특징( μT )”이 더 많이 포함됨
고양이 사진이면, “고양이 관련 특징( −μT )”이 더 많이 포함됨
배경이나 조명 같은 “무관한 특징( vj )”들도 포함됨

🎯 예제 2: 감성 분석 (Positive vs Negative)

태스크: 영화 리뷰가 긍정적인지( y=+1 ) 부정적인지( y=−1 ) 분류
판별적 패턴: 긍정적인 단어들( μT ) vs 부정적인 단어들( −μT )
태스크 무관 토큰: 영화 제목, 감독 이름 등 감성 분석과 관계없는 단어들

데이터 생성 과정

리뷰 하나를 선택하고, 긍정( y=+1 )인지 부정( y=−1)인지 랜덤 결정
긍정 리뷰라면, “좋아요”, “재밌어요” 같은 긍정적인 단어( μT )가 더 많이 포함됨
부정 리뷰라면, “별로였어요”, “실망했어요” 같은 부정적인 단어( −μT )가 더 많이 포함됨
감독 이름 같은 감성 분석과 상관없는 단어( vj )들도 포함됨

3.3 HOW DO TASK ADDITION AND NEGATION AFFECT THE PERFORMANCE?

1. 문제 설정

두 개의 이진 분류 태스크 T1, T2 를 고려
- 각 태스크의 판별적 패턴(Discriminative Pattern):
  - \mu_{T_1} (태스크 T1 의 특징)
  - \mu_{T_2} (태스크 T2 의 특징)
- 태스크 벡터: \Delta \Psi{T_1}, \Delta \Psi{T_2}
- 모델 병합: \Psi = \Psi^{(0)} + \Delta \Psi{T_1} + \lambda \Delta \Psi{T_2}
- 태스크 간의 상관관계( α ) 정의: \alpha = \mu{T_1}^\top \mu{T_2} \in [-1,1]
```
- α>0: **정렬된(aligned) 태스크**

- α<0: **상충하는(contradictory) 태스크**

- α=0: **무관한(irrelevant) 태스크**
```
실험적으로 도출된 추가 변수 (설명은 x):
- \beta = poly(\eta \delta^*) + \Theta(\epsilon \sqrt{M}) (< \Theta(1))
- 뉴런 수: m \gtrsim M^2 \log M(여기서 M=Θ(d))
- 설명

β 는 두 개의 주요 항목으로 구성됨:

1. **poly(\eta \delta^*)**** : 학습률(η)과 태스크의 판별적 정보량(****\delta^*****)에 의해 결정되는 다항식(poly) 항목**

  - δ∗ 는 **레이블과 직접적인 관련이 있는 토큰(판별적 패턴, μT)의 비율**을 의미함.

  - 즉, 이 값은 **태스크의 난이도(task difficulty) 및 학습률(learning rate)과 관련됨**.

  - **δ∗ 가 클수록, 즉 중요한 패턴이 많이 포함될수록 모델이 더 빠르게 수렴할 가능성이 높음.**

1. **\Theta(\epsilon \sqrt{M})**** : 일반화 오류(ϵ)와 데이터 차원(M)에 의해 결정되는 항목**

  - M 은 데이터 차원의 크기 (M=Θ(d))

  - 이 항목은 **모델의 일반화 성능(generalization performance)과 관련됨**.

  - 차원이 클수록 \sqrt{M}이 증가하므로, **차원이 높을수록 일반화 오류가 증가할 가능성이 있음**.

\beta < \Theta(1)의 의미

- **β값이 너무 크면, 태스크 벡터를 추가하거나 제거할 때 오류가 크게 증가하므로 모델이 원하는 성능을 내지 못할 수 있음.**

- 따라서 β 가 일정 수준 이하(<Θ(1))로 유지되면, **태스크 벡터 추가/제거 시 성능이 안정적으로 유지될 수 있음**.

Theorem 1 (멀티태스크 학습 성공 조건)

주어진 사전 학습 모델을 태스크 T1 및 T2 에 대해 미세 조정한 후, 모델 병합이 성공하기 위한 조건은 다음과 같다:

미세 조정 시 필요한 조건 3가지:

충분한 배치 크기(Batch Size) 필요:
- ** **B \geq \Omega(\epsilon^{-2} \log M)
- 배치 크기 B 가 충분히 커야 함.
- 배치 크기가 작으면 모델이 안정적으로 학습되지 않아 태스크 벡터가 제대로 형성되지 않을 수 있음.
- 일반적으로 \epsilon^{-2} \log M만큼의 배치 크기를 확보하면, 모델이 충분히 학습 가능.
적절한 학습률(Learning Rate)
- ** \eta \leq O(1)**
- 학습률 η 가 너무 크면 학습이 불안정해지고, 너무 작으면 학습이 지나치게 오래 걸릴 수 있음.
- 따라서, O(1) (즉, 적절한 크기의 상수) 이하로 학습률을 유지해야 함.
충분한 학습 반복 횟수(Training Iterations)
- t \geq T = \Theta(\eta^{-1} \delta^{-2})
- δ 델타는 태스크의 판별적 패턴( μT)을 포함하는 토큰의 비율을 나타냄.
- 학습 반복 횟수 t 가 충분히 커야 태스크 벡터가 제대로 학습됨.
- 반복 횟수는 학습률 η 와 태스크의 판별적 정보량 δ∗에 반비례.
  - δ∗ 가 클수록(즉, 중요한 패턴이 많이 포함될수록) 적은 반복 횟수로도 학습 가능.
  - δ∗가 작을수록(즉, 태스크 판별 패턴이 약할수록) 더 많은 반복이 필요함.

이 조건을 만족하면, 병합된 모델의 일반화 오류는 다음과 같이 유지됨:

태스크 T1의 일반화 오류
- \mathbb{E}{(X,y) \sim D{T_1}} l(X, y; \Psi) \leq \Theta(\epsilon) + \lambda \cdot \beta
  - 즉, T1 에 대한 모델의 오류는 \Theta(\epsilon)** + 추가적인 항목( **** \lambda \cdot \beta ****)으로 구성됨**.
  - ( ** \lambda \cdot \beta **) 항목은 태스크 벡터 병합에 따른 추가적인 오류를 나타냄.
  - β가 작을수록 멀티태스크 학습이 안정적임.
  - 즉, λ값이 너무 크면 모델 성능이 불안정해질 수 있음.
태스크 T2 의 일반화 오류
- \mathbb{E}{(X,y) \sim D{T_2}} l(X, y; \Psi) \leq \Theta(\epsilon)
- 즉, T2 에 대한 모델의 오류는 \Theta(\epsilon)**으로 유지됨.**
- λ가 적절하게 선택되면 태스크 T2 에 대해 성능이 안정적으로 유지됨.

즉, 적절한 λ값이 설정되면, 두 태스크에서 모두 성능을 유지하면서 멀티태스크 학습이 가능하다!

멀티태스크 학습이 성공하기 위한 λ 의 조건

태스크 벡터 병합이 성공하려면, λ 를 적절하게 설정해야 한다.

λ 값이 너무 크면, ∣λ∣⋅β 항목이 커져서 특정 태스크의 오류가 증가할 수 있음.
λ값이 너무 작으면, 태스크 벡터의 효과가 충분히 발휘되지 않을 수 있음.
즉, λ는 태스크 간의 관계( α)를 고려하여 최적의 값을 찾아야 한다.
- 무관한 태스크 (α=0)

\lambda \geq 1 - \beta

- **정렬된 태스크 (α>0)**

\lambda \geq 1 - \alpha + \beta

- **상충하는 태스크 (α<0)**

  - **적절한 λ 를 선택해도 두 태스크의 일반화 오류를 모두 낮추는 것이 불가능**

  - 즉, **상충하는 태스크에서는 멀티태스크 학습이 어렵거나 불가능**

정리!

태스크가 무관하거나 정렬된 경우, 적절한 λ 를 선택하면 멀티태스크 학습이 성공할 수 있음.
상충하는 태스크의 경우, 하나의 태스크 성능이 좋아질수록 다른 태스크의 성능이 나빠지므로 멀티태스크 학습이 불가능.

Theorem 2 (학습 제거 성공 조건)

태스크 T1의 일반화 오류
- \mathbb{E}{(X,y) \sim D{T_1}} l(X, y; \Psi) \leq \Theta(\epsilon) + \lambda \cdot \beta
태스크 T2 의 일반화 오류
- \mathbb{E}{(X,y) \sim D{T_2}} l(X, y; \Psi) \ge \Theta(1)

즉, 모델\Psi는 태스크 T1 에 대한 성능을 유지하면서, T2 의 성능을 심각하게 저하시켜야 함.

학습 제거가 성공하기 위한 λ의 조건

무관한 태스크 (α=0)

\lambda \leq 0

상충하는 태스크 (α<0)

-\Theta(\alpha^{-2}) \leq \lambda \leq -poly(\eta \delta^*)/\alpha

정렬된 태스크 (α>0)
- α가 작을 경우에만 적절한 λ가 존재
- 즉, 태스크 간 정렬 정도가 높을수록 학습 제거가 더 어려움

정리!

태스크가 무관하거나 상충하는 경우, 적절한 λ 를 선택하면 특정 태스크를 효과적으로 제거 가능.
정렬된 태스크의 경우, 하나의 태스크를 제거하려 하면 다른 태스크의 성능도 같이 저하되므로 학습 제거가 어려움.

3.4 CAN A MODEL PROVABLY GENERALIZE OUT-OF-DOMAIN WITH TASK ARITHMETIC?

이 섹션에서는 태스크 벡터의 선형 조합을 통해 모델이 기존 학습된 태스크를 넘어 새로운(out-of-domain) 태스크로 일반화할 수 있는지에 대한 이론적 분석을 수행한다.

선행 연구에 따르면, 태스크 벡터들은 서로 직교(orthogonal)하는 경향이 있음. 따라서, 본 연구에서는 각 태스크의 주요 특징을 나타내는 벡터들{ \mu{T_i} }{i \in V_{\Psi}}**이 직교 정규 집합(orthonormal set)이라고 가정**

새로운 태스크 T′ 의 판별적 패턴: \mu{T’} = \sum{i \in V{\Psi}} \gamma_i \mu{Ti} + \kappa \cdot \mu’{\perp}
- \gamma_i \in \mathbb{R}: 기존 태스크의 판별적 패턴 μTi 에 대한 선형 가중치.
- \mu’_{\perp}: 기존 태스크들의 판별적 패턴과 완전히 직교한(orthogonal) 새로운 구성 요소.
- \kappa (카파): 새로운 태스크의 직교 성분 μ⊥′ 의 크기를 조절하는 계수.

즉, 새로운 태스크 T′ 의 판별적 패턴은 기존 태스크의 패턴들의 선형 조합( **\sum \gammai \mu{Ti}**)과, 기존 태스크와 전혀 다른 새로운 패턴( **\kappa \cdot \mu’{\perp}**)으로 구성됨.

⇒ 만약 κ=0 이면, T′는 기존 태스크들의 선형 결합으로 정확하게 표현될 수 있고, 그렇지 않으면 완전히 새로운 태스크가 됨.

Theorem 3 (도메인 외 일반화 성공 조건)

태스크 벡터를 만드는 방식은 위의 조건과 동일

모델 \Psi 가 새로운 태스크 T′에 대해 일반화 오류를 보장하기 위해서는 다음 조건을 만족해야 한다.

(A) 적어도 하나의 기존 태스크가 새로운 태스크와 연관되어야 함

\exists i \in V_{\Psi} \text{ such that } \gamma_i \neq 0

즉, T′의 판별적 패턴(**\mu_{T’}**)이 기존 태스크 중 적어도 하나와 관련이 있어야 함.
만약 모든 \gamma_i = 0 이라면, T′는 기존 태스크들과 완전히 무관한 새로운 태스크이므로, 일반화가 어려움.
(B) 적절한 **\lambda_i**가 존재해야 함

\sum{i \in V{\Psi}} \lambdai \gamma_i \geq 1 + c, \quad \sum{i \in V_{\Psi}} \lambda_i \gamma_i^2 \geq 1 + c

즉, 각 태스크 벡터의 가중치 **\lambda_i** 들이 적절히 조정되어야 함.
- 첫 번째 조건은 태스크 T′의 주요 패턴을 충분히 반영하기 위한 제약.
- 두 번째 조건은 이진 분류에서 필요한 마진(margin)을 유지하기 위한 제약.
(C) **\lambda_i**의 크기가 너무 크지 않아야 함

\lambda*i

\cdot \beta \leq c, \quad \forall i \in V*{\Psi}

즉, 각 태스크 벡터의 가중치 λi가 너무 크면 오류가 증가할 수 있음.
따라서, 적절한 범위 내에서 λi를 조정해야 모델이 안정적으로 일반화됨.

위 조건이 충족되면, 새로운 태스크 T′ 에 대한 일반화 오류는 다음과 같이 유지됨:

\mathbb{E}{(X,y) \sim D{T’}} l(X, y; \Psi) \leq \Theta(\epsilon)

즉, 도메인 외 태스크에 대해 모델이 안정적인 성능을 유지할 수 있음!

3.5 CAN TASK VECTORS BE IMPLEMENTED EFFICIENTLY?

이 섹션에서는 태스크 벡터(Task Vector) 기법의 계산 효율성을 향상시키는 방법으로, Low-Rank과 Sparsity를 검토한다.

Corollary 1. *(Low-rank approximation)

태스크 벡터 ΔW_T 와 ΔV_T 는 저차원(rank-1) 근사를 사용할 수 있음.
- 여러 연구(Ilharco et al., 2022a)에서 태스크 벡터가 직교하는 경향이 있고, 대부분 특정한 방향으로 업데이트됨이 확인됨.
- 이는 rank-1 근사로도 충분한 표현이 가능함을 의미함.
저차원 근사 행렬을 ΔW_LR, ΔV_LR 라고 할 때, 다음이 성립함:
- \Delta WT - \Delta W{LR}|_F \leq M \cdot \epsilon + \frac{1}{\log M}
  - M 은 데이터 차원의 크기이며, 학습 중 특정 방향으로 업데이트가 이루어지기 때문에 오차가 M 에 비례할 수 있음.
  - \epsilon 은 태스크 벡터의 일반화 오류를 나타내며, 이 값이 작을수록 모델이 잘 학습됨.
  - l**\frac{1}{logM}** 항목
    - 저차원 근사는 데이터 차원이 클수록 더 잘 작동하는 경향이 있음.
    - 즉, M 이 커질수록 근사 오류가 로그 스케일로 감소함.
- |\Delta VT - \Delta V{LR}|_F \leq \delta^{-1} \epsilon
  - δ^{−1}ϵ 항목은 태스크 벡터가 특정 패턴을 얼마나 잘 학습했는지를 반영함.
  - δ 는 태스크의 판별적 패턴이 데이터에서 차지하는 비율을 나타내며, δ 가 클수록 모델이 해당 태스크를 더 잘 학습할 수 있음.
  - 따라서, \delta^{-1}는 태스크의 학습 가능성을 나타내는 척도로 볼 수 있으며, 이 값이 크면 rank-1 근사가 더 어려워지고 오차가 증가할 가능성이 있음.
  - 태스크의 판별적 패턴 비율 δ가 충분히 크다면, rank-1 근사로 인해 발생하는 오차는 작게 유지될 수 있음.

즉, 저차원 근사로 인해 발생하는 오차가 매우 작다는 것을 보장.

이 결과가 의미하는 바는 다음과 같다.

태스크 벡터는 본질적으로 저차원 구조를 가지며, rank-1 근사를 적용해도 성능을 유지할 수 있다.
태스크 벡터의 근사 오차는 데이터 차원( M)과 학습 정도(δ에 의해 결정됨.

데이터 차원 M 이 크면 rank-1 근사로 인한 오차가 로그 스케일로 감소함.
δ값이 크면 태스크 벡터의 주요 패턴을 더 잘 유지할 수 있음.

연산량을 줄이면서도 모델 성능을 유지하는 최적화 전략으로 활용 가능.

모델을 경량화하는 데 유용하며, 메모리 사용량 감소 및 계산 비용 절감 가능.

Corollary 2. *(Sparsity of task vectors)

Corollary 2에서는 태스크 벡터 **\Delta V_T^* 의 희소성을 수학적으로 증명**한다.

태스크 벡터 \Delta V_T^*의 각 행 u_i에 대해 다음이 성립:
1. 중요한 행들( **i \in L**)

| u_i | \geq \Omega(m^{-1/2})

- 이 행들은 **상대적으로 큰 가중치를 가지며 중요한 정보를 포함**.

- 즉, **모델이 특정 태스크를 학습할 때 중요하게 업데이트된 가중치들**.

불필요한 행들(** i \in [m] \setminus L**)

| u_i | \leq O(m^{-1/2} \sqrt{\log B / B})

- 이 행들은 **가중치 값이 매우 작아서 중요하지 않은 정보만 포함**.

- 배치 크기(B) 가 커질수록 불필요한 행들의 가중치는 더욱 작아짐.

- 즉, **모델이 학습할 때 거의 업데이트되지 않은 가중치들**.

결과: 불필요한 행을 제거(Pruning)해도 괜찮음!
- 즉, 태스크 벡터의 일부 요소를 제거해도 멀티태스크 학습, 학습 제거, 도메인 외 일반화 성능이 유지됨.
- 모델이 중요한 정보만 남겨놓고 불필요한 가중치를 제거해도 문제없이 작동할 수 있다.

4. NUMERICAL EXPERIMENTS

4.1 EXPERIMENTS ON IMAGE CLASSIFICATION

Experiment Setup

사용한 모델:
- ViT-Small/16
- ImageNet-21K로 사전 학습된 모델을 사용하여 fine-tuning 진행.
사용한 데이터셋:
- Colored-MNIST
- 이진 분류(binary classification) 태스크에서 숫자의 홀수/짝수를 분류하는 문제로 실험 수행.
- 숫자의 색상(빨강/초록)을 조작하여 태스크 간 상관관계(irrelevant, aligned, contradictory)를 조정.
- Define ro and re as the proportion of red colors in odd and even digits
태스크 간 상관관계 측정 방법:
- 두 개의 태스크 T1,T2 가 각각 미세 조정된 모델 ΨT1∗, ΨT2∗ 의 출력을 기반으로 출력 벡터 간 코사인 유사도(Cosine Similarity)를 평균하여 상관관계 α를 계산.

Multitask & Unlearning

태스크 간 상관관계가 다른 3가지 경우를 비교:
- Case I (무관한 태스크, **\alpha \approx 0**) → 0.164
- Case II (정렬된 태스크, α>0) → 0.891
- Case III (상충하는 태스크, α<0) → −0.849
결과:
- 무관한 태스크
  - λ≥1→ 멀티태스크 학습 성공
  - λ≤0 → 특정 태스크 제거 성공
- 정렬된 태스크
  - λ>0→ 두 태스크 모두 성능 증가
  - 하지만 λ 의 어떤 값도 한 태스크를 제거하면서 다른 태스크를 유지할 수 없음
- 상충하는 태스크( α<0 )
  - λ≤0 → 특정 태스크 제거 성공
  - 멀티태스크 학습은 불가능

OOD

T1 (ro = 0.85), T2 (ro = 0.05), 목표 태스크 T′(ro = 0.9)
T1,T2 는 **무관한 태스크 **
특정 λ1,λ2 의 삼각형 영역 내에서 도메인 외 일반화 가능
Theorem 3에서 제시한 조건 (7)과 일치하는 영역에서 좋은 성능을 보임!

4.2 EXPERIMENT ON LANGUAGE GENERATION TASK

사용한 모델:
- Phi-1.5 (1.3B) 모델
사용한 데이터셋:
- Harry Potter 1 (HP1), Harry Potter 2 (HP2) → 정렬된(aligned) 태스크 (α=0.498)
- Pride and Prejudice (PP) → HP1과 덜 정렬됨 (α=0.239)
실험 목표:
- 학습 제거(Unlearning) 테스트
- HP1을 제거하면 HP2와 PP의 성능이 어떻게 변화하는지 분석
성능 측정:
- Rouge-L Score 사용
결과:
- λ<0 로 HP1을 제거하면, HP2도 함께 성능 저하됨.
- PP는 상대적으로 덜 영향을 받음.
- Theorem 2의 예측과 일치!

LoRA 사용 시에도 같은 결과가 유지됨 → Corollary 1 검증!

최종 요약

이미지 분류 실험에서, 멀티태스크 학습 및 학습 제거가 태스크 간 상관관계에 따라 다르게 작동하는 것이 확인됨 (Theorem 1, 2 검증).
도메인 외 일반화 실험에서도 Theorem 3의 조건이 실험적으로 검증됨.
자연어 생성 실험에서, 특정 태스크를 제거하면 정렬된 태스크도 함께 성능이 저하됨 (Theorem 2 검증).
LoRA를 적용해도 동일한 패턴을 보이며, Corollary 1(저차원 근사)도 검증됨!