KALA: Knowledge-Augmented Language Model Adaptation

논문 정보

Date: 2023-01-19
Reviewer: yukyung lee
Property: QA, NER, Knowledge

0. Abstract

Simple fine-tuning of PLMs, on the other hand, might be suboptimal for domain-specific tasks because they cannot possibly cover knowledge from all domains
Adaptive pre-training of PLM can help LM obtain domain-specific knowledge
→ require large training cost → catastrophic forgeting of general knowledge
KALA

→ entities and relational facts

1. Introduction

1) 논문이 다루는 task

Adaptation the PLMs to specific domains (distributions over the language characterizing a given topic or genre)

2) 해당 task에서 기존 연구 한계점

Computationally inefficient: 데이터 양이 증가함에 따라 더 많은 메모리와 computational cost가 필요함
forgetting general knowledge: performance degradation

3) 제안 방법론 요약

entities and relations는 domain specific knowledge를 위해 중요한 요소
Entity memory bank와 Knowledge Graph를 활용하며, 이때 KG는 factual relationshop을 사용하기 위함
Knowledge conditioned Feature Modulation (KFM)를 제안하며, 이는 PLM과 retrieved knowledge representation을 적절하게 결합하기 위함
- KFM은 어떤 모델에도 적용 가능하며, original PLM을 변경시키지 않고 적용할 수 있음
- marginal computational와 memory overhead만 필요함
- KG의 relation 정보를 활용하여 training 과정에서 등장하지 않았던 unseen entities를 고려할 수 있음
  - Test에서 처음 나오는 entity라 하더라도 known entity들을 aggregating 함으로서 explicitly represent 가능함
  - neighboring entities들을 활용하는 방식을 취함
Contributions
- further pre-training 없이 finetuning 동안 효과적으로 entity와 relations를 PLM에 augment하는 방법론
- Structural knowledge → PLM을 위해, KG기반의 entity와 relation을 represent하는 novel layer 제안
- NER, QA에서 significantly more efficient함

1) Language Model Adaptation

domain-specific corpus adaptation

BioBERT
Dont stop pretraining - DAPT, TAPT

: large amount of computational cost for pre-training

2) Knowledge-aware LM

Integrate external knowledge into PLMs

Pretraining based

ERNIE
KnowBERT
Entity-as-Experts
LUKE
ERICA

3. Proposed Method

3.1 Problem Statement

Learning objective (Only require general knowledge): sub optimal for tackling domain-specific tasks (general knowledge는 domain-specific task를 풀이하기 위해 필요한 지식들을 모두 포함하지 않으므로)

Learning objective (Augments PLM conditioned on domain knowledge)

Definition 1: Entity and Mention
- entity는 sequence of tokens에 등장하는 one or multiple adjacent token임
  - x = [New, York, is, a, city]
  - \mathcal{E} = {New_York, city}
  - \mathcal{M} = {(1,2),(4,4)}
- 학습과정에서 등장하는 모든 entity를 entity 집합으로 구성하고, test time에서 처음 등장하는 entity(unknown entities)를 다루기 위해 집함에 null entity e_{\emptyset}을 포함시킴
Definition 2: Entity Memory

별도의 entity embedding function을 통해 entity representation을 학습
null entity e_{\emptyset}는 zero vector를 사용했음
Definition 3: Knowledge Graph
- KG를 직접 construct함
- KG는 set of factual triplet으로 구성됨 {(h,r,t)}
- h: head entity, r:relation, tail entity

3.2 Knowledge-conditioned Feature Modulation on Transformer

PLM에 domain-specific knowledge를 augment하는 방법 설명하는 파트
iterleave the knowledge from h with the pre-trainied parameters
- Original transformer

KFM Method
- feature-wise affine transformation기반의 연산임
- Layer normalization 전에 knowledge를 나타내는 entity, mention, graph를 input으로 넣어 augment하는 과정이 진행됨
- 해당 연산을 통해 learnable parameter를 얻음

- h는 entity memory에서 input entity와 유사한 entity embedding을 retrieve함

3.3 Relational Retrieval from Entity Memory

entity만 retrieve 하게 될 경우 한계점을 가짐
- fail to reflect the relations with other entities
- regards unseen entities as the same null entity
two entities 사이의 relational information도 고려해주기 위해 Relational Retrieval도 함께 수행함
- 예를들어, New_York token을 단독으로 사용하면 meaningful information을 얻기 힘듦
- 아래의 associated fact를 사용하면 보다 의미있음
- (New_York, instance of, city) and (New_York, country, USA)
GNN을 통해 3.1에서 정의한 entity memory의 entity embedding을 보강해줌

이때 neighborhood aggregation scheme을 사용함

aggregation이 너무 단순하면 relative importance를 반영할 수 없음
attentive scheme을 사용하여 target entity에 각 entity의 importance를 weight로 할당해줌

score는 all neighbors를 모두 고려하여 normalize되고 softmax를 취해서 사용함

entity embedding과 score를 결합하여 사용하는 형태임

최종 Entitiy embedding은 바로 위의 GNN 기반의 수식으로 대체되며, entity, relation, kg까지 모두 고려한 embedding을 생성할 수 있게 됨
unseen entity또한 위의 과정을 통해 단순한 zero vector로 표현되지 않기 때문에 훨씬 더 효과적으로 처리할 수 있게됨

4. 실험 및 결과

Dataset

Domain-specific NER, QA Datasets

Baseline

Finetuning, TAPT, DAPT, Other knowledge models

Point-wise option : entity memory만을 사용해서 retrieval 하고 knowledge graph를 사용하지 않은 옵션
relational: entity memory에서 relational retrieval을 수행함

실험 결과

실험 1 : QA에서 KALA의 효과

Finetuning 보다 약 1.2점 상능효과 있음
DAPT로 유사 domain 다 사용하는 방법보다 target dataset의 entity를 weak supervision으로 사용하는것이 유용함
relational (GNN 사용한 부분)은 특정 데이터셋에서 성능향상을 보임

실험 2: NER에서 KALA의 효과

finetuning 보다 약 1~2점 효과가 있음
효과는 실험 1과 유사함

실험 3: gamma, beta에 대한 추가 실험

KFM layer에 대한 성능 차이
layer norm 횟수도 함께 실험했음
두가지를 모두 사용하는것이 가장 효과적이었음

→ knowledge integration을 적절하게 해준것으로 해석할 수 있음

실험 4: knowledge integration architecture과의 비교

knowledge integration 모델들과의 비교
Adapter의 성능이 돋보였음

실험 5: seen/ unseen 데이터에 대한 성능 비교

KALA의 unseen entity가 test set에 등장해도 성능이 크게 저하되지 않음
저자들은 KALA가 unseen entity를 seen entity와 가깝게 embed함으로서 성능을 유지할 수 있다고 주장함
여기서 놀라운것은 WNUT에서의 DAPT 성능

실험 6: token에 대한 case study

“##on”이라는 token이 각 entity별로 다른 위치에 임베딩 되는것을 볼 수 있음
corresponding entity에 가깝게 위치하는 모습을 보임

실험 7 : T5에서도 되네 ? Generative model 실험

Generative model에서의 성능이 놀라웠음
knowledge integration idea가 성능 향상에 효과적임을 알 수 있음

실험 8: KALA의 efficiency

TAPT는 생각보다 효율적
하지만 성능을 생각해보면 항상 좋은것은 아님
DAPT는 대부분의 case에서 뛰어남
KALA는 효율성 측면에서 뛰어나고 성능도 좋은 방법

결론 (배운점)

LM adaptation을 위한 novel framework 제안
entity memory를 통해 input text에서 domain specific knowledge를 추출하고, KG와 GNN을 통해 단일 entity 뿐만 아니라 entity 사이의 relation도 함께 고려함
엄청난 양의 case 스터디와 실험들을 보여주며 (Appendix에도 실험이 많음) 적어도 아이디어를 검증하려면 이정도 실험은 해야한다는 것을 보여줌
리뷰어가 궁금해할 실험을 모두 제시하면서 negative 질문 원천 차단
idea는 직관적이지만 방법론은 체계적이며, 수식전개나 논문 서술등 참고해볼게 많았던 논문임
하지만 entity논문들은 대부분 tricky할 수 밖에 없다는 아쉬움이 있음

논문에서 기억하면 좋을 것들

(향후 논문 작성시 reference에 도움이 될 소스들)

이런 논문을 읽는 이유

Real world data는 대부분 specific하며 general knowledge로는 성능 향상에 한계가 있음 (여기서의 specific은 특정 domain data라고 정의하기보다 vocab과 text style이 general LM과 차이가 발생한다는 의미임)
LLM으로도 문제를 해결할 수 있겠지만 짧은 시간 효과적인 학습을 통해 충분히 좋은 성능을 보일 수 있는 연구 분야도 존재함
entity information은 언제나 Knowledge intensive task의 좋은 source중 하나이며 (재희 반박 거절) generation model과의 궁합도 좋음