논문 정보

Date: 2024-02-20
Reviewer: 전민진

Abstract

LLM은 static general-purpose model로, 재학습하거나 자주 업데이트하기 어려움
- 이러한 구조는, knowledge-intensive task에서 factual, relevant, up-to-date knowledge를 생성하기 어려움
이를 위해, Knowledge card, general-purse LLM에 새로운, 관련된 지식을 plug-in할 수 있는 modular framework를 제안
- domain-specific LM을 지칭
- specific domain LM에서 document들을 생성, 3가지 content selector를 통해 최종 generate에 사용된 document를 선택
  - relevance, factuality, brevity
- specific LM에서 얻은 (relevant, factual) knowledge를 LLM에 합치는 2가지 framework 방법론을 제안
  - bottom-up, top-down
실험 결과, 6가지 데이터셋에서 SOTA 달성

Introduction

LLM은 knowledge-intensive task와 context에서 어려움을 겪고 있음
- hallucination, struggle to encode long-tail facts, update with new and emerging knowledge
이를 해결하기 위한 방법으로, retrieval augmentation, generated knowledge prompting이 제안됨
- retrieval augmentation의 경우 retrieval system을 활용해 fixed retrieval corpus에서 관련 문서를 끌어와 이를 기반으로 답변을 생성하도록 하는 방법론
  - (민진피셜) 하지만 이 방법론 역시 기존의 정보를 업데이트하긴 어려움.
    - 전체 corpus를 다시 구축해야함. 예를 들어, 현재 대통령에 관련한 문서가 있다면, 기존의 문제를 삭제해야 정보의 일관성이 유지됨. ⇒ 단순히 document를 추가하는 것으로 업데이트할 수 없음.
  - 또한, 하나의 corpus를 가정하기 때문에 도메인별로 취사 선택해서 정보를 얻기는 어려울거 같음(domain이 여러개가 필요할 때) → 가능할지도? 근데 모델 다시 파야할거같음
  - 기존과 다른 domain의 document를 추가하기 위해선 retrieval 학습 필요, 추가적으로 generator도 학습 필요할 수 있음
- generated knowledge prompting은 prompt를 통해 필요한 정보를 LLM으로 생성, 이를 기반으로 답변을 생성하도록 하는 방법론
  - (민진피셜)새로운 정보를 업데이트하기 어려움.
  - 또한, private information을 LLM 학습에 사용할 수 없으므로, custom하기도 어려움.
  - 일부분의 domain만 업데이트하고 싶어도, 전체 파라미터를 건드려야하기 때문에 catastrophic forgetting문제 발생할 수 있음
하지만 이러한 방법론들은 knowledge의 2가지 특성을 반영하기 어려움
- modular
  - knowledge는 여러 form, domain, source, perspective에서 존재하는 정보를 합친 것
  - modularity가 부족할 경우, 새로운 domain, targeted update의 일반화를 어렵게 함
- collaborative
  - 다양한 주체로부터 collaborative contribution이 가능하게 하면서, LLM이 다양한 측면에서의 정보를 통합하고, 표현할 수 있어야 함
- retrieval augmentation의 경우 modular를 위해 확장될 수 있으나, 현재의 model sharing환경과 호환되지 않고, commuunity-driven effort를 용이하게 하지 않음

⇒ plug and play할 수 있는 knowledge card가 필요

Retrieval-Augmented Language Models
- retrieval system을 encoder-decoder(FiD), decoder-only model(RAG)에 결합하는 방식
- 혹은, frozen LLM과 trainable retirever(REPLUG) or search engine을 결합
- 이러한 방식과 비교했을 때, Knowledge card는 유연한 information seeking, knowledge domain에 대한 검색, private knowledge source를 사용하는 것이 가능
- 또한, Retrieval-augmented방식은 하나의 retrieval corpus를 사용, 해당 corpus가 완전하다고 가정
  - 하지만 domain coverage, knowldge update와 같은 문제 존재
Generated Knowledge Prompting
- LLM에 prompt를 통해 background information을 생성, 이를 바탕으로 질문에 대한 답변 생성
- LLM 파라미터에 내재된 지식으로 충분하다 가정
  - hallucination, struggle to long-tail fact encoding과 같은 문제 존재
- 최근엔 LLM knowledge를 edit, update하는 방법론도 제안되고 있으나, 이는 white-box LLM을 가정, black-box LLM을 사용할 수 없음
Modular Language Models
- Mixture-of-Expers(MoE)는 input instance를 기반으로 하나의 expert network를 활성화
- 이외 Adapter, parameter-efficient funing, parameter averagein, model fusion 등 LLM의 학습 가능성을 보여줌
- 하지만, 이러한 방법론은 LLM이 white-box임을 가정

Proposed Method

Knowledge cards
- knowledge는 modular이기 때문에, 범용 LLM이 해당modular plug-and-play knowledge repositories를 사용해야한다 가정
  - knowledge repositories는 구성원이 같이 추가, 삭제, 편집, 업데이트 가능
  - knowledge component로 wikipedia factoids, biomedical literature, mathematical formulate, commonsense knowledge graph 등등 활용가능
- 이를 위해, black-box LLM보다 훨씬 작은 specilaized LM을 knowledge card로 활용
  - 각각의 specific knowledge corpus에 autoregressive objective로 학습된 모델
- LLM에 query가 주어질 때, 이러한 knowledge cards을 선택적으로 활성화, document를 생성
  - given query q, specialized LM c defines a mapping c(q): q \rightarrow d_q, where q is used as prompt to generate a continuation as the knowledge d_q
  - d_q are prepended into the context of peneral-purpose LLMs through various mechanism
Knowledge selectors
- d_q를 바로 쓰지 않고, relevance, brevity, factuality에 따라 일종의 필터링 과정을 거침
- Relevance Selector
  - specialized LM으로 생성한 document가 query와 적합한지 판단하는 단계
  - given a set of m generated documents {d_1,…,d_m} and the query q, we adopt a seperate encoder-based LM enc(.) that maps a token sequence to a feature vector and cosine similarity sim(.,.) to measure relevance
  - we retrain d_i if i \in topk_j(sim(enc(d_j),enc(q))) where topk is top-k argmax operation
- Pruning Selecetor
  - 생성한 document를 요약해 압축시키는 단계
  - given m documenets {d_1,…,d_m}, we adopt a pruning model prune(.), operationalized most simply as a summarization system to obtain the condensed versions separately {\tilde d_1,…,\tilde d_m}
- Factuality Selector
  - 요약한 문서가 기존 문서의 내용을 잘 담고 있는지, 생성된 문서가 factual한지 확인하는 단계
  - summarization factuality
    - pruned version \tilde d_i가 original d_i의 중요한 포인트를 잘 포착하고 있는지 확인
    - scoring fucntion(sum-fact(.,.))으로 기존에 제안된 factuality evaluation model을 사용
    - s_d^{sum} = sum-fact(\tilde d d) \in [0,1]
  - retrieval-augmented fact checking
    - knowledge document d가 주어질 때, retrieval corpus( e.g., wiki)에서 k개의 document를 retriever, fact-checking model을 scoring function으로 활용
    - sd^{fact}=max{1 \leq i \leq k}fact-check(d t_i) \in [0,1]
  - 이후 2가지 factuality점수를 평균냄
  - factuality score를 기준으로 top-k factulity sampling을 사용
    - top-k개로 구성된 knowledge document set에서 l개를 샘플링(k>l)

Knowledge intergration
- Bottom-up
  - 모든 knowledge card에서 documents를 생성, 3가지 selector를 거쳐 최종적으로 생성에 활용될 document를 추림
  - n개의 knowledge card C={c1, …, c_n}, query q가 있을 때, 각각의 knowledge card로부터 n_1개의 document를 생성, {d_1,…,d{n \times n_1}}를 얻음
  - relevance selector를 사용해 n2개의 relevant document를 선택, pruning selector로 pruning 실행, {\tilde d_1, …, \tilde d{n_{2}} }를 얻음
  - factuality selector로 high-quality knowledge document {\tilde d1, …,\tilde d{n_{3}}}을 최종 선택
  - 마지막으로, “[”Knowledge:” \tilde d_1 … \tilde d_{n_{3}} q]”를 prompt로 LLM에 넣어줌
    - 은 concatenation을 의미
  - bottom-up은 다양한 도메인에서 document를 생성하므로, multi-domain knowledge synthesis에 강한 방법론
- Top-down
  - textual description of specialized LMs S = {s_1,..,s_n} such as “biomedical literature”,”college calcculus”..
  - bottom-up과 달리, LLM에게 query를 바탕으로 external information이 필요한지를 먼저 물음(”Do you need more information? (Yes or No)”)
  - 모델의 답변이 yes인 경우
    - 아래 두 가지 방법 중 하나를 선택해 knowledge card선택
    - automatic selection
      - “What kind of information do you need?
      - relevance selector로 모델의 답변과 specialized LM textaul decription s와 비교
      - 유사도가 가장 높은 knowledge card에서 document생성
      - factuality selector를 거쳐 가장 factuality score가 높은 문서를 선택
    - explict selection
      - “Choose an information source from the following: s1, . . . , sn”
      - LLM이 특정 knowledge card를 선택
      - 다음 과정은 automatic selection과 동일
  - 이 과정을 반복, external information이 필요하지 않다고 할 때까지 생성된 document를 기반으로 답변 생성

Experiment Settings

Implementation
- knowledge card로 OPT-1.3B사용, 25개의 specialized LM을 각각 학습
  - corpora in the Pile, branch-train-merge, knowledge graphs, news and social media 등을 활용
- relevance selector : MPNet
- pruning selector의 summarization model : PEGASUS
- factuality selector의 retrieval system : WikiSearch API
- summarization and fact-checking factuality scoring fucntion : FactKB와 VitaminC
- black-box LLM으로는 Codex(CODE-DAVINCI-002)를 사용
Tasks and Datasetss
- General-purpose QA
  - MMLU : multiple-choice QA dataset covering 57 tasks in humanities, STEM, social sciences…
  - 5-shot in-context learning setting
- multi-domain knowledge synthesis
  - LUN misinformation detection dataset with 2-way and 4-way
  - 16-shot in-context learning setting
- temporal knowledge update
  - MIDTERMQA : 2022 U.S. midterm elections
    - 대부분의 black box 모델의 데이터는 최대 2021년도까지라, knowledge update능력을 확인할 수 있음
  - open-book(단답식), 2-way, 4-way
  - 5-shot in-context learning setting

** 다른 temporal QA datset는 특정 사건이나 knowledge domain에 초점을 둔게 아니므로 평가 데이터셋으로 사용하지 않음

Baselines
- vanilla black-box LLMs : Codex, PaLM, Flan-PaLM
- generated knowledge prompting approaches : GKP, recitation, GRTR → LLM으로 같은 codex를 활용
- retrieval-augemented language models : Atlas, RePlug, RePlus LSR

Results

MMLU
- 다른 방식에 비해 Knowledge card가 높은 성능을 보임
  - 특히 top-down방식이 bottom-up보다 높은 이유는 MMLU에서 external knowledge가 필요 없는 문제(e.g. math)들이 존재하기 때문이라 주장
- 특히, PALM모델의 경우 540B임에도 불구하고 Knowledge card(175B)보다 성능이 낮음

Misinformation Detection
- MMLU와 달리, bottom-up이 더 높은 성능을 보임
  - 저자들은, 해당 태스크에선 여러 domain의 정보를 통합하여 답을 내는 것이 중요하기 때문이라 주장
  - 여러 도메인을 활용해야하는 상황에서는 knowledge card의 성능이 확실히 우세

MidtermQA
- 2022 U.S midterm에 관한 news articles를 추가 knowledge card로 학습, 전체 프레임워크에 plug-in
- 특히 같은 midterm election news를 retrieval corpora로 사용하는 SI et al(codex+contriver)보다 성능이 우세
- generated knowledgte prompting approches는 vailla Codex보다 성능이 대체로 낮음
  - 내부 LLM knowledge가 outdated되거나 틀렸을 경우, LLM에서 prompting해서 knowledge를 생성하는 것이 비효율적임

Patching LLM Knowledge
- knowledge card를 추가할 때 마다, 성능 증가 폭을 보여줌(top-down 방식 사용)
- 풀고자 하는 task 기준 in-domain인 knoweldge card(News, wikipedia)를 추가했을 때가 가장 성능이 크게 향상됨

Knowledge Selctor Study
- selector에 따른 성능 변화 보여줌
- factuality selector가 성능에 가장 큰 영향을 끼침

Retireval vs Specialized LMs
- 둘다 Wikipedia만 활용해 misinformation detection 성능 측정
- Knowledge card의 성능이 우세한 것으로 보아, knowledge card가 더 나은 repository임을 주장

Knowledge Stream Analysis
- n1 : 각각의 specialized LM에서 생성하는 document개수
- n2 : 3가지 selector이후 남은 document 개수
- n3 : LLM의 input으로 들어가는 document 개수
- 맨 왼쪽의 경우 어차피 같은 LM에서 생성되기 때문에 document에 큰 차이가 없어 n1이 커져도 성능 변화가 별로 없음
- 가운데 장표의 경우, n2가 커지면 커질수록 non relevance, non factual한 정보가 들어오기 때문에 성능에 해가 됨
- 맨 오른쪽 장표의 경우, n3를 어느정도 크게 해야 multi-domain의 이점이 생김

LLM Compatibility
- CODEX외의 다른 LLM(TEXT-DAVINCI-003, GPT-3.5-TURBO)를 사용했을 때의 성능

Yes/No in Top-Down
- 모델이 external information이 여부 선택에 따른 실제 incorrect, correct 수
- no - incorrect : LLM이 자신의 knowledge를 과신하는 경우
- yes - incorrect : specialized LM에서 좋은 document를 생성하지 못했을 경우

Conclusion

knowledge를 모듈화, LLM에 plug-in해 knowledge intensive task를 푸는 프레임워크 knowledge card를 제안
기존의 방법론 보다 성능이 뛰어나고, 정보 업데이트 및 특정 도메인 정보 추가가 용이하다는 강점을 지님
- 확실히 모델 파라미터를 바탕으로 그때 그때 필요한 document를 생성하기 때문에 RAG방식보다 정보를 유연하게 얻을 수 있다는 것도 강점
단점은 프레임워크를 구성하는 세부 모델이 너무 많음
- fact checking model, summarization model, seperate encoder, specialized-LM, black box LLM 등
얻는 성능 대비 cost가 너무 큼
상용화하긴 어렵지만, 그동안 factuality를 위해 진행되어 온 모든 모델을 잘 조합해서 성능이 높은 프레임워크?를 선보인 느낌
강점이 확실히 크긴 해서, 이렇게 필요한 정보만 업데이트할 수 있는 방식의 무언가..가 있으면 좋을거 같음.. 시도는 좋았다!

Abstract

Introduction

Related works

Proposed Method

Experiment Settings

Results

Conclusion