paper review

Direct Preference Optimization: Your Language Model is Secretly a Reward Model논문 리뷰.

민윤홍 2024. 3. 12. 17:01
반응형

안녕하세요 오늘 소개해드릴 논문 리뷰는 이미 많은 사람들이 리뷰한 논문인 Direct Preference Optimization: Your Language Model is Secretly a Reward Model입니다.

 

배경색은 의미를 내포하고 있습니다!

파란 배경 : 중요하다 생각하는 부분

빨간 배경 : 내 의견이 반영된 부분

 

기존 RLHF의 방법은 불안정한 절차, 사람의 견해가 들어간 비 일관성, 높은 리소스의 한계 등 여러 단점이 있었음. 하지만 DPO(직접 선호도 최적화) 방식을 통해 높은 안정성과 적은 리소스의 이점을 취하면서 본 논문에서 언급되겠지만, 일반적인 RLHF보다 좋은 퍼포먼스를 보여준다고 주장함.

 

 

 

논문 링크 : https://arxiv.org/abs/2305.18290

 

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining s

arxiv.org

 

요약

이 논문은 기존에 인간의 선호도를 반영하여 언어 모델을 미세 조정하는 복잡한 방법 대신, 직접 선호도 최적화(Direct Preference Optimization, DPO)라는 방법을 제안함. DPO는 인간의 선호 데이터에 대한 분류 문제를 해결함으로써 보상 모델을 적합시키거나, 미세 조정 중에 언어 모델에서 샘플링을 수행하거나, 하이퍼파라미터 조정을 수행할 필요 없이 여러개의 대화를 생성하고 사람에게 선호되는 답변을 선택하게 함으로써 언어 모델의 성능을 향상시킴. 실험 결과, DPO는 기존 방법들과 같거나 더 나은 성능을 보이면서 구현과 훈련이 훨씬 간단하다는 장점이 있다.

 

 

방법론

RLHF와 DPO의 정책 개선 방식

기존 RLHF의 경우, 보상 모델을 구현하고 RL로 보상을 최대화 시키는 정책을 찾는 것이 목적이였다면,

DPO의 경우 간단한 분류 목표를 통해 최적의 정책을 닫힌 형태로 출력하는 것이 목표이다. 즉 인간의 선호도에 맞게 모델을 최적화 시킬 수 있다.

 

수식 해석

Bradely-Terry(BT)모델

주어진 프롬프트 x에 대해 y1이 y2보다 선호될 확률

x = 프롬프트

y = 답변

y1 > y2 : 한 답변에 대한 선호도

r*(x,y1) : 잠재적인 보상 모델. 실존하진 않으나, 선호도를 모델링하기 위해 개념적으로 구현된 내부 매커니즘.

p*(y1>y2 | x) : 주어진 입력x에 대해 y1이 y2보다 선호할 확률.

 

확률 P에 대해 프롬프트 x를 입력했을때, 두개의 답변 y1, y2가 주어지고, y1이 y2보다 선호되는 답변을 제공해줄 확률을 정책으로 개선시키는 것이 BT모델의 작동 방식이다.

 

최대우도 측정(maximum likelihood estimation)

최대우도 측정 수식

D:정적 데이터셋.

θ(x,y) : 파라미터 θ를 가진 보상 모델

θ : 시그모이드 함수

~D [log θ(r θ(x,yw)-r θ(x,yl))] = 선호되는 답변 yw와 선호되지 않는 답변 yl의 의 보상 r의 차이를 log θ 로 치환시킴.

 

즉 손실 함수 Lr(r θ, D)는 데이터셋 D에 대한 기대치를 계산하여 손실을 최소화시키는 방식이다.

 

 

RL-Fine-tuning Phaze

fine-tuning-phaze

r θ(x,y) : 파라미터 θ를 가진 보상 모델

LR( r θ, D) : 데이터셋 D에 대한 음의 로그-우도 손실(negative log-likelihood loss)

π θ : 강화학습 단계에서 최적화되는 현재의 파인-튜닝된 모델.(제자)

π ref (y|x) : 참조 언어모델(선생). 강화학습 과정을 안내하고, 에이전트가 배우는 행동의 품질을 평가해줌.

BDkl[ π θ (y|x) || π ref (y|x)] : KL(kullback-Leibler)발산. 모델 π θ  π ref 의 확률 분포의 차이를 측정한다. 이때 B는 가중치이다.

 

 

수식을 한국말로 풀어서 요약해보자면, 학습하고자 하는 언어모델 π θ 가 선택한 답변 y에대해, 보상모델 R(x,y)이 예측한 보상의 기대값을 최대화 하는 것이 최대 우도측정 방식이다.

즉, 모델이 높은 보상을 받을수 있도록 언어모델 πθ 와 선생언어모델 π ref (주로 gpt-4와 같이 좋은 언어모델)사이에서 KL(kullback-Leibler)발산을 최소화하여 보상을 높이는 방식임. KL발산이 적을수록 πθ  πref를 최대한 따라한다는 뜻이기에 선생모델의 정책 레퍼런스를 참고한다는 의미와 같다.

 

 

결과 

KL과 샘플링 온도 지표

 

인간형 대화에 대한 GPT-4 정답 응답비율과 fine-tuning step별 정답률

다양한 학습 방법론을 적용했을때의 퍼포먼스 지표이다. 마치 DPO가 정론이라고 말하는 듯 높은 퍼포먼스를 보여주고 있다. 

 

 

 

RLHF와의 비교분석

구분 RLHF DPO
목적 언어 모델의 출력을 인간의 피드백으로 개선 인간의 선택지를 바탕으로 모델의 정책을 개선
피드백 형태 직접적인 보상, 오류검증, 수정 등 비교를 통한 선호도 선택
적용 예시 대화생성, 문서요약, 번역등의 언어생성작업에 적합 선호도, 선택에 초점을 둔 작업에 적합 (제품추천, 콘텐츠 순위 등)

 

이 연구의 강점:

  1. 자동화된 피드백 통합: 인간의 비교 선택만으로 대규모 언어 모델을 효율적으로 미세 조정할 수 있습니다. 이는 인간 평가자의 시간과 비용을 절약할 뿐만 아니라, 빠르게 변화하는 데이터에 모델을 적응시키는 데 유용하다.

  2. 구현의 간결성과 효율성: 복잡한 훈련 절차나 추가적인 데이터 가공 없이도 언어 모델의 품질을 개선할 수 있기 때문에 보다 효율적으로 고품질의 언어 모델을 구축하고 배포할 수 있다.

 

한계점

  1. 데이터 양과 질의 의존도: DPO 방법은 풍부하고 다양한 인간의 선호도 데이터에 크게 의존하므로, 제한된 또는 편향된 데이터는 모델 성능에 부정적인 영향을 미칠 수 있음. (RLHF보다 개선된 방법이긴 하나, 결국 인간이 하는 피드백이기 때문에 일관성이 부족함)
  2. 범용성과 전이 학습의 제약: 특정 도메인이나 작업에 맞춰진 선호도 데이터를 사용하여 훈련된 모델이 다른 문맥이나 도메인에 적용될 때, 성능이 일관되지 않을 수 있어 범용성과 전이 학습 능력에 한계가 있을 수 있음.(이는 GPT-4와 같이 더 높은 성능의 foundation모델을 생성할 때 적용해야 의미가 있다고 생각함.)