HyperClova X Technical Report
안녕하세요 오늘 소개할 논문은 Direct Preference Optimization: Your Language Model is Secretly a Reward Model입니다.
https://arxiv.org/abs/2404.01954
HyperCLOVA X Technical Report
We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competitive capabilities in English, math, and coding. HyperCLOVA X was trained on a balanced mix of Korean, English, and code data,
arxiv.org
서론
HyperCLOVA X는 한국어와 문화에 맞춰진 대규모 언어 모델(LLM) 제품군으로,한국어에서 오픈소스 중에서는 가장 뛰어난 지표를 보여주고 있으며 영어, 수학, 코딩에서도 경쟁력을 갖추고 있습니다. 이 테크니컬 리포트에서는 다양한 벤치마크를 통해 평가되며, 한국어 이해와 문화적 뉘앙스에 대한 깊은 이해를 바탕으로 강력한 추론 능력을 보여줌을 증명하고 있습니다.
기존 LLM모델의 경우 영어권 사용자의 문화와 규범을 학습하였기에 한국의 정서와는 맞지않는 대답들을 하곤 합니다. 그렇기에 HyperCLOVA X (이하 HCX)의 경우 한국어, 영어, 코딩등을 균등학습하고, 이후 사람의 주석이 들어간 고품질데이터를 추가하여 한국의 정서에 맞는 LLM모델을 개발하였습니다.
높은 파라미터를 보유한 HCX_L과 스텐다드한 HCX_S 두 가지의 모델을 구현하였으며, HCX만의 강점인 철저한 윤리원칙을 기반으로 한 신뢰할 수 있는 AI모델을 만드는것을 목표로 LLM모델이 제작되었습니다. 그러므로 특히 윤리원칙이 반드시 사업적 요소로 필요로 하는 기업의 경우 HCX에 대한 수요가 있을것으로 판단됩니다.
학습 방법
학습진행의 경우 각 언어에 대해 토큰화된 문서 1000개의 평균 길이가 존재합니다. HCX의 경우 평균적으로 가장 적은 토큰을 사용하여 텍스트를 인코딩하였고, 높은 압축률을 보여줍니다. 이는 학습 시간 과정에서 더욱 빠른 학습률을 보여줄 수 있습니다.
SFT
감독된 fine-tuning 모델의 경우 <|user|>, <|assistant|>, <|endofturn|>, 3가지 형태로 사용자와 어시스턴트를 구분하였음.
RLHF
SFT모델을 완성시키면 당연히 작업 수행은 가능하지만, 더 유익하고, 유해한 컨텐츠에대한 높은 방어율을 보이려면 RLHF를 통해 보상모델을 최적화 시킬 필요가 있습니다.
HCX의경우 인간 선호도 데이터를 구현하고, PPO를 통해 보상을 최대화 시켰습니다. 보상 모델의 경우 Bradely-Terry모델(상대적 선호도나 우위를 평가하는 통계적 모델. 주로 두 개의 모델을 경쟁시켜 두 대상간의 선호도나 승리확률을 예측하는 모델)을 사용하여 음의 로그우도를 최소화시켜 보상값을 최대화시키는 방식을 취하였습니다.
강화학습은 PPO기반 KL(Kullback-Leibler) 패널티를 k = 0.04로 보상에 추가했다고 합니다.
정책 네트워크의 경우 Post-SFT모델로 초기화되며, 이 모델은 KL 패널티를 계산하는데에도 사용됩니다.
RLHF의 단점인 학습 이후 출력 길이가 증가하는 현상을 해결하고자 HCX의 경우 반복적인 인간 피드백이 사용되었습니다. (이 부분에 대해서는 아직 명확한 솔루션이 없나 봅니다.)
일반적인 PPO학습의 경우 SFT에 비해 4배 많은 모델이 필요하며, 순차적으로 학습이 진행된다고 합니다만, HCX의 경우 학습의 많은 과정을 비동기식으로 변경하여 전체 학습속도를 줄이고, 프로세스를 자체 MLOps엔진을 통해 개선시켰다고 적혀있습니다.
Core Benchmarks
GPT, Falcon, LLaMA, polyglot, KORani, Solar등 많이 사용되고 있는 오픈소스와 최신LLM 모델들을 대상으로 비교하였습니다. 논문에는 정말 많은 지표들에 대한 평가가 존재하고, KMMLU등 한국 특수 벤치마킹 지표도 있으나 은근슬쩍 GPT와의 비교는 빠져있습니다.(GPT3.5의 MMLU 점수가 70.00, HCX-L의 경우 MMLU 점수가 67.98이니 많은 부분에서 점수가 낮으므로 뺀 것 같습니다.)
HCX모델이 GPT보다 안 좋을 뿐이지, 많은 오픈소스들에 비해서는 많은 장점을 보이고 있습니다.
Safe and Responsible AI
HCX의 경우 윤리적인 문제를 굉장히 많이 신경쓴 모델이라 소개합니다. 성적, 정치적, 종교적 등등 많은 윤리적인 문제가 있는 프롬프트에는 대답해주지 않거나, 대안을 제시하는 방식으로 질의가 오가게 됩니다. 이는 레드팀을 꾸려서 윤리원칙에 위배되는 질문이나 롤플레잉, 탈옥과 같은 데이터를 수집하였고, 유해점수를 0~7점까지 구분하여 만점 데이터가 없으면 주석작성자(인간)이 올바른 답변을 작성하고, 만점데이터가 있으면 그 답변을 기준으로 새로운 SFT데이터로 사용했다고 합니다.
결론
실제로 HCX모델을 사용해보진 못했지만, AI 컨퍼런스 당시 네이버 LLM개발 팀장분과 짧은 이야기를 나눈적이 있는데, 선거철과 같이 민감한 질문에 대답을 하게되면 짤릴 각오로 준비하였다는 일담을 들었습니다. 윤리적인 측면에서는 논문에서도 자신있어하는 뉘양스가 느껴지니 실사용을 해보고싶은 생각이 들었습니다.