구글 딥마인드가 LLM(대형 언어 모델) 응답의 정확도를 높이기 위한 혁신적인 접근법인 ‘젠RM(GenRM)’을 공개했습니다.
이 기술은 LLM이 스스로 응답을 검증하는 기능을 통해 보다 신뢰할 수 있는 결과를 도출하는 데 중점을 둡니다.
대형 언어 모델(LLM)은 다양한 응답을 생성할 수 있지만, 그 중 어떤 응답이 가장 정확한지를 판단하는 것은 여전히 어려운 과제였습니다.
지금까지는 별도의 검증기나 보상 모델(RM)을 활용해 최상의 답변을 선택하는 방식이 일반적이었습니다.
그러나 구글 딥마인드는 이와는 다른 접근법을 제안했습니다.
젠RM의 핵심: ‘다음 토큰 예측’과 CoT 기반 검증
젠RM의 핵심은 LLM의 텍스트 생성 능력을 활용해 응답을 자체적으로 검증하는 것입니다.
특히, ‘다음 토큰 예측(next token prediction)’을 사용해 검증기를 훈련합니다.
예를 들어, 특정 프롬프트에 대해 LLM이 응답을 생성한 후, 그 응답이 올바른지 여부를 단일 텍스트 토큰의 확률로 평가합니다.
이는 "이 답변이 올바른가?"라는 질문에 대해 '네' 또는 '아니오'와 같은 형태로 응답을 점수화하는 방식입니다.
또한, 젠RM은 고급 프롬프트 기술인 사고사슬(CoT) 추론을 지원합니다. CoT 추론을 통해 LLM은 중간 추론 단계를 생성하고, 이를 기반으로 응답의 정확성을 더욱 세밀하게 검증할 수 있습니다.
연구진은 여러 CoT 체인을 샘플링해 다수결 투표 방식으로 검증 정확도를 높였습니다.
젠RM의 성능 평가: GPT-4를 넘어서는 결과
구글 딥마인드의 연구진은 젠RM을 여러 작업에 적용하여 그 성능을 평가했습니다.
대표적인 예로, GSM8K 수학 추론 벤치마크에서 젠RM을 위해 훈련된 '젬마-9B' 모델은 문제의 92.8%를 해결하며, GPT-4와 같은 최신 모델들을 능가하는 성과를 보였습니다.
특히, 데이터셋 크기와 모델 용량이 증가할수록 성능이 더 향상되는 것으로 나타났습니다.
젠RM은 LLM 애플리케이션 개발자들에게 정확성과 계산 비용 사이의 균형을 맞출 수 있는 더 많은 유연성을 제공합니다.
또한, 응답 검증과 생성 과정이 통합되어 일관된 검증 성능을 유지할 수 있습니다.
LLM 응답의 정확도를 극대화하는 젠RM의 가능성
젠RM은 LLM의 응답 정확도를 획기적으로 향상시킬 수 있는 도구로, AI 연구와 개발에 큰 영향을 미칠 것입니다.
특히, 정확도가 중요한 다양한 응용 분야에서 LLM의 신뢰성을 높이는 데 중요한 역할을 할 것으로 기대됩니다.
구독!! 공감과 댓글은 저에게 큰 힘이 됩니다.
Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.
'Development News > AI' 카테고리의 다른 글
AI 동영상 제작 도구 대격돌: 오픈AI ‘소라’부터 구글 ‘비오’까지, 최신 AI 기술 분석! (3) | 2024.09.06 |
---|---|
구글, AI로 무장한 안드로이드 업데이트: 새로운 기능 5가지 (2) | 2024.09.06 |
노르웨이 1X 테크놀로지스, 가정용 휴머노이드 로봇 ‘네오 베타’ 연말 시범 배치 (8) | 2024.09.06 |
국내 86%가 AI 챗봇 알아...나이 들수록 인지도·사용률 감소 (1) | 2024.09.05 |
일론 머스크 xAI, 세계 최대 AI 슈퍼컴퓨터 '콜로서스' 가동...122일 만에 10만 개의 H100 GPU로 구축 (2) | 2024.09.05 |