반응형 spct1 딥시크, ‘R2’ 성능 예고! 작은 모델로 큰 성과 낸 ‘보상 모델’의 비밀 드디어 나온다, 딥시크 R2의 핵심 기술딥시크가 또 한 번 AI 업계를 뒤흔들 준비를 마쳤습니다.곧 공개될 차세대 모델 ‘딥시크-R2’에 적용될 고효율 보상 모델이 발표되었기 때문이죠.이번에 공개된 기술은 단순한 모델 향상을 넘어,“작은 자원으로도 큰 성능”을 낼 수 있다는 가능성을 보여줍니다.작은 RM이 어떻게 거대한 모델을 이겼을까?🧩 1. GRM이 뭐야?RM (Reward Model): 강화학습(RL)에서 ‘어떤 답이 좋은가’를 평가하는 모델GRM (Generative Reward Modeling): 그냥 점수만 주는 게 아니라,스스로 비판하고 평가하는 방식으로 더 똑똑한 RM을 만드는 기술📌 요약: 기존엔 RL을 하려면 큰 RM이 필요했지만, GRM은작은 RM으로도 비슷한 성능을 낼 수 있게 .. 2025. 4. 11. 이전 1 다음 반응형