반응형 nemotron1 딥시크 R1이 벌써 밀렸다? 엔비디아와 딥시크의 '추론 전쟁'…승자는 누구? AI 업계에 큰 지각 변동이 일어나고 있습니다.지난 몇 달간 놀라운 성능을 자랑하며 주목받은 딥시크 R1이 연이어 새로운 모델들에게 추월당하고 있는 것입니다.특히, 엔비디아가 공개한 ‘라마-3.1-네모트론-울트라-253B’와 딥시크의 자체 보상 모델 GRM-27B가 AI 추론 모델의 새로운 기준을 제시하고 있습니다.딥시크, R2를 위한 '고효율 보상 모델' GRM-27B 공개딥시크는 최근 강화학습(RL)의 핵심인 보상 모델(RM, Reward Model)을 새롭게 개선한 DeepSeek-GRM-27B를 공개했습니다. 핵심은 "작은 RM으로도 큰 모델 못지않은 효과를 낼 수 있다"는 것이었죠. 기존에는 R1 같은 초대형 모델(671B 파라미터)을 학습시키기 위해서는 동급의 초대형 RM이 필요하다고 여겨졌습.. 2025. 4. 11. 이전 1 다음 반응형