AI 업계에 큰 지각 변동이 일어나고 있습니다.
지난 몇 달간 놀라운 성능을 자랑하며 주목받은 딥시크 R1이 연이어 새로운 모델들에게 추월당하고 있는 것입니다.
특히, 엔비디아가 공개한 ‘라마-3.1-네모트론-울트라-253B’와 딥시크의 자체 보상 모델 GRM-27B가 AI 추론 모델의 새로운 기준을 제시하고 있습니다.
딥시크, R2를 위한 '고효율 보상 모델' GRM-27B 공개
딥시크는 최근 강화학습(RL)의 핵심인 보상 모델(RM, Reward Model)을 새롭게 개선한 DeepSeek-GRM-27B를 공개했습니다. 핵심은 "작은 RM으로도 큰 모델 못지않은 효과를 낼 수 있다"는 것이었죠.
기존에는 R1 같은 초대형 모델(671B 파라미터)을 학습시키기 위해서는 동급의 초대형 RM이 필요하다고 여겨졌습니다.
하지만 딥시크 연구진은 단 27B 규모의 RM을 통해도 동등한 추론 결과를 얻을 수 있음을 입증했습니다.
이는 곧 더 적은 컴퓨팅 자원으로도 고성능 AI 훈련이 가능하다는 뜻이며, 중소 AI 기업에게는 큰 희소식입니다.
GRM-27B는 SPCT(Self-Principled Critique Tuning)라는 새로운 방법을 사용해, 평가 기준을 스스로 학습하고 비판적으로 검토하여 더 나은 답을 고르는 기능을 갖췄습니다. 이 RM을 활용해 딥시크는 R1의 성능을 67점대 → 72점대로 끌어올리는 데 성공했으며, 향후 출시될 R2 모델에도 적용될 예정입니다.
엔비디아, 절반 크기로 딥시크-R1 능가한 추론 모델 공개
한편, 엔비디아는 허깅페이스를 통해 ‘라마-3.1-네모트론-울트라-253B’를 오픈 소스로 공개하며 시장에 충격을 안겼습니다.
이 모델은 딥시크-R1보다 **파라미터 수는 절반(253B)**에 불과하지만, 추론 성능은 더 뛰어난 것으로 나타났습니다.
이 모델은 ‘추론 토글(Reasoning Toggle)’ 기능으로 단순 작업에선 고비용 추론을 자동으로 끄고, 복잡한 작업에만 성능을 집중하는 똑똑한 구조를 갖췄습니다.
또한 GRPO(그룹 상대 정책 최적화) 기반의 강화학습과 지식 증류(Knowledge Distillation)를 활용해 다양한 분야(수학, 코드 생성, 대화 등)에서 높은 성능을 기록했습니다.
📊 벤치마크 성능 비교
MATH500 | 97.3% | 97.0% |
AIME25 | 79.8% | 72.5% |
GPQA | 71.5% | 76.01% |
LiveCodeBench | 29.03% | 66.31% |
수학 영역에서는 딥시크 R1이 앞서지만, 전반적인 추론 능력에서는 엔비디아가 더 우세한 상황입니다.
'딥시크 R1'의 입지 흔들리나?
딥시크는 R1의 놀라운 성능으로 AI 시장을 장악했지만, 최근 연이어 다른 모델에게 성능을 추월당하는 모습을 보이고 있습니다.
- 딥시크 R1 → 3개월 만에 엔비디아 라마-울트라에 추월
- 코기토 AI도 딥시크 R1 증류 모델 앞지름 발표
이에 따라 업계는 딥시크가 준비 중인 R2 모델의 성능에 촉각을 곤두세우고 있습니다.
앞으로의 관전 포인트
- 딥시크 R2의 공개 시점은 언제?
- SPCT 기반 GRM의 확장성은 어디까지?
- 엔비디아 LLM 오픈소스 전략, 업계 파급력은?
엔비디아와 딥시크의 추론 중심 LLM 전쟁은 이제 시작일 뿐입니다. 적은 자원으로 더 높은 성능을 낼 수 있는 새로운 패러다임이 AI 생태계를 빠르게 재편하고 있습니다.
요약 정리
- 딥시크는 27B 보상 모델 GRM으로 R2 성능을 높일 준비 중
- 엔비디아는 253B 모델로 딥시크-R1 능가하는 성능을 보여줌
- AI 추론 전쟁은 "작은 모델, 큰 효율"의 시대로 가고 있음
"당신의 학습 스타일에 맞춘 효율적인 학습, Study Duck과 함께하세요!"
MBTI에 따라 맞춤형 학습법을 적용하면, 학습 효과가 두 배로! 혼자 학습하면 빠르게 배울 수 있지만, Study Duck은 꾸준히 장기간 학습을 도와줍니다.
학습 타이머로 집중을 유지하고, 리더보드에서 다른 사람들과 경쟁하며 꾸준함을 유지하세요.
지금 바로 Study Duck으로 학습의 새로운 장을 열어보세요!
Study Duck - Smart Learning Assistant
Enhance your study efficiency with personalized MBTI learning strategies, focus mode, and white noise.
studyduck.net
'Development News > AI' 카테고리의 다른 글
오픈AI, 새 추론 AI ‘o3’ 출시! — 이미지도 보고 생각하는 AI의 시대 (1) | 2025.04.17 |
---|---|
비개발자를 위한 Cursor와 Figma MCP 연동 완벽 가이드: 초보자도 쉽게 따라 하는 설정 및 오류 해결법 (4) | 2025.04.15 |
딥시크, ‘R2’ 성능 예고! 작은 모델로 큰 성과 낸 ‘보상 모델’의 비밀 (0) | 2025.04.11 |
구글, '제미나이 2.5 프로' 요금 공개! AI 요금은 왜 계속 비싸질까? (1) | 2025.04.11 |
💥“클로드에 o1 결합했더니”…개발자들 뒤집어졌다! 최강 성능 AI 어시스턴트 등장 이유는? (0) | 2025.04.11 |