딥시크, 오픈 소스 사상 최대 규모 LLM 출시…GPT-4o를 따라 잡았다?

2024년 12월 27일, 전 세계 AI 업계에 큰 변화를 일으킬 만한 소식이 전해졌습니다.

중국의 AI 스타트업인 딥시크(DeepSeek)가 딥시크-V3(DeepSeek-V3)라는 대형 언어 모델을 발표하며 그 성능을 극대화한 오픈 소스 AI 모델을 공개했습니다.

이번에 공개된 딥시크-V3는 기존의 오픈 소스 모델들을 훨씬 능가하는 성능을 자랑하며, 심지어 OpenAI의 GPT-4o보다도 뛰어나다는 주장을 펼쳤습니다.

이 모델은 6710억 개의 매개변수를 가지고 있으며, 현재까지 발표된 오픈 소스 대형언어모델 중 가장 큰 규모를 자랑합니다.

이번 블로그에서는 딥시크-V3가 어떤 혁신적인 기술을 사용하여 AI 모델의 새로운 이정표를 세운 것인지, 그리고 그 기술적 혁신이 어떤 영향을 미칠지에 대해 자세히 살펴보겠습니다.

딥시크-V3는 6710억 개의 매개변수(parameter)를 가진 대형 언어 모델로, 기존의 메타의 라마 3.1 405B와 알리바바의 큐원 2.5 72B를 뛰어넘는 성능을 자랑합니다. 특히, GPT-4o와 비교하여도 뛰어난 성능을 발휘한다고 강조되었으며, 그 이유는 바로 모델의 크기와 효율성에 있습니다.

딥시크-V3는 약 340억 개의 매개변수만 활성화하여 성능을 유지하면서도, 추론 비용과 메모리 사용량을 대폭 줄이는 기술을 적용하고 있습니다.

이 방식은 '전문가 혼합(MoE)'이라고 불리며, 각 질문에 가장 적합한 모델만을 활성화시켜 효율성을 극대화하는 기술입니다.

훈련 비용과 훈련 데이터 역시 중요한 부분입니다. 딥시크-V3는 14조 8000억 개의 토큰을 사용하여 훈련되었으며, 훈련 비용은 약 82억원으로 추정됩니다. 이는 메타의 라마 3.1(5억 달러, 약 7300억원)과 비교했을 때 매우 경제적이라는 평가를 받고 있습니다.

또한, 엔비디아 H800 GPU 기반 데이터센터에서 훈련을 진행하며, 훈련 속도와 효율성 측면에서 경쟁력을 확보하고 있습니다.

딥시크-V3의 또 다른 혁신적인 기술은 바로 멀티헤드 잠재 어텐션(MLA)와 멀티토큰 예측(MTP)입니다. MLA 기술은 텍스트 내에서 중요한 정보를 반복적으로 추출하여, 중요한 세부 사항을 놓칠 가능성을 줄여주는 기능을 합니다.

MTP는 한 번에 여러 개의 토큰을 예측하여 추론 속도를 높이고, 다양한 텍스트 작업을 보다 효율적으로 처리할 수 있게 만듭니다.

딥시크-V3는 특히 중국어와 수학 중심의 벤치마크에서 뛰어난 성적을 기록하며, Math-500 테스트에서는 90.2점을 받아 큐원(80점)을 크게 앞질렀습니다. 이러한 성과는 딥시크-V3가 얼마나 강력한 성능을 보유하고 있는지를 잘 보여줍니다.

그러나 영어 중심의 테스트에서는 GPT-4o가 우위를 점하는 경우가 있었습니다.

그럼에도 불구하고 딥시크-V3는 거의 모든 벤치마크에서 GPT-4o를 능가하며, 오픈 소스 대형언어모델의 새로운 표준을 제시하고 있습니다.

딥시크-V3는 AI 업계의 새로운 패러다임을 제시하며, 오픈 소스 AI 모델이 어떻게 기술적 혁신을 거듭할 수 있는지를 잘 보여주는 사례입니다.

6710억 개의 매개변수와 경제적인 훈련 비용, 뛰어난 성능을 갖춘 이 모델은 앞으로 많은 개발자와 기업들에게 강력한 도구가 될 것입니다.

특히 오픈 소스 모델의 투명성과 효율성을 중시하는 기업들에겐 딥시크-V3가 매우 중요한 자원이 될 것으로 예상됩니다.

딥시크는 앞으로도 AI 기술의 최전선에서 혁신을 이어갈 것으로 보이며, 이번 딥시크-V3 모델의 공개는 그 시작을 알리는 중요한 이정표가 될 것입니다. 우리는 이 모델이 어떻게 발전하고, 어떤 새로운 가능성을 열어갈지 주목할 필요가 있습니다.

당신을 위한 3줄 요약

딥시크는 6710억 매개변수를 가진 '딥시크-V3'를 발표하며, GPT-4o를 능가하는 성능을 자랑한다.
이 모델은 경제적인 훈련 비용과 효율성 덕분에 AI 산업에서 큰 주목을 받고 있다.
멀티헤드 잠재 어텐션(MLA) 기술과 멀티토큰 예측(MTP)을 활용하여 뛰어난 성능을 발휘한다.

3 line summary for you

DeepSeek released the 'DeepSeek-V3' with 671 billion parameters, outperforming GPT-4o in many areas.
The model is gaining attention for its cost-effective training and efficiency in AI development.
Its advanced technologies like Multi-Head Latent Attention (MLA) and Multi-Token Prediction (MTP) deliver outstanding performance.

구독!! 공감과 댓글,

광고 클릭은 저에게 큰 힘이 됩니다.

Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.

Tester Share [테스터쉐어] - Google Play 앱

Tester Share로 Google Play 앱 등록을 단순화하세요.

play.google.com

저작자표시 비영리 변경금지

'Development News > AI' 카테고리의 다른 글

IBM, 그라나이트 3.1 출시! 강력한 성능과 확장성, 다국어 지원까지... 기업용 AI의 새로운 패러다임 (2)	2024.12.28
챗GPT, 7시간 동안 접속 장애 발생…원인은 MS 데이터센터 정전? (3)	2024.12.28
‘클로드’의 코딩 혁신… 3개월 만에 수익 10배 증가! (1)	2024.12.27
오픈AI의 새로운 도약, 'o3' 등장! 더 강력해진 AI의 미래 (2)	2024.12.22
엔비디아의 신세계: 텍스트로 오디오를 창조하다! 푸가토(Fugatto)가 가져온 미래 기술 혁명 (54)	2024.12.20

Maccrey's Code Lab