본문 바로가기
Development News/AI

알리바바, 세계 최고 성능의 수학 전용 AI 모델 '큐원2-매스' 오픈 소스 공개

by Maccrey Coding 2024. 8. 13.
반응형

알리바바의 수학 전용 AI 모델 출시

알리바바가 수학 전용 소형 언어 모델(sLM)인 '큐원2-매스(Qwen2-Math)' 시리즈를 오픈 소스로 공개하며 AI 업계에서 주목받고 있습니다.

이 모델은 뛰어난 수학적 성능을 자랑하며, 오픈AI의 'GPT-4o', 앤트로픽의 '클로드 3.5 소네트', 구글의 '제미나이 1.5 프로' 등 유명 AI 모델들을 능가하는 성과를 보였습니다.

큐원2-매스의 성능과 주요 특징

 

알리바바는 720억, 70억, 15억 매개변수로 구성된 영어 기반의 '큐원2-매스' 시리즈를 출시했습니다.

특히, 가장 큰 모델인 '큐원2-매스-72B-인스트럭트'는 수학경시대회 수준의 MATH 벤치마크에서 84%라는 높은 점수를 기록했습니다.

이는 GPT-4o의 76.6%, 클로드 3.5 소네트의 71.1%, 구글의 매스-제미나이 1.5 프로의 80.6%를 능가하는 성과입니다.

 

또한, 초등학교 수학 벤치마크인 GSM8K에서는 96.7%의 점수로 경쟁 모델을 뛰어넘었으며, 대학 수준의 칼리지 매스 벤치마크에서도 47.8%라는 높은 성과를 보였습니다.

중간 크기 모델인 '큐원2-매스-7B-인스트럭트' 역시 매스, GSM8K 및 칼리지 매스 벤치마크에서 동급 최고 점수를 기록했습니다.

 

특히, 가장 작은 버전인 '큐원2-매스-1.5B-인스트럭트' 모델도 MATH 벤치마크에서 69.4%, GSM8K에서 84.2%, 칼리지 매스에서 44.2%의 점수를 기록하며, 더 큰 모델들과 비교해도 경쟁력 있는 성능을 보였습니다.

수학 전용 AI 모델의 중요성과 미래 전망

수학 능력은 AI 모델의 추론 능력을 평가하는 데 중요한 역할을 합니다. 수학은 언어 항목과 달리 정답이 하나만 존재하기 때문에 AI의 정확성과 논리적 추론 능력을 가늠하는데 최적의 기준이 됩니다.

이런 이유로, 알리바바의 '큐원2-매스' 모델은 인공일반지능(AGI) 개발에서도 중요한 역할을 할 수 있습니다.

 

이번 알리바바의 큐원2-매스 시리즈 출시로 AI 모델의 수학적 능력이 한 단계 도약할 것으로 기대되며, AI 연구 및 응용 분야에서도 중요한 이정표가 될 것입니다.

다만, 월간 활성 사용자가 1억 명을 넘는 상업적 사용에 대해서는 별도의 라이선스가 필요하다는 점도 주목할 만합니다.

 

당신을 위한 3 요약

  1. 알리바바는 세계 최고 성능의 수학 전용 AI 모델 '큐원2-매스' 시리즈를 오픈 소스로 공개했습니다.
  2. 큐원2-매스는 기존의 유명 AI 모델들을 능가하는 수학적 성능을 보여줍니다.
  3. 이 모델은 AI의 추론 능력을 가늠하는 중요한 지표로, 인공일반지능(AGI) 개발에도 기여할 수 있습니다.

3 line summary for you

Alibaba has released an open-source, math-focused AI model series called "Qwen2-Math." The models, available in different parameter sizes (72B, 7B, and 1.5B), outperform well-known models like OpenAI's GPT-4o and Google's Gemini in math benchmarks. This release highlights the growing importance of math capabilities in AI, particularly for evaluating reasoning and accuracy in artificial general intelligence (AGI) development. The models are open-source, but a commercial license is required for applications with over 100 million monthly active users.

 

Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.

 

Tester Share [테스터쉐어] - Google Play 앱

Tester Share로 Google Play 앱 등록을 단순화하세요.

play.google.com

 

반응형