본문 바로가기
반응형

LLM31

미니맥스, 역대 최대 컨텍스트창 갖춘 오픈 소스 모델 공개…"AI 에이전트에 특화" 중국의 대표 AI 스타트업 미니맥스가 역대 최대 크기의 컨텍스트 창을 자랑하는 오픈 소스 모델 ‘미니맥스-01’을 공개했다.이 모델은 기존 AI 에이전트들의 장기 컨텍스트 처리 능력을 확장해 다가오는 AI 시대에 대응할 수 있도록 설계되었다.미니맥스-01은 두 가지 시리즈로, 텍스트 처리에 최적화된 ‘미니맥스-텍스트-01’과 비전-언어 처리에 특화된 ‘미니맥스-VL-01’로 구성되어 있다.특히, 이 모델은 혁신적인 라이트닝 어텐션 메커니즘과 전 세계 최대 전문가 혼합 아키텍처를 통해 긴 시퀀스와 대규모 데이터 처리에서도 우수한 성능을 발휘한다. 미니맥스는 최근 오픈 소스 AI 모델을 통해 주목받고 있는 중국의 대표 스타트업이다. 이번에 공개된 미니맥스-01은 그동안 제한적이었던 AI 모델의 컨텍스트 처리.. 2025. 1. 17.
오픈AI의 새로운 도약, 'o3' 등장! 더 강력해진 AI의 미래 인공지능 기술이 또 한 번의 도약을 맞이하고 있습니다.세계적인 대형언어모델(LLM) 개발 기업 오픈AI가 새로운 추론 모델 ‘o3’를 공개하며, AI 기술의 진화 속도를 다시 한번 증명했습니다.기존 모델인 ‘o1’ 대비 성능이 비약적으로 향상된 o3는 연구자와 개발자들에게 사전 테스트를 통해 첫선을 보이며, 인공지능의 새로운 표준을 제시하고 있습니다.이번 발표는 인공지능의 정확성과 효율성, 그리고 안전성 모두에서 큰 진전을 이루었다는 점에서 특히 주목받고 있습니다.o3: 더 강력해진 추론 능력오픈AI가 새롭게 선보인 o3는 소프트웨어 분석 벤치마크 ‘SWE-bench Verified’에서 71.7%의 정확도를 기록하며, 직전 모델인 o1 대비 20% 성능 향상을 이뤄냈습니다.특히, 경쟁 수학 벤치마크에서.. 2024. 12. 22.
메타, 비용은 낮추고 성능은 높인 '라마 3.3 70B' 출시! AGI 경쟁의 새로운 강자 등장 2024년 12월 7일, 메타는 최신 오픈 소스 대형 언어 모델(LLM)인 '라마 3.3 70B'를 발표했습니다.이 모델은 매개변수가 700억 개에 불과하지만, 그 성능은 오픈AI의 GPT-4, 구글의 제미나이 1.5와 같은 첨단 모델과 견줄 만큼 뛰어난 성능을 자랑합니다.특히 중요한 점은 이 모델이 기존보다 훨씬 저렴한 비용으로 제공된다는 점인데, 이는 기업과 개발자들에게 큰 매력으로 다가옵니다.과연 '라마 3.3 70B'가 AI 시장에서 새로운 강자로 자리 잡을 수 있을지 주목됩니다.라마 3.3, 700억 개의 매개변수로 성능 향상메타는 '라마 3.3 70B' 모델을 통해 700억 개의 매개변수로도 뛰어난 성능을 발휘한다고 자랑합니다.기존의 대형 모델들은 수백억 개의 매개변수를 사용하면서도 매우 높은.. 2024. 12. 8.
MS와 칭화대학교, 트랜스포머 성능 개선하는 새로운 LLM 아키텍처 ‘차등 트랜스포머’ 공개! 마이크로소프트(MS)와 칭화대학교의 연구진이 트랜스포머 아키텍처의 성능을 개선하는 새로운 대형 언어 모델(LLM) 아키텍처인 차등 트랜스포머(Diff Transformer)를 발표했습니다. ( github 소스 오픈 )이 새로운 모델은 긴 컨텍스트 정보를 더 잘 활용할 수 있도록 설계되어, 기존 트랜스포머의 한계를 극복하고자 합니다.이번 발표는 LLM의 발전에 중요한 이정표가 될 것으로 기대됩니다.트랜스포머 아키텍처의 한계트랜스포머 아키텍처는 대부분의 LLM의 기반이 되지만, 긴 입력 컨텍스트에서 중요한 정보를 효과적으로 찾아내기 어려운 문제를 가지고 있습니다. 연구에 따르면, 트랜스포머는 특히 긴 컨텍스트의 중간에 있는 정보를 제대로 활용하지 못해 성능이 저하되는 경향이 있습니다.어텐션 메커니즘의 문제.. 2024. 10. 19.
업스테이지 LLM ‘솔라 프로’ 프리뷰 공개: 무료 API 및 오픈소스 이용법과 성능 분석 2024년 11월, AI 업계가 주목하고 있는 대형 언어 모델(LLM)인 ‘솔라 프로(Solar Pro)’가 정식 출시됩니다.업스테이지는 이에 앞서 무료로 제공되는 API와 오픈 소스 프리뷰 버전을 공개했습니다.솔라 프로는 기존 솔라 시리즈의 상위 모델로, 성능 면에서 대폭 향상되었으며, 단 1개의 GPU로도 실행이 가능하다는 점에서 주목받고 있습니다. 솔라 프로 프리뷰오픈소스와 무료 API 제공 솔라 프로 프리뷰 버전은 개발자들이 실제로 테스트할 수 있도록 제공되며, 무료 API 호출까지 지원됩니다.프리뷰 버전은 영어만 지원하고, 입력 토큰 수는 4096자로 제한되어 있지만, 정식 출시에서는 더 큰 컨텍스트 창을 제공할 예정입니다. 이러한 접근 방식은 AI 모델 개발에 대한 진입 장벽을 낮추고, 더 많.. 2024. 9. 12.
젠RM: 구글 딥마인드의 새로운 LLM 정확도 향상 도구 구글 딥마인드가 LLM(대형 언어 모델) 응답의 정확도를 높이기 위한 혁신적인 접근법인 ‘젠RM(GenRM)’을 공개했습니다. 이 기술은 LLM이 스스로 응답을 검증하는 기능을 통해 보다 신뢰할 수 있는 결과를 도출하는 데 중점을 둡니다. 대형 언어 모델(LLM)은 다양한 응답을 생성할 수 있지만, 그 중 어떤 응답이 가장 정확한지를 판단하는 것은 여전히 어려운 과제였습니다.지금까지는 별도의 검증기나 보상 모델(RM)을 활용해 최상의 답변을 선택하는 방식이 일반적이었습니다.그러나 구글 딥마인드는 이와는 다른 접근법을 제안했습니다.젠RM의 핵심: ‘다음 토큰 예측’과 CoT 기반 검증젠RM의 핵심은 LLM의 텍스트 생성 능력을 활용해 응답을 자체적으로 검증하는 것입니다.특히, ‘다음 토큰 예측(next t.. 2024. 9. 6.
반응형