반응형 LLM23 MIT의 '테스트-타임 학습'으로 LLM 추론 능력 6배 향상! 복잡한 문제 해결의 새로운 지평 LLM의 한계를 뛰어넘는 혁신적 학습 기술"대형언어모델(LLM)이 의료 진단, 공급망 관리 같은 복잡한 추론 문제에도 강해진다?"MIT 연구진이 개발한 '테스트-타임 학습(Test-time training)' 기술이 LLM의 복잡한 추론 능력을 6배 향상시켰습니다. 이 기술은 모델이 배포 후에도 실시간으로 학습해 낯선 문제에 적응할 수 있도록 합니다.테스트-타임 학습이란?기존 LLM은 맥락 내 학습(in-context learning)에 의존해 새 작업을 처리했지만, 논리적 추론이 필요한 문제에서는 한계가 있었습니다. MIT의 접근법은 다음과 같습니다.소량의 새 데이터로 모델 매개변수 일부를 실시간 업데이트.저랭크 적응(Low-Rank Adaptation) 기술 적용: 전체 모델 재학습.. 2025. 7. 15. 허깅페이스, 3B짜리 괴물 모델 ‘스몰LM3’ 공개! 스마트폰에서도 대형 언어모델 수준?! 🧠 "작다고 무시했다가 큰일 날 뻔!"AI 세계에 '작지만 강한' 혁명이 찾아왔습니다. 바로 허깅페이스(HuggingFace)의 간판 경량 언어모델, ‘스몰LM3’입니다.놀랍게도 이 모델은 단 3B(30억) 매개변수로 구성돼 있지만, 우리가 흔히 알고 있는 7B~13B 크기의 대형 모델들과 맞먹는 성능을 자랑합니다.단순한 경량화가 아닙니다. 장문맥 처리, 도구 사용, 다국어 지원, 고성능 추론까지!휴대폰에서도 실행 가능한 이 작은 거인은, 이제 AI 도구의 접근성과 활용도를 완전히 바꿀 수 있는 열쇠가 될 수 있습니다.⚙️ 왜 스몰LM3가 혁신인가?1. 💡작지만 강한 이유 – 3B의 정밀한 설계스몰LM3는 3B짜리 모델이지만, 대형 모델이 요구되는 작업까지 처리할 수 있도록 설계되었습니다.그 핵심은 .. 2025. 7. 13. 엔비디아, 오픈 소스 코드 추론 모델 OCR 공개 – 성능과 사용법 완벽 정리 최근 엔비디아가 코드 생성과 문제 해결에 최적화된 오픈 소스 코드 추론 모델인 OCR(Open Code Reasoning) 제품군을 공개했습니다. 이번 공개는 코드 AI 분야에서 폐쇄형 모델의 대안을 제시하며 큰 주목을 받고 있습니다. 특히 허깅페이스에 모델 가중치와 구성을 모두 공개하여 개발자와 연구자들이 쉽게 접근할 수 있게 했다는 점이 특징입니다. 이번 글에서는 OCR 모델의 특징, 성능, 활용 방법을 초보자도 이해하기 쉽게 설명하겠습니다.OCR(Open Code Reasoning) 모델이란?OCR 모델은 디버깅, 코드 생성, 논리 완성 등 실제 개발 환경에서 필요한 복잡한 코드 추론 작업을 처리할 수 있도록 설계된 모델입니다. 다음과 같은 세 가지 주요 모델로 구성되어 있습니다.OCR-네모트론-3.. 2025. 5. 12. 알리바바, 검색엔진 없는 AI 훈련 '제로서치' 공개 – 비용 88% 절감 가능 알리바바가 AI 훈련의 혁신적인 방식을 제안하며 업계의 주목을 받고 있습니다. 기존의 고비용 검색엔진 API 의존에서 벗어나, 더 효율적인 AI 검색 능력을 키울 수 있는 '제로서치(ZeroSearch)' 훈련법을 공개했습니다. 이 기술은 AI 개발 비용을 대폭 줄이고 훈련의 복잡성을 낮출 수 있는 새로운 패러다임으로 주목받고 있습니다.제로서치의 핵심 원리알리바바 연구진이 제안한 '제로서치'는 대형언어모델(LLM) 훈련에 있어 기존의 검색엔진 없이도 고성능의 검색 능력을 갖출 수 있도록 설계된 강화 학습(RL) 프레임워크입니다. 주요 특징은 다음과 같습니다.검색엔진 API 없이도 검색 능력 향상기존의 상용 검색엔진은 비용이 비싸고 문서의 품질이 일정하지 않아 안정적인 훈련이 어려웠습니다.제로서치는 LLM.. 2025. 5. 11. Claude AI의 MCP Server란? Anthropic의 비밀 병기 분석! 요즘 인공지능(AI) 기술이 급속도로 발전하면서, OpenAI의 ChatGPT뿐만 아니라 Anthropic의 Claude AI도 주목받고 있습니다.특히, Claude AI가 강력한 성능을 유지할 수 있는 이유 중 하나가 바로 MCP Server입니다. 그렇다면 Claude AI의 MCP Server란 무엇이며, 어떤 역할을 할까요?이번 글에서는 Anthropic이 Claude AI에서 MCP Server를 어떻게 활용하는지 분석해보겠습니다. 1. MCP Server란? (Claude AI 기준)MCP Server는 Model Control and Processing Server의 약자로, Claude AI의 핵심 모델을 관리하고 최적의 성능을 유지하는 역할을 하는 서버입니다. 💡 쉽게 말해?Claud.. 2025. 3. 31. 업스테이지, 올 하반기 ‘추론’ 모델 출시…매개변수 40B 이하 AI 업계를 뒤흔들 새로운 도전, 업스테이지의 ‘추론 모델’ 개발대형언어모델(LLM) ‘솔라’로 인공지능(AI) 시장에서 입지를 확고히 다진 업스테이지가 또 한 번의 혁신을 예고했다. 이번에는 ‘추론 모델’ 개발에 나서며 B2B 시장에서의 활용성을 극대화할 계획이다. 과연 업스테이지의 이번 행보가 AI 시장에 어떤 영향을 미칠지 자세히 살펴보자.업스테이지의 새로운 도전, ‘추론 모델’이란?업스테이지는 2025년 하반기 출시를 목표로 ‘추론 모델’을 개발 중이다. 현재 국내에서 자체적인 추론 모델을 보유한 곳은 LG AI연구원뿐으로, 업스테이지의 참전은 국내 AI 업계에 새로운 변화를 가져올 전망이다. 업스테이지 관계자는 “현재 로드맵만 정해진 상태이며, 구체적인 사항은 확정된 바 없다”고 전했다. 다만 .. 2025. 3. 25. 이전 1 2 3 4 다음 반응형