메타(Meta)는 최근 자사의 '라마' 시리즈 중 첫 번째 대형 멀티모달 모델인 '라마 3.2'를 발표했습니다.
이 모델은 이미지와 텍스트를 모두 이해할 수 있는 능력을 갖추고 있으며, 오픈 소스 형태로 제공되어 폐쇄형 모델과 경쟁할 계획입니다.
이번 글에서는 라마 3.2의 주요 특징과 기대 효과에 대해 살펴보겠습니다.
1. 라마 3.2의 주요 특징
1.1 멀티모달 모델
라마 3.2는 이미지와 텍스트를 동시에 처리할 수 있는 첫 번째 대형 멀티모달 모델입니다. 이 모델은 두 가지 매개변수(11B 및 90B)로 출시되었으며, 모바일 및 엣지 장치에 적합한 1B 및 3B 텍스트 전용 모델도 포함되어 있습니다.
1.2 시각적 이해
마크 저커버그 메타 CEO는 "이것은 우리의 첫 번째 오픈 소스 멀티모달 모델"이라며, "시각적 이해가 필요한 많은 애플리케이션을 가능하게 할 것"이라고 강조했습니다. 라마 3.2는 12만8000 토큰의 컨텍스트 길이를 가지고 있어 대량의 텍스트 입력이 가능합니다.
1.3 다양한 환경에서의 사용
메타는 공식 '라마 스택 배포판'을 공유하여 개발자가 다양한 환경에서 모델을 사용할 수 있도록 했습니다. 이는 온프레미스, 클라우드, 단일 노드 등에서 가능하게 합니다.
2. 경쟁력 있는 성능
라마 3.2는 앤트로픽의 '클로드 3 하이쿠'와 오픈AI의 'GPT4o-미니'와 같은 다른 모델들과 경쟁할 수 있는 능력을 가지고 있습니다.
지시 따르기, 요약, 도구 사용 등의 영역에서 구글의 '젬마'나 마이크로소프트의 '파이 3.5-미니'보다 더 뛰어난 성능을 보이고 있다고 벤치마크를 공개했습니다.
2.1 사용자 맞춤형 옵션
저커버그 CEO는 "오픈 소스는 가장 비용 효율적인 사용자 정의형 옵션이 됐다"고 강조하며, AI의 리눅스라고 부르기도 했습니다.
3. 생성 AI 도구의 성공
메타는 현재 100만 명 이상의 광고주가 자사의 생성 AI 도구를 사용하고 있으며, 이 도구를 통해 지난달 1500만 개의 광고가 생성되었습니다.
메타의 생성 AI를 사용한 광고는 클릭률이 11%, 전환율이 7.6% 더 높았다고 주장합니다.
3.1 음성 인식 기능
라마 3.2에는 유명 배우들의 목소리가 포함되어 있어, AI와의 상호작용이 더욱 자연스러워졌습니다.
저커버그 CEO는 "음성이 텍스트보다 AI와 상호작용하는 훨씬 더 자연스러운 방법이 될 것"이라고 밝혔습니다.
메타의 라마 3.2 모델은 멀티모달 AI의 새로운 가능성을 제시하며, 오픈 소스 형태로 많은 사용자들에게 제공됩니다. 이 모델은 이미지와 텍스트를 동시에 이해할 수 있는 능력을 가지고 있어 다양한 애플리케이션에서 활용될 것으로 기대됩니다.
구독!! 공감과 댓글,
광고 클릭은 저에게 큰 힘이 됩니다.
Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.
'Development News > AI' 카테고리의 다른 글
애플, 비전 프로 2세대 내년 하반기 출시...핵심은 AI와 결합 (1) | 2024.09.30 |
---|---|
카카오, AI 언어모델 성능 평가 위한 ‘펑션챗-벤치’ 데이터셋 오픈소스 공개 (9) | 2024.09.29 |
AI 성능 높이는 '암흑 물질' 데이터 기술 등장 (3) | 2024.09.29 |
애플, 비전 프로 2세대 내년 하반기 출시: AI와의 결합이 핵심 (1) | 2024.09.29 |
오픈AI, '챗GPT' 구독료 인상: 사용자 반응과 미래 전망 (1) | 2024.09.29 |