본문 바로가기
Development News/AI

카카오는 어떻게 멀티모달 AI의 미래를 열었나? 텍스트, 음성, 이미지 통합 '카나나-o' 공개

by Maccrey Coding 2025. 5. 3.
반응형

AI의 진화, 카카오는 어디까지 왔나?

AI의 미래는 이제 다양한 형태의 입력을 처리하고, 다양한 출력을 생성하는 능력에 달려 있습니다.
카카오는 2025년 5월 1일, 그 어느 때보다 강력한 AI 모델 **'카나나-o(Kanana-o)'**를 공개했습니다.
이 모델은 텍스트, 음성, 이미지를 모두 처리할 수 있는 멀티모달(Multi-modal) AI로, 기존 AI 모델의 한계를 뛰어넘는 혁신적인 기술을 선보였습니다.
그렇다면 카나나-o는 어떤 기능을 가지고 있으며, 어떻게 AI의 미래를 이끌어갈 수 있을까요?


'카나나-o', 텍스트·음성·이미지 통합 모델의 혁신

1. 카나나-o: 텍스트, 음성, 이미지의 통합

카나나-o음성, 텍스트, 이미지의 형태로 다양한 데이터를 입력받고, 상황에 따라 텍스트나 음성으로 응답할 수 있는 통합 멀티모달 언어모델입니다.
이 모델의 가장 큰 특징은 바로 다양한 형태의 입력을 처리할 수 있다는 점입니다. 카나나-o는 배경음이 섞인 상황에서의 음성 인식, 감정 묘사, 지역 방언의 이해, 음성 통역, 이미지 이해와 음성 응답 등의 기능을 통해, 사람처럼 보고 듣고 말하며 공감하는 AI의 가능성을 보여줍니다.

2. 모델 병합으로 더 빠르고 정확한 학습

카나나-o는 기존의 카나나-v카나나-a라는 두 모델을 병합하여 만들어졌습니다.
이 과정은 서로 다른 특화된 모델을 하나로 합치는 방식으로, 학습 시간 단축효율성을 극대화하는 장점이 있습니다.
특히 카나나-v는 정제된 이미지-텍스트 데이터를 학습하여 음성을 생성하고, 이를 바탕으로 카나나-o3가지 모달리티(이미지, 오디오, 텍스트) 간의 상호작용을 학습하게 되었습니다.
이처럼 카나나-o는 기존 LLM보다 한층 더 복잡한 데이터 연결성을 이해하며, 상호작용이 중요한 멀티모달 환경을 제대로 다룰 수 있는 능력을 가집니다.

3. 성능 평가: 한국어 음성 감정 이해력에서 뛰어난 성능

카카오는 삼중모달 평가셋을 구성하여, 카나나-o의 성능을 GPT-4o제미나이-1.5와 비교하였습니다.
그 결과, 카나나-o는 한국어 음성에 담긴 미묘한 감정을 더욱 잘 이해하는 능력을 보였다고 합니다.
이는 AI가 단순히 텍스트를 분석하는 것에 그치지 않고, 음성에 담긴 감정을 정확히 파악하는 수준에 이르렀다는 의미입니다.
이러한 성과는 다양한 언어와 감정을 이해할 수 있는 AI로서의 가능성을 엿볼 수 있게 해줍니다.

4. 카카오는 "사람처럼 공감하는 AI"를 목표로

김병학 카나나 성과리더는 카나나 모델이 복합적인 정보를 통합적으로 처리하면서 기존의 텍스트 중심 AI를 넘어, 사람처럼 공감하는 AI로 발전할 것이라고 밝혔습니다.
이제 카카오는 음성 기반 멀티턴 대화, 다국어 확장, 안전성 강화 등을 목표로 지속적인 연구와 개발을 이어나갈 예정입니다.
앞으로 카나나-o는 사람과 같은 공감 능력을 가진 대화형 AI로, 일상에서 더 자연스럽고 유용하게 사용될 것입니다.


'카나나-o'의 미래, 더 나은 AI 사회를 만들다

카나나-o는 단순한 멀티모달 AI 모델이 아닙니다.
이 모델은 텍스트, 음성, 이미지의 경계를 허물고, 인간처럼 보고 듣고 말하며 공감하는 능력을 갖추기 위한 중요한 첫걸음을 내디뎠습니다.
AI가 점점 더 인간적인 감정상호작용을 이해하게 될 때, 우리는 그간 상상하지 못한 새로운 형태의 인공지능 사회를 맞이하게 될 것입니다.
카카오는 이 혁신을 통해 AI 기술의 경쟁력을 강화하며, 국내 AI 생태계 발전에 기여할 계획입니다.


당신을 위한 3줄 요약

  • 카카오는 텍스트, 음성, 이미지 입력을 모두 처리할 수 있는 통합 멀티모달 언어모델 **'카나나-o(Kanana-o)'**를 공개했다.
  • 카나나-o는 배경음 인식, 감정 묘사, 음성 통역 등 고급 기능을 제공하며, 한국어 음성의 감정을 잘 이해한다고 평가받았다.
  • 카카오는 사람처럼 공감하는 AI를 목표로 연구를 지속하며, AI 기술 경쟁력을 강화할 계획이다.

3 line summary for you

  • Kakao unveiled the 'Kanana-o', a unified multimodal language model that processes text, audio, and images.
  • Kanana-o excels in features like background noise recognition, emotion portrayal, and voice translation, especially understanding subtle emotions in Korean audio.
  • Kakao aims to develop empathetic AI through continuous research and enhance its AI technology competitiveness.

째깍째깍...흘러가는 시간 붙잡고 싶다면? 

Study Duck 학습 타이머 즉시 ON! 랭킹 경쟁 참여하고 학습 습관 만들 기회, 놓치지 마세요!

www.studyduck.net

Study Duck팟빵
https://www.podbbang.com/channels/1792491

반응형