본문 바로가기
Development News/AI

카카오, AI 언어모델 성능 평가 위한 ‘펑션챗-벤치’ 데이터셋 오픈소스 공개

by Maccrey Coding 2024. 9. 29.
728x90
반응형

한국어 AI 생태계의 혁신

카카오는 최근 인공지능 언어모델의 성능을 평가하기 위한 데이터셋인 ‘펑션챗-벤치(FunctionChat-Bench)’를 국내 최초로 구축하고 오픈소스로 공개하였습니다. 이 데이터셋은 AI 언어모델의 펑션콜(Function Call) 기술을 평가하는 데 중점을 두고 있으며, 한국어 대화 데이터를 기반으로 설계되었습니다.

펑션콜이란 무엇인가?

펑션콜은 AI 언어모델이 스스로 수행할 수 없는 작업을 외부 도구(API 등)와 연결하여 수행하도록 지시하는 기술입니다. 예를 들어, 지도 API와 연결하면 사용자가 실시간 도로 정보를 얻을 수 있습니다. 이는 언어모델의 기능을 확장하고 새로운 가능성을 열어줍니다.

FunctionChat-Bench는 대화형 환경에서 언어 모델의 도구 사용(함수 호출) 기능을 평가하기 위해 특별히 설계된 벤치마크 데이터 세트로 한국어 대화 데이터를 기반으로 구축되었으며, 단일 턴과 다중 턴 상황에서 필요한 다양한 기능을 정확하게 평가하도록 세심하게 제작

데이터셋의 구성 요소

‘FunctionChat-Bench’ 데이터셋은 다음과 같은 평가 기준으로 구성되어 있습니다:

  1. 함수 이름 및 인자 추출 정확성: 모델이 올바른 함수 이름과 인자를 정확하게 추출할 수 있는지를 평가합니다.
  2. 호출 결과 전달 정확성: 함수 호출 후, 결과를 정확히 전달하는지를 평가합니다.
  3. 누락 정보 인지 및 추가 질의 발생 여부: 모델이 정보가 누락된 경우 추가 질문을 할 수 있는지를 평가합니다.
  4. 호출 가능한 함수 관련성 감지: 사용자가 요청한 작업에 적합한 함수를 선택할 수 있는지를 평가합니다.

기존의 데이터셋이 단순히 함수 호출 메시지의 정확성만을 중점적으로 평가한 반면, 카카오는 사용자와의 적절한 상호작용 메시지 생성 능력도 평가에 포함하여 차별화를 꾀했습니다.

카카오의 목표와 향후 계획

카카오는 이 데이터셋을 오픈소스로 공개하여 한국어 AI 언어모델 생태계의 활성화와 개방적 AI 환경 조성을 목표로 하고 있습니다. 또한, 데이터셋의 규모를 확대하고 영어 버전을 추가할 계획입니다. 김병학 카나나 알파 성과리더는 “이번 데이터셋 구축은 한국어 기반 AI 기술 생태계에 기여할 수 있는 중요한 의미를 갖고 있으며, 꾸준히 활용성을 높여갈 것”이라고 전했습니다.

결론

카카오는 이번 ‘펑션챗-벤치’ 데이터셋 구축을 통해 한국어 AI 생태계에 중요한 발걸음을 내딛었습니다. 이를 통해 더 많은 개발자들이 AI 언어모델의 성능을 평가하고, 이를 활용하여 혁신적인 서비스를 개발할 수 있게 되기를 기대합니다.


추천 태그

  1. #AI
  2. #펑션콜
  3. #카카오
  4. #FunctionChatBench
  5. #언어모델
  6. #오픈소스
  7. #한국어AI
  8. #기술블로그
  9. #데이터셋
  10. #인공지능
728x90
반응형