본문 바로가기
Development News/AI

MS와 칭화대학교, 트랜스포머 성능 개선하는 새로운 LLM 아키텍처 ‘차등 트랜스포머’ 공개!

by Maccrey Coding 2024. 10. 19.
728x90
반응형

마이크로소프트(MS)와 칭화대학교의 연구진이 트랜스포머 아키텍처의 성능을 개선하는 새로운 대형 언어 모델(LLM) 아키텍처인 차등 트랜스포머(Diff Transformer)를 발표했습니다. ( github 소스 오픈 )

이 새로운 모델은 긴 컨텍스트 정보를 더 잘 활용할 수 있도록 설계되어, 기존 트랜스포머의 한계를 극복하고자 합니다.

이번 발표는 LLM의 발전에 중요한 이정표가 될 것으로 기대됩니다.

  1. 트랜스포머 아키텍처의 한계
    트랜스포머 아키텍처는 대부분의 LLM의 기반이 되지만, 긴 입력 컨텍스트에서 중요한 정보를 효과적으로 찾아내기 어려운 문제를 가지고 있습니다. 연구에 따르면, 트랜스포머는 특히 긴 컨텍스트의 중간에 있는 정보를 제대로 활용하지 못해 성능이 저하되는 경향이 있습니다.
  2. 어텐션 메커니즘의 문제
    어텐션 메커니즘은 입력 텍스트 내 각 토큰의 중요도를 평가하는데 사용됩니다. 그러나 기존의 소프트맥스 함수는 모든 토큰에 어텐션 점수를 골고루 분배하는 경향이 있어, 관련 없는 정보에도 과도하게 주의를 기울이게 됩니다. 이로 인해 모델은 중요한 정보를 놓치게 되는 경우가 많습니다.

  3. 차등 트랜스포머의 혁신
    차등 트랜스포머는 ‘차등 주의(differential attention)’ 메커니즘을 도입하여 노이즈를 제거하고, 입력에서 가장 관련 있는 부분에 더 집중하도록 합니다. 이 메커니즘은 쿼리, 키 및 값 벡터를 두 그룹으로 나누고, 각각에 대해 별도의 소프트맥스 어텐션 맵을 계산하여 그 차이를 어텐션 점수로 사용합니다.

  4. 성능 향상 결과
    연구진은 차등 트랜스포머를 다양한 언어 모델링 작업에서 평가한 결과, 기존 트랜스포머 아키텍처를 능가하는 성능을 보였습니다. 30억 매개변수의 차등 트랜스포머는 1조 개의 토큰으로 훈련되어, 유사한 크기의 트랜스포머 모델에 비해 성능이 몇 % 개선된 것으로 나타났습니다. 또한, 성능을 유지하면서도 65%의 매개변수나 훈련 토큰만으로도 충분하다는 점이 강조되었습니다.

 

차등 트랜스포머는 기존 트랜스포머 아키텍처의 한계를 극복하고, 긴 컨텍스트에서 중요한 정보를 효과적으로 검색할 수 있는 혁신적인 접근 방식입니다. 이 연구는 LLM의 성능을 한층 더 향상시키고, AI 모델의 발전에 기여할 것으로 기대됩니다.

현재 차등 트랜스포머의 코드는 깃허브에서 확인할 수 있으며, 앞으로의 발전이 주목됩니다.

당신을 위한 3줄 요약

  1. MS와 칭화대학교 연구진이 새로운 LLM 아키텍처 차등 트랜스포머를 발표했습니다.
  2. 이 모델은 긴 컨텍스트 정보 검색 성능을 개선하여 기존 트랜스포머보다 뛰어난 결과를 보였습니다.
  3. 차등 트랜스포머는 노이즈를 제거하고 입력의 관련 정보를 강조하는 혁신적인 어텐션 메커니즘을 사용합니다.

구독!! 공감과 댓글,

광고 클릭은 저에게 큰 힘이 됩니다.

 

Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.

 

Tester Share [테스터쉐어] - Google Play 앱

Tester Share로 Google Play 앱 등록을 단순화하세요.

play.google.com

728x90
반응형