본문 바로가기
Development News/AI

ARM, ‘Llama 3.2’ 통해 AI 추론 가속화 및 확장

by Maccrey Coding 2024. 9. 27.
728x90
반응형

ARM의 머신러닝 기술 부사장 이안 브랫(Ian Bratt)님이 발표한 내용을 통해 ARM이 메타와 협력하여 새로운 Llama 3.2 대형 언어 모델(LLM)을 지원하는 방안을 소개하겠습니다. 이 모델은 AI 추론을 더욱 가속화하고, 클라우드와 엣지 모두에서의 AI 경험을 향상시키는 데 큰 기여를 하고 있습니다.

1. Llama 3.2 모델의 중요성

AI 기술은 지속적으로 발전하고 있으며, 새로운 LLM들이 자주 등장하고 있습니다.

그러나 이러한 LLM들은 상당한 컴퓨팅과 에너지 소모를 요구합니다. ARM은 메타와 협력하여 최신 Llama 3.2 LLM을 ARM CPU에서 실행할 수 있도록 지원하여 이 문제를 해결하고 있습니다.

Llama 3.2의 특징:

  • 소규모 LLM 지원: Llama 3.2의 1B 및 3B 모델은 대규모 AI 추론을 가능하게 합니다.
  • 속도 향상: ARM CPU에 최적화된 커널을 통해 처리 속도가 5배 향상되며, 토큰 생성 속도가 3배 빨라집니다.

2. 클라우드와 엣지에서의 성능

ARM은 Llama 3.2의 클라우드와 엣지에서의 성능을 극대화했습니다.

예를 들어, ARM 기반의 AWS 그래비톤4에서 11B 이미지 및 텍스트 모델을 실행하면 초당 29.3개의 토큰을 생성할 수 있습니다. 이는 사람의 판독 속도인 초당 약 5토큰과 비교했을 때 매우 빠른 속도입니다.

엣지에서의 처리:

  • AI 워크로드 처리: 엣지에서 소규모 모델을 실행함으로써 데이터 전송에 필요한 전력을 절약하고, 비용도 줄일 수 있습니다.

3. 오픈 소스 혁신 및 커뮤니티 지원

ARM은 Llama 3.2를 오픈 소스로 제공하여 커뮤니티가 신속하게 새로운 LLM을 실행할 수 있도록 지원합니다.

또한, ARM Kleidi를 통해 소프트웨어 커뮤니티와의 협력을 강화하고 있으며, 다양한 AI 프레임워크와의 통합을 통해 최적화된 CPU 성능을 활용하고 있습니다.

주요 통합

  • Kleidi와 PyTorch 통합: Llama 3 LLM을 실행할 때 첫 토큰 생성 시간이 2.5배 향상되었습니다.
  • 엣지에서의 성능: Kleidi AI 라이브러리는 ARM Cortex-X925 CPU에서 Llama 3의 첫 토큰 생성 시간을 190% 가속화했습니다.

ARM의 Llama 3.2 LLM은 AI 추론을 더욱 빠르고 효율적으로 만들어, 클라우드와 엣지 모두에서 사용자 경험을 향상시키고 있습니다. ARM의 기술은 다양한 AI 애플리케이션에서 사용자에게 더 나은 경험을 제공할 수 있도록 합니다.

앞으로 ARM은 오픈 소스 커뮤니티와 협력하여 AI의 미래를 구축할 것입니다!

당신을 위한 3줄 요약

  1. ARM은 메타와 협력하여 Llama 3.2 LLM을 ARM CPU에서 지원하여 AI 추론 성능을 향상시킵니다.
  2. 소규모 및 대규모 모델 모두에서 AI 워크로드 처리 속도가 증가하여 사용자 경험이 개선됩니다.
  3. 오픈 소스 혁신을 통해 ARM은 AI 기술을 더 많은 개발자와 연구자에게 제공합니다.

구독!! 공감과 댓글은 저에게 큰 힘이 됩니다.

Starting Google Play App Distribution! "Tester Share" for Recruiting 20 Testers for a Closed Test.

 

Tester Share [테스터쉐어] - Google Play 앱

Tester Share로 Google Play 앱 등록을 단순화하세요.

play.google.com

 

728x90
반응형