26년 된 펜티엄 2 PC로 ‘라마’ 구동 성공! 고급 GPU 없이 대형언어모델을 구동하는 비결

26년 된 고전적인 펜티엄 2 PC에서 대형언어모델(LLM)을 구동하는 일이 가능하다고 믿어지시나요?

2024년 12월, 스타트업 EXO는 1998년 출시된 펜티엄 2 컴퓨터에서 '라마(Llama)'라는 대형언어모델을 실행하는 데 성공했다고 발표했습니다. 이 놀라운 성과는 단순히 오래된 컴퓨터에서 새로운 기술을 구동했다는 사실에 그치지 않습니다.

고가의 GPU 없이도 누구나 대형언어모델을 사용할 수 있다는 가능성을 보여주고 있습니다.

많은 사람들이 현재 고성능 컴퓨터를 통해 LLM을 사용할 수 있다고 생각하지만, 이번 프로젝트는 그 한계를 뛰어넘은 획기적인 실험으로 주목을 받고 있습니다.

과연, 이 26년 된 컴퓨터에서 어떻게 최신 기술을 구현할 수 있었을까요?

EXO는 이베이에서 118.88파운드, 약 22만원에 26년 된 펜티엄 2 PC를 구입하고, 이를 사용해 라마 모델을 구동했습니다.

이 PC에는 당시로서는 고성능이라 여겨졌던 128MB RAM과 인텔 펜티엄 2 CPU가 장착되어 있습니다.

그럼에도 불구하고 EXO는 윈도우 98 환경에서 이 컴퓨터로 최신 AI 모델을 구동하는 데 성공했습니다.

이 프로젝트의 핵심은 기존의 고성능 GPU 없이도, 오히려 저렴한 하드웨어를 이용해 고급 AI를 실행할 수 있다는 가능성을 입증하는 데 있습니다.

EXO는 이 작업을 위해 FTP 서버를 이용해 파일을 전송하고, 윈도우 98에서 최신 코드를 컴파일하는 데 어려움을 겪었습니다.

하지만 몇 번의 시도 끝에 26년 된 IDE와 윈도우 98에서 실행 가능한 컴파일러를 찾을 수 있었습니다.

특히, 라마 모델을 구동하기 위해 안드레이 카파시가 제작한 'llama2.c'를 활용했습니다.

이 C 언어 프로그램은 '라마 2' 아키텍처를 갖춘 모델에서 추론을 실행할 수 있는 700줄의 코드로 구성되어 있습니다.

그 결과, 펜티엄 2 PC는 초당 35.9 토큰을 생성할 수 있는 속도로 답변을 제공하는 성과를 달성했습니다.

물론, 모델의 크기가 커지면 속도는 급격히 떨어졌습니다. 15M 모델에서는 초당 1토큰으로 속도가 느려졌고, '라마 3.2' 모델에서는 초당 0.0093토큰으로 느려졌습니다.

이 실험을 통해 EXO는 대형언어모델을 고성능 GPU 없이 CPU만으로도 실행할 수 있다는 중요한 증거를 남겼습니다.

이들은 최근 옥스포드 대학교 연구원과 함께 비트넷(Bitnet)이라는 트랜스포머 아키텍처를 통해 GPU 없이도 7B 매개변수 모델을 구동할 수 있다는 성과도 발표한 바 있습니다.

이를 통해 EXO는 CPU 기반의 AI 실행이 가능하다는 가능성을 제시하고 있으며, 앞으로 AI 기술의 접근성을 더욱 높일 것으로 기대되고 있습니다.

26년 된 펜티엄 2 PC에서 대형언어모델을 성공적으로 구동한 EXO의 실험은 단순한 기술적인 도전을 넘어, 우리가 AI와 대형언어모델을 어떻게 활용할 수 있을지에 대한 새로운 비전을 제시하고 있습니다.

이 실험은 최신 기술이 고성능 컴퓨터를 필요로 하지 않는다는 점을 명확히 보여주며, 더 많은 사람들이 저렴한 하드웨어로도 AI를 접할 수 있는 가능성을 열어주고 있습니다.

EXO의 목표는 이러한 AI 기술이 어디서나 누구에게나 사용될 수 있도록 인프라를 구축하는 것입니다.

고성능 GPU 없이도 AI를 실행할 수 있다는 이번 실험은 그 첫걸음에 불과하며, 앞으로 더욱 발전된 기술이 등장할 것으로 보입니다.

EXO는 향후 비트넷 아키텍처를 통해 고성능 GPU 없이도 대형언어모델을 더욱 효율적으로 실행할 수 있는 방법을 개발할 계획이라고 밝혔습니다.

이로 인해 AI 기술의 접근성과 실행 환경에 혁신을 가져올 수 있을 것입니다.

26년 된 컴퓨터에서 대형언어모델을 실행하는 이 실험은, AI의 미래가 어떻게 변화할지에 대한 중요한 이정표가 될 것입니다.

당신을 위한 3줄 요약

EXO는 26년 된 펜티엄 2 PC에서 고성능 GPU 없이 대형언어모델 '라마'를 구동하는 데 성공했습니다. 이 실험은 저렴한 하드웨어로도 AI를 실행할 수 있다는 가능성을 보여주었으며, AI 기술의 접근성을 크게 향상시킬 수 있음을 입증했습니다. EXO는 앞으로도 더 많은 혁신을 통해 AI 기술을 대중화할 계획입니다.

3 line summary for you

EXO successfully ran the large language model 'Llama' on a 26-year-old Pentium 2 PC without high-performance GPUs. This experiment demonstrated the possibility of running AI on affordable hardware, showcasing significant improvements in AI accessibility. EXO plans to further democratize AI technology through future innovations.

X의 EXO Labs님(@exolabs)

LLM running on Windows 98 PC 26 year old hardware with Intel Pentium II CPU and 128MB RAM. Uses llama98.c, our custom pure C inference engine based on @karpathy llama2.c Code and DIY guide 👇

x.com

4o mini

저작자표시 비영리 변경금지 (새창열림)

'Development News > AI' 카테고리의 다른 글

딥러닝 혁신! 오픈소스 모델 '딥시크 V3'가 GPU 한계를 넘다 (2)	2025.01.03
엔비디아가 1조원 들여 인수한 런AI, 기술 전격 오픈 소스화! GPU 시장에 불러올 파장은? (0)	2025.01.01
IBM, 그라나이트 3.1 출시! 강력한 성능과 확장성, 다국어 지원까지... 기업용 AI의 새로운 패러다임 (2)	2024.12.28
챗GPT, 7시간 동안 접속 장애 발생…원인은 MS 데이터센터 정전? (3)	2024.12.28
딥시크, 오픈 소스 사상 최대 규모 LLM 출시…GPT-4o를 따라 잡았다? (3)	2024.12.28

Maccrey's Code Lab