AACR, DDC에서 화제가 된
AI 플랫폼이 궁금하다면?
AI

LLM 경쟁, 일론 머스크의 참전

일론 머스크는 xAI를 설립하여 경량화된 인공지능 모델인 Grok을 개발했습니다. Grok은 적은 파라미터를 가지고 있음에도 불구하고 경쟁력 있는 성능을 보여주며, 최신화된 데이터를 이용하여 실시간 정보에도 대응할 수 있습니다.
성한, seong han.png
배성한 AI 연구원
2024.04.1210min read
LLM 경쟁, 일론 머스크의 참전.png

일론 머스크, LLM 전쟁터에 출사표를 던지다

지난 3월 11일, 일론 머스크가 X(구 트위터)에 올린 한 글이 전 세계 AI 업계의 주목을 받았습니다. 그 내용은 바로, 자신이 2023년 3월 설립한 인공지능 스타트업 xAI에서 개발한 대규모 언어 모델(Large Language Model, LLM) Grok-1오픈소스로 공개하겠다는 발표였는데요. 이는 xAI가 공들여 설계하고 훈련해 온 모델의 구조와 코드를 누구나 열람하고 사용할 수 있도록 전면 공개하겠다는 의미입니다. ChatGPT를 비롯해 글로벌 테크 기업들이 앞다퉈 개발 경쟁을 벌이고 있는 LLM 시장에서, Grok의 오픈소스화는 전 세계 AI 연구자와 엔지니어들의 이목을 단숨에 끌었습니다. 저희 히츠의 AI 연구팀 역시 이 소식을 흥미롭게 지켜보았습니다. 이번 포스팅에서는 LLM 경쟁이라는 전장 한가운데로 뛰어든 일론 머스크의 전략, xAI와 Grok의 배경, 그리고 Grok 오픈소스화의 의미에 대해 소개하고자 합니다.

        일론 머스크가 Grok의 오픈 소스화를 공개한 역사적인() 트윗. Like가 100만개에 달할 정도로 반응이 뜨겁다.

OpenAI의 반대편에 선 일론 머스크, 그리고 xAI의 탄생

OpenAI의 공동 창립자였던 일론 머스크는 시간이 흐르면서 OpenAI가 “모든 인류를 위한 안전하고 공개된 AI 모델 개발”이라는 본래의 비전에서 벗어나, 영리 추구와 폐쇄적 운영으로 방향을 틀었다고 비판해왔으며 이에 대항하기 위해 2023년 3월 새로운 인공지능 스타트업인 xAI를 설립하였습니다.

xAI는 ‘우주의 진정한 본질을 이해하는 범용 인공지능(Artificial General Intelligence, AGI)’ 개발을 목표로 내세웠고, 그 첫 번째 프로젝트로 고차원 추론이 가능한 언어 모델 개발에 착수했으며, OpenAI, 구글 딥마인드, 마이크로소프트, 테슬라 등 다양한 기업 출신의 연구자들이 모인 초호화급 연구진과 X(구 트위터)에서 확보한 방대한 텍스트 데이터가 프로젝트에 강력한 추진력을 더해주었습니다. 그 결과 xAI는 정식 출범 8개월 만인 2023년 11월, 첫 번째 언어 모델인 Grok-1 베타 버전을 세상에 공개하게 됩니다.

일론머스크와 XAI, Grok 로고 | Image by Jim Clyde Monge

일론머스크의 Grok이 주목받는 이유

1) 경량화

Grok은 발표 이후 다양한 측면에서 주목을 받았는데, 특히 기존의 LLM 모델들에 비해 비교적 적은 파라미터(parameter)를 가진 소위 ‘경량화된’ 모델이라는 점이 눈길을 끌었습니다. 여기서 파라미터란 AI 모델이 추론하고 작업을 수행하는 데 필요한 숫자들로 구성된, 일종의 데이터 집합을 뜻합니다. 이 파라미터 하나하나가 사람으로 따지자면 뇌 속 뉴런에 해당한다고 볼 수 있습니다. 모델의 크기가 커질수록, 즉 파라미터 수가 많아질수록 성능은 좋아지지만, 그만큼 많은 컴퓨팅 자원을 요구하게 됩니다. 따라서 AI 모델의 경량화는 꾸준히 필요성이 제기되어 왔고, 관련 연구도 활발히 이루어졌습니다.

하지만 사람과 동등한 수준의 언어 모델을 개발하기 위해서는 방대한 양의 파라미터가 필수불가결하다는 인식도 존재합니다. 현재 가장 메이저한 LLM 모델 중 하나인 OpenAI의 ChatGPT(GPT-3.5)의 경우 파라미터 수가 무려 1,750억 개에 달하며, 구글의 PaLM 모델은 5,400억 개에 달한다고 합니다. 이렇게 규모가 큰 모델은 방대한 컴퓨팅 자원과 그를 유지·관리할 자본 없이는 작동시키는 것조차 쉽지 않습니다.

그에 비해 Grok은 약 330억 개의 파라미터로 이루어져 있다고 합니다. 이는 기존 빅테크 기업에서 출시한 LLM 모델 중 가장 경량화된 모델이었던 메타(구 페이스북)의 LLaMA(파라미터 약 700억 개)보다 절반 이상 줄어든 수치입니다. LLaMA가 빅테크 수준의 자원이 없어도 충분히 동작할 수 있었던 점을 고려하면, Grok의 경량화 수준은 꽤 인상적이라고 볼 수 있습니다.

- 그렇다면 Grok의 성능은 어떻게 될까?

더욱 고무적인 것은 Grok이 적은 파라미터 수에도 불구하고, 다른 LLM 모델들과 비교할 만한 성능을 보였다는 점입니다. 앞서 말씀드린 것처럼 AI 모델에서 파라미터 수는 곧 뇌 속 뉴런의 수, 즉 파라미터의 규모가 LLM 모델의 성능으로 이어진다는 것이 일반적인 통념이었습니다. 하지만 xAI에서 공개한 Grok의 성능은 이러한 통념을 보기 좋게 반박했습니다.

다양한 밴치마크에서 Grok과 다른 LLM 모델의 성능 비교. 출처: xAI 공식 블로그 [Link]

위의 표는 여러 LLM 평가 벤치마크에서 Grok과 대표적인 LLM 모델들의 점수를 보여줍니다. 현재 Grok의 프로토타입 버전인 Grok-0는 이미 모든 벤치마크에서 자신보다 파라미터 수가 두 배 이상 많은 LLaMA와 대등하거나 그 이상의 성능을 보였고, 재학습 이후에는 현재 ChatGPT 무료 버전에서 서비스되고 있는 GPT-3.5조차 능가했습니다. 특히 추론과 코딩 능력이 크게 향상되어, MMLU(Multidisciplinary Multiple Choice Questions, 다지선다형 문제 추론 평가 벤치마크)와 HumanEval(파이썬 코딩 능력 평가 벤치마크)에서는 각각 Grok보다 훨씬 더 많은 파라미터와 훈련 데이터를 가진 초거대 모델인 PaLM 2와 GPT-4와 비교할 만한 성과를 기록했습니다.

xAI는 추가로 2023년 헝가리 고등학교 수학 국가시험(Hungarian National High School Finals in Mathematics)을 통해 Grok과 다른 LLM 모델들의 성능을 비교하였습니다. 앞서 본 벤치마크들은 워낙 유명한 평가 지표이기 때문에, 일부 문제들이 훈련 데이터에 포함되었을 가능성이 있어 객관성에 대한 의심을 받을 수 있습니다. 이에 따라 xAI는 Grok의 훈련 데이터 수집 이후에 공개된 실제 시험 문제를 활용해 보다 객관적이고 정확한 성능 평가를 진행하였습니다. 평가 결과, Grok은 약 59%의 정답률로 C 등급을 받고 시험을 통과했으며, 이 성적은 약 1,370억 개의 파라미터를 가진 LLM 모델인 Claude 2를 능가하는 결과였습니다.

Grok과 다른 LLM 모델의 2023 Hungarian national high school finals in mathematics 점수 비교. 출처: xAI 공식 블로그 [Link]

2) 최신화된 데이터

Grok의 또 다른 주목할 점은 바로 최신화된 데이터를 이용한다는 것입니다. ChatGPT는 무료 버전 기준으로 2022년 1월까지의 정보까지만 학습되어 있어서, 그 이후에 발생한 사건이나 최신 트렌드에 대한 질문에는 제대로 대답하지 못합니다. 반면 Grok은 비교적 최근인 2023년 3분기까지의 데이터로 학습되어 있어, 외부 데이터베이스나 검색 엔진과의 연결 없이도 최신 정보에 대한 응답에서 다른 LLM보다 확실한 강점을 보입니다.

그뿐만 아닙니다. 현재 Grok은 X Premium+ 구독자들에 한하여 사용자가 질문한 실시간 정보, 즉 2023년 3분기 이후의 최신 정보에 대해서도 응답하는 서비스를 제공합니다. 이는 Grok이 실시간 정보가 빠르게 업데이트되는 플랫폼인 X와 연동되어 있기 때문에 가능한 것입니다. 또한 이는 Grok이 이전에 보지 못했던 새로운 정보도 마치 사람처럼 빠르게 처리하고 그에 맞는 양질의 응답을 생성할 수 있는 능력을 갖추고 있음을 의미합니다.

Grok의 실시간 정보 응답 예시. 질문을 한 2023년 11월 3일까지 뉴스를 조회하여 응답하는 모습이다. 출처: 일론 머스크 트위터 [Link]

정리하자면 Grok은 비교적 적은 파라미터, 기존 LLM 모델들과 견줄 만한 경쟁력 있는 성능, 그리고 실시간 정보 대응이 가능하다는 점에서 LLM 경쟁의 후발 주자임에도 강력한 경쟁자로 빠르게 부상하고 있습니다. 이는 저명한 AI 전문가로 구성된 xAI의 연구 노하우와 막대한 자본, 그리고 X와의 연동을 통한 양질의 최신 학습 데이터가 결합되어 만들어낸 성과라고 할 수 있습니다. 이 정도 규모의 투자가 들어간 결과물이라면 꽁꽁 숨길 만도 한데, 일론 머스크와 xAI는 이것을 쿨하게 모두 공개했습니다. 과연 이것은 무엇을 의미하는 걸까요?

Grok 오픈 소스화가 시사하는 점

사실 AI 분야에서 자신들이 연구하고 개발한 모델을 오픈소스로 공개하는 것은 그리 드문 사례는 아닙니다. Grok 이전에도 메타가 지난 2023년 2월 LLaMA를 오픈소스로 공개하여 Alpaca를 비롯한 다양한 후속 언어 모델의 탄생에 기여하였습니다. 다만 이번 Grok의 오픈소스화가 유독 눈에 띄는 이유는 이 소식을 발표한 사람이 일론 머스크라는 점, 그리고 완전한 오픈소스로 공개된 몇 안 되는 LLM이라는 점입니다.

LLM과 같은 방대한 규모의 AI 모델일수록 그 모델이 주어진 과제를 잘 수행할 수 있도록 학습시키는 과정은 막대한 시간과 자원, 그리고 인력을 요구합니다. 그래서 최근 LLM 모델이 점점 더 커지고 고도화되면서, 부분적으로만 오픈소스화하거나 아예 공개하지 않는 경우가 많아졌습니다.

앞서 언급한 메타의 LLaMA 역시 원래는 모델의 구조만 공개하고 파라미터는 공개하지 않은, 부분적 오픈소스였습니다. 모델의 구조만 있고 파라미터가 없다면 외부의 개인들이 직접 실행하는 데 제약이 생깁니다. 다만 이후 LLaMA의 파라미터가 유출되면서 메타는 어쩔 수 없이 전체를 오픈소스화하였고, 이때부터 LLaMA를 기반으로 한 후속 연구가 활발히 진행되었습니다.

현재 가장 보편화된 챗봇 모델인 ChatGPT를 서비스하고 있는 OpenAI의 경우에도, 초기 모델인 GPT-1과 GPT-2는 오픈소스로 공개했으나, 현재 서비스되고 있는 GPT-3.5 (ChatGPT)부터는 모델의 구조조차 공개하지 않고 있습니다.

2023년 까지 LLM 모델들의 개발 현황을 알려주는 차트. 진하게 음영처리된 것은 오픈 소스로 공개 된 것이고, 테두리만 있는 것은 공개되지 않은 모델이다. 오픈 소스 모델들도 대부분 파라미터가 공개되지 않아 외부에서 직접 실행해 볼 수는 없었다. 출처: LLMsPracticalGuide github [Link]

일론 머스크가 Grok을 공개한 이유

그렇다면 일론 머스크와 xAI는 어째서 많은 자원과 노력을 투입해 개발한 Grok의 모든 것, 심지어 애써 훈련한 결과물인 파라미터까지 모두 공개한 것일까요? 일론 머스크는 대외적으로는 안전하고 완전히 '오픈된' AI를 지향하며, 이러한 가치 추구의 일환으로 Grok을 오픈소스로 공개했다고 주장합니다. 물론 이것도 충분히 일리 있는 주장이지만, 보다 실리적인 측면에서 보면 Grok의 오픈소스화는 '독자적 LLM 생태계 구축'이라는 전략적 의도가 깔려 있다고 추측할 수 있습니다. 앞서 언급한 LLaMA와 Alpaca의 사례처럼, 파라미터까지 완전히 오픈소스화된 LLM은 외부 사용자들의 활발한 이용과 후속 연구를 촉진합니다. Grok 역시 오픈소스화됨으로써 누구나 직접 실행해보고, 이를 기반으로 자신의 입맛에 맞는 후속 연구나 엔지니어링을 자유롭게 진행할 수 있는 기회를 제공합니다.

Grok 오픈소스화의 의의

이를 통해 전 세계 사용자들이 Grok의 개발에 참여하게 되어 Grok의 품질 향상을 가속화할 수 있으며, Grok을 기반으로 한 거대한 연구 생태계가 구축될 수 있습니다. LLM 분야의 후발 주자인 Grok이 기존의 거대 LLM 모델들, 특히 ChatGPT와 같은 모델들을 추월하기 위해서는 다른 전략이 필요했을 것입니다. 일론 머스크와 xAI는 사용자들과 함께 독자적인 생태계를 구축하는 것을 하나의 경쟁 전략으로 삼았다고 볼 수 있습니다. 또한 연구자들 입장에서는 오픈소스화된 Grok을 자유롭게 접근하고 활용하며 xAI 연구진의 연구 노하우를 엿볼 기회를 얻었다는 점에서 분명 의미 있는 일입니다.