AACR, DDC에서 화제가 된
AI 플랫폼이 궁금하다면?
AI

LLM 경쟁, 일론 머스크의 참전

일론 머스크는 xAI를 설립하여 경량화된 인공지능 모델인 Grok을 개발했습니다. Grok은 적은 파라미터를 가지고 있음에도 불구하고 경쟁력 있는 성능을 보여주며, 최신화된 데이터를 이용하여 실시간 정보에도 대응할 수 있습니다.
성한, seong han.png
배성한 AI 연구1팀 연구원
2024.04.127min read
LLM 경쟁, 일론 머스크의 참전.png

xAI, Grok을 세상에 공개하다

지난 3월 11일, 일론 머스크가 X (구 트위터)에 올린 글이 화제였습니다. 바로 자신이 지난 2023년 3월에 창립한 인공지능 스타트업 xAI에서 개발한 대규모 언어 모델 (Large Language Model, LLM)이자 챗봇 모델인 Grok1 을 오픈 소스로 공개한다는 소식이었는데요. 이는 자신들이 공들여 연구하여 설계한 모델의 구조와 이를 구현한 코드를 모든 이들이 볼 수 있게 공개한다는 것이었습니다. 덕분에 ChatGPT를 필두로 전 세계적으로 과열되고 있는 LLM 경쟁 속에서, Grok의 오픈 소스화는 특히 전 세계의 AI 연구자 및 엔지니어 주목을 끌었습니다. 저희 히츠의 AI 연구팀도 이 소식을 흥미롭게 지켜보았는데요. 이번 포스팅에서는 LLM 경쟁 이라는 전장에 내던진 일론 머스크의 출사표, xAI와 Grok, 그리고 이번 Grok 오픈 소스화의 의의에 대해 소개하고자 합니다.

        일론 머스크가 Grok의 오픈 소스화를 공개한 역사적인() 트윗. Like가 100만개에 달할 정도로 반응이 뜨겁다.

일론 머스크의 야심작, xAI와 Grok

OpenAI의 공동 창립자 중 한 명이었던 일론 머스크는 OpenAI가 ‘모든 인류를 위한 안전하고 공개된 AI 모델’ 이라는 본래의 취지를 버리고 영리를 추구하는 방향으로 변질되었다는 점을 비판했습니다.

이에 대항하기 위해 OpenAI에서 나와 지난 2023년 3월 새로운 인공지능 스타트업인 xAI를 설립했습니다. xAI가 제창한 그들의 목표는 ‘우주의 진정한 본질을 이해하는 범인공지능 (Artifical General Intelligence, AGI)를 개발’ 이었고, 이를 위한 첫 번째 단추가 바로 고차원 추론이 가능한 언어 모델 개발 프로젝트였습니다. OpenAI, 구글의 딥마인드, 마이크로소프트, 테슬라 등 다양한 출신으로 구성된 초호화 연구진들과 X에서 가져온 방대한 양의 텍스트 데이터는 이 프로젝트에 날개를 달아줬습니다. 지난 2023년 11월, 정식 출범 8개월 만에 xAI의 첫번째 언어 모델인 Grok 1 베타 버전을 발표하기도 했습니다.

일론머스크와 XAI, Grok 로고 | Image by Jim Clyde Monge

일론머스크의 Grok이 주목받은 이유

1) 경량화

Grok은 발표 이후 다양한 측면에서 주목을 받았는데, 특히 기존의 LLM 모델들에 비해 비교적 적은 파라미터 (parameter)를 가진 소위 ‘경량화된’ 모델이라는 점이 눈길을 끌었습니다. 여기서 파라미터란 AI 모델이 추론하고 작업을 수행하는데 필요한 숫자들로 구성된 소위 데이터들의 집합을 뜻합니다. 이 파라미터 하나하나가 사람으로 따지자면 뇌 속의 뉴런에 해당한다고 볼 수 있습니다. 모델의 크기가 커질수록, 즉 파라미터 수가 많아질수록 모델의 성능은 좋아지지만 그만큼 많은 컴퓨팅 자원을 요구하게 됩니다. 따라서 AI모델의 경량화는 그 필요성이 꾸준히 대두 되었으며, 연구도 활발하게 이루어졌습니다.

하지만 사람과 동등한 수준의 언어 모델 개발을 위해서 방대한 양의 파라미터의 수는 필수불가결합니다. 현재 가장 메이저한 LLM 모델 중 하나인 OpenAI의 ChatGPT (GPT3.5) 의 경우 파라미터가 무려 1750억개에 달하며, 구글의 PaLM 모델은 5400억개에 달한다고 합니다. 방대한 컴퓨팅 자원과 그것을 유지, 관리할 자본을 가진 빅테크 기업이 아니라면 이 정도 규모의 모델들은 작동 시키는 것조차 쉽지 않습니다.

그에 비해 Grok은 약 330억개의 파라미터로 이루어져 있다고 합니다. 이는 기존 빅테크 기업에서 출시한 LLM 모델 중 가장 경량화된 모델이었던 메타 (구 페이스북)의 LLaMa (파라미터 약 700억 개) 보다 절반 이상 경량화 된 수치입니다. LLaMa가 빅테크 기업 수준의 컴퓨팅 자원이 없어도 충분히 동작 시킬 수 있었다는 것을 고려한다면, Grok의 경량화 수준은 상당하다고 볼 수 있습니다.

- Grok의 성능은 어떻게 될까?

더욱 고무적인 것은 Grok이 적은 파라미터 수에도 불구하고 다른 LLM 모델에 비교할 만한 성능을 보였다는 것입니다. 앞서 말씀드린 것처럼 AI 모델에서 파라미터 수는 곧 뇌 속의 뉴런의 수, 즉 파라미터의 규모가 곧 LLM 모델의 성능으로 이어진다는 것이 일반적인 통념이었습니다. 하지만 xAI에서 공개한 Grok의 성능은 이러한 통념을 보기 좋게 반박했습니다.

다양한 밴치마크에서 Grok과 다른 LLM 모델의 성능 비교. 출처: xAI 공식 블로그 [Link]

위의 표는 여러 LLM 평가 벤치마크에서 Grok과 대표적인 LLM 모델들의 점수를 보여줍니다. 현재 Grok의 프로토타입 버전인 Grok0는 이미 모든 벤치마크에서 자신의 2배 이상의 파라미터를 가진 LLaMa와 대등 혹은 그 이상의 성능을 보였고, 재학습 이후에는 현재 ChatGPT 무료 버전에서 서비스 되고 있는 GPT3.5 모델조차 능가하였습니다. 특히 추론과 코딩 능력이 크게 상승하여 MMLU (Multidisciplinary multiple choice questions, 다지선다 문제 추론 평가 벤치마크) 와 HumanEval (파이썬 코딩 능력 평가 벤치마크)에서는 각각 Grok보다 훨씬 더 많은 파라미터와 훈련 데이터를 수반한 초거대 모델인 Palm2, GPT4와 비교할만한 결과를 보였습니다.

xAI는 추가로 2023 Hungarian national high school finals in mathematics 를 통해 Grok과 다른 LLM 모델들과 성능을 비교하였습니다. 앞서 본 벤치마크들은 워낙 유명한 LLM 성능 평가 벤치마크라 훈련 데이터 중에 벤치마크 문제들이 유출될 위험이 있어 그 객관성에서 의심 받을 수 있습니다. 따라서 xAI는 Grok 훈련 데이터 수집 이후에 공개된 문제를 이용하여 더 객관적이고 정확한 성능 평가를 진행하였습니다. 평가 결과, Grok은 약 59% 정답률로 C 성적으로 시험을 통과하였으며, 이 성적은 약 1370억개의 파라미터를 가진 LLM 모델인 Claude 2를 능가하는 점수였습니다.

Grok과 다른 LLM 모델의 2023 Hungarian national high school finals in mathematics 점수 비교. 출처: xAI 공식 블로그 [Link]

2) 최신화된 데이터

Grok의 또 다른 주목할 점은 바로 최신화된 데이터를 이용한다는 것입니다. ChatGPT는 무료 버전 기준으로 2022년 1월까지의 정보까지만 업데이트 되어 있어서 그 이후의 정보에 대한 질문에는 대답 하지 못합니다. 반면 Grok은 비교적 최근인 2023년 3분기까지 데이터로 학습되어서, 외부 데이터베이스나 검색 엔진과의 연결 없이도 다른 LLM에 비해 최선 정보에 대한 응답에서 강점을 보입니다.

그 뿐만 아닙니다. 현재 Grok은 X Premium+ 구독자들에 한하여 유저가 질문한 실시간 정보, 즉 2023년 3분기 이후의 정보에 대한 질문도 응답하는 서비스를 제공합니다. 이는 Grok이 실시간 정보가 빠르게 업데이트 되는 X와 연동되어 최신 정보를 열람할 수 있기 때문입니다. 또한 이는 Grok이 이전에 보지 못한 새로운 정보를 접해도 마치 사람처럼 그 정보를 처리하고 그에 대한 양질의 응답을 생성할 수 있는 능력이 있다는 것을 의미합니다.

Grok의 실시간 정보 응답 예시. 질문을 한 2023년 11월 3일까지 뉴스를 조회하여 응답하는 모습이다. 출처: 일론 머스크 트위터 [Link]

정리하자면 Grok은 비교적 적은 파라미터, 기존 LLM 모델들과 비교해도 경쟁력 있는 성능, 그리고 실시간 정보에도 대응 가능하다는 점에서 LLM 경쟁에서 후발 주자임에도 강력한 경쟁자 중 하나로 부상하고 있습니다. 이는 저명한 AI 전문가들로 구성된 xAI 연구진들의 연구 노하우와 막대한 연구 자본, 그리고 X와 연동되어 정제된 최신 학습 데이터 등이 집약되어 이루어진 성과라고 할 수 있습니다. 이 정도 규모의 투자가 들어간 결과물은 꽁꽁 숨길 만도 한데, 일론 머스크와 xAI는 이것을 쿨 하게 모두 공개하였습니다. 이것은 무엇을 시사할까요?

Grok 오픈 소스화가 시사하는 점

사실 AI 분야에서 자신들이 연구, 개발한 모델을 오픈 소스로 공개하는 것은 그리 희귀한 사례는 아닙니다. Grok 이전에도 메타가 지난 2023년 2월에 LLaMa를 오픈 소스로 공개하여 Alpaca를 비롯한 다양한 후속 언어 모델의 탄생에 기여하였습니다. 다만 이번 Grok의 오픈 소스화가 유독 눈에 띄는 이유는 이 소식을 공표한 사람이 일론 머스크라는 점(?), 그리고 완전한 오픈 소스로 공개된 얼마 안되는 LLM이라는 점입니다.

LLM과 같은 방대한 규모의 AI 모델일 수록 그 모델이 주어진 과제를 잘 수행할 수 있도록 학습 시키는 것은 막대한 시간과 자원, 그리고 인력을 요구하는 작업입니다. 그래서 LLM 모델의 규모가 점점 더 커지고 고도화 된 최근에는 부분적으로만 오픈 소스화 하거나 아예 공개 자체를 하지 않는 경우가 많았습니다.

앞서 언급한 Meta의 LLaMa도 원래는 모델의 구조만 공개하고 파라미터는 공개하지 않는 부분적 오픈 소스였습니다. 모델의 구조만 있고 파라미터가 없다면, 외부의 개인들이 직접 실행하는데 제약이 생깁니다. 다만 이후 LLaMa의 파라미터가 유출되면서 메타는 어쩔 수 없이 전체 오픈 소스화 하였고, 이때부터 LLaMa를 기반으로 한 후속 연구가 활성화 되었습니다. 현재 가장 보편화된 챗봇 모델인 ChatGPT를 서비스하고 있는 OpenAI의 경우, ChatGPT의 전신이 되는 모델인 GPT 1 & 2는 오픈 소스로 공개 하였으나 현재 서비스 되고 있는 GPT3.5 (ChatGPT)부터는 아예 모델의 구조조차 공개하고 있지 않습니다.

2023년 까지 LLM 모델들의 개발 현황을 알려주는 차트. 진하게 음영처리된 것은 오픈 소스로 공개 된 것이고, 테두리만 있는 것은 공개되지 않은 모델이다. 오픈 소스 모델들도 대부분 파라미터가 공개되지 않아 외부에서 직접 실행해 볼 수는 없었다. 출처: LLMsPracticalGuide github [Link]

일론 머스크가 Grok을 공개한 이유

그렇다면 일론 머스크와 xAI는 어째서 많은 자원과 노력을 들어 개발한 Grok의 모든 것을, 심지어 본인들이 애써 훈련 시킨 결과물인 파라미터까지 모두 공개한 것일까요? 대외적으로는 일론 머스크는 안전하고 완전히 ‘오픈 된’ AI를 지향하며 이러한 가치 추구의 일환으로 Grok을 오픈 소스로 공개 했다고 주장합니다. 물론 이것도 일리 있는 주장이지만, 좀 더 실리적인 측면에서 보자면 Grok의 오픈 소스화는 ‘독자적 LLM 생태계 구축’ 이라는 의도가 깔려 있다고 추측할 수 있습니다. 앞서 언급드린 LLaMa와 Alpaca의 사례처럼 파라미터까지 완전 오픈 소스화된 LLM은 외부 유저들로 하여금 활발한 이용과 연구를 촉진 시킵니다. 마찬가지로 Grok이 오픈 소스화 됨으로써 누구나 Grok을 직접 실행시켜 보고, 이를 기반으로 자유롭게 자신의 입맛에 따라 후속 연구나 엔지니어링을 할 수 있는 기회가 열리게 됩니다.

Grok 오픈 소스화 의의

이를 통해 전세계의 유저들이 Grok의 개발에 참여하게 되어 Grok의 품질 향상을 가속화 시킬 수 있고, Grok을 기반으로 한 거대한 연구 생태계가 구축될 수 있습니다. LLM 세계의 후발 주자인 Grok이 기존의 LLM 모델들, 특히 ChatGPT와 같은 거대 LLM 모델들을 추후 앞서나가기 위해서는 다른 전략이 필요했을 것입니다. 일론 머스크와 xAI는 유저들과 함께 독자적 생태계를 구축하는 것을 하나의 경쟁 전략으로 삼았다고 볼 수 있습니다. 그리고 연구자들 입장에서는 오픈 소스화된 Grok에 자유롭게 접근하고 활용해보며 xAI 연구진들의 연구 노하우를 엿 볼 기회가 열렸다는 것은 분명한 기회일 것입니다.