구글의 차세대 딥러닝 아키텍처 Titans, Transformer의 아성에 도전하다

안녕하세요. 히츠 AI 연구 1팀의 연구원 배성한입니다.

딥러닝 아키텍처에 대해 알고 계신가요? 조금은 생소한 단어일 수도 있습니다. 하지만 우리는 이미 이 기술이 주는 혜택을 일상 곳곳에서 누리고 있습니다. 예를 들어, 챗봇과 대화하거나 자동 번역기를 사용할 때, 자율주행차가 길을 인식할 때, 모두 ‘딥러닝 아키텍처’라는 구조가 작동하고 있습니다. 오늘은 딥러닝 아키텍처의 중심에 있는 Transformer와, 최근 주목받는 새로운 아키텍처 Titans에 대해 소개해보려고 합니다.

딥러닝 아키텍처란 무엇인가?

딥러닝 아키텍처는 ‘신경망의 구조적 설계도’를 의미합니다. 어떤 층을 얼마나 쌓고, 각 층을 어떻게 연결하며, 어떤 연산을 사용할지, 이러한 모든 결정들이 딥러닝 아키텍처에 해당합니다. 이는 마치 집을 짓는 설계와 같아서, 튼튼하고 효율적인 구조일수록 성능 좋은 모델을 만들 수 있습니다. 같은 데이터라도 아키텍처 설계에 따라 모델이 학습하는 방식과 표현력은 크게 달라집니다. 쉽게 얘기하자면, 딥러닝 아키텍처는 딥러닝 모델이 어떻게 정보를 받아들이고, 처리하고, 기억할지를 결정짓는 '뇌의 구조'를 설계하는 일입니다.

역사적으로 새로운 아키텍처의 등장은 성능 향상과 새로운 응용의 시작점이 되곤 했습니다. 예를 들어, 합성곱 신경망(CNN)은 이미지 처리 분야의 도약을 이끌었고, 순환 신경망(RNN)은 자연어를 비롯한 시퀀스 데이터를 딥러닝으로 처리하는 기반을 마련했습니다. 이처럼 아키텍처의 발전은 딥러닝 기술의 비약적 향상을 가능케 하는 원동력이라 할 수 있습니다.

딥러닝 아키텍처 - Transformer의 등장

2017년 구글 연구진이 발표한 “Attention Is All You Need”논문에서 소개된 Transformer는 RNN과는 달리 병렬 처리가 가능한 attention 메커니즘을 도입하여 시퀀스 데이터 내 모든 요소 (토큰) 간의 관계를 한 번에 고려할 수 있는 혁신적인 아키텍처였습니다. 이 기술은 문장 내 문맥을 장거리까지 반영하면서도 학습을 빠르게 향상시킬 수 있는 돌파구가 되었고, 자연어 처리 분야 (NLP)에 혁신을 일으켰습니다. Transformer의 등장은 마치 한 사람씩 차례대로 말하던 회의가, 갑자기 모두가 동시에 서로의 말을 실시간으로 알아 들을 수 있는 회의로 바뀐 것과 같습니다.

Transformer 아키텍처의 등장은 딥러닝 모델이 데이터를 처리하고 문맥을 이해하는 방식을 근본적으로 변화시켰으며, 오늘날 AI 혁신의 토대를 마련했습니다. 이후 번역, 문서 요약, 질문 응답 같은 자연어 처리 작업에서 기록적인 성능 향상이 이루어졌고, BERT, GPT와 같은 대규모 사전학습 언어모델(LLM)들이 Transformer 구조를 기반으로 탄생했습니다. Transformer는 자연어 처리뿐만 아니라 이미지, 음성 등 다양한 분야로 확장되었으며, 비전 트랜스포머(ViT)나 멀티모달 모델 등으로 발전하면서 AI 분야의 표준 모델로 자리 잡았습니다.

[캡션] Transformer의 구조와 attention 매커니즘 [출처 : VASWANI, Ashish, et al. Attention is all you need. Advances in neural information processing systems, 2017, 30.]

딥러닝 아키텍처 - Transformer의 한계

이처럼 Transformer는 혁신적인 모델이지만, 내재된 한계점도 분명히 존재합니다. 특히 계산 복잡도와 장기 의존성 처리 측면에서 몇 가지 제약이 있습니다. 이러한 한계로 인해 매우 긴 시퀀스를 처리하거나 실시간으로 지속적인 학습이 필요한 상황에서는 Transformer만으로는 충분하지 않을 수 있습니다. 아래에서는 Transformer의 두 가지 주요 한계를 알아보겠습니다.

Transformer의 한계 - 1. Attention 메커니즘의 계산 복잡도 문제

Transformer는 입력 길이가 길어질수록 계산량이 기하급수적으로 증가하며, 문맥을 바라볼 수 있는 범위에도 구조적인 한계를 가집니다.

Transformer의 핵심인 attention 메커니즘은 입력 시퀀스의 모든 토큰 쌍 간의 유사도를 계산합니다. 이로 인해 연산 복잡도가 입력 길이 $N$에 대해 $O(n^2)$으로 증가합니다. 예를 들어 입력 길이가 두 배가 되면 attention 계산량은 네 배로 늘어나고, 시퀀스가 길어질수록 메모리와 연산량이 기하급수적으로 증가하게 됩니다.

이러한 구조적 한계로 인해 일반적인 Transformer는 보통 수천에서 수만 토큰 정도의 문맥만 처리할 수 있습니다. 그 이상의 길이는 연산 자원이나 메모리의 제약 때문에 현실적으로 다루기 어렵습니다. 그러나 실제로는 더 긴 문맥이 필요한 경우가 많습니다. 예를 들어 비디오 이해, 장기 주식 가격 예측, 유전체 분석 등은 수십만에 이르는 시퀀스를 요구하는데, 이러한 작업에 Transformer만으로 처리하기는 어렵습니다.

Transformer의 한계 - 2. 장기 의존성(long-term dependency) 처리의 어려움

Transformer는 설계상 긴 문맥을 완전히 기억하고 활용하는 데 한계가 있으며, 이 점이 현재까지 Transformer 기반 AI의 약점으로 지적되고 있습니다.

Transformer는 수천에서 수만 토큰 범위 내에서는 self-attention을 통해 시퀀스 내 멀리 떨어진 단어 간의 관계도 직접 참조할 수 있어, RNN보다 훨씬 뛰어난 장기 의존성 학습 능력을 보여줍니다. 하지만 이 역시 각 모델마다 정해진 context window 내에서만 가능한 구조입니다. 보통 Transformer는 한 번에 2048 또는 4096토큰 정도의 입력만 처리할 수 있고, 그보다 앞에 위치한 정보는 모델이 직접 접근할 수 없습니다.

예를 들어 소설 한 권 분량의 긴 문서를 Transformer에 입력하려면 여러 조각으로 나누어야 하고, 앞부분 내용은 뒷부분을 처리할 때 직접 활용되지 못합니다. 따라서 챕터 1의 복선이 챕터 20에서 회수되는 것처럼 장기 의존성이 요구되는 문맥은 Transformer로는 완전하게 포착하기 어렵습니다.

RNN 계열 모델은 순환되는 은닉 상태(hidden state)를 통해 이론적으로 무제한 길이의 의존성을 처리할 수 있었지만, 오래된 정보는 기울기 소실 등으로 인해 쉽게 사라지는 문제가 있었습니다. Transformer는 병렬성과 attention 메커니즘으로 RNN의 이런 한계를 넘어서긴 했지만, 여전히 context window를 초과하는 정보는 기억하지 못한다는 점에서 일종의 단기 기억 구조라고 볼 수 있습니다.

딥러닝 아키텍처 - Titans의 등장

Google 연구진은 Transformer의 한계를 극복하기 위해, 2024년 말 Titans: Learning to Memorize at Test Time 논문에서 새로운 아키텍처를 소개하게 됩니다. 바로 Titans입니다. Titans은 인간의 추론 과정에서 단기 기억과 장기 기억이 서로 상호 작용한다는 개념에서 영감을 받아 만들어졌습니다. 기존 Transformer에 신경망으로 구성된 장기 기억 모듈을 결합한 새로운 형식의 딥러닝 아키텍처입니다.

사람처럼 기억하는 딥러닝 아키텍처 - Titans

Titans 개발의 배경에는 효율적인 장기 기억 유지라는 목표가 있습니다. 앞서 설명한 대로 Transformer는 context window를 벗어난 정보는 활용하지 못해 긴 문맥의 중요한 정보를 놓칠 수 있습니다. Google 연구진들은 이 문제를 해결하기 위해 신경망 기반 메모리 모듈을 도입하는 아이디어를 착안했습니다. 과거에도 Neural Turing Machine, Memory Networks, 또는 RNN의 장기 상태 등을 통해 외부 메모리를 활용하려는 시도가 있었지만, 이들 대부분은 훈련이 어렵거나 속도가 느리다는 문제가 있었습니다.

Titans의 연구진은 “모델이 과거를 스스로 기억하고 필요할 때 꺼내 쓸 수 있다면 어떨까?”라는 질문을 던졌고, 이를 위해 훈련 단계뿐만 아니라 추론 단계에서도 학습되는 장기 메모리 신경망, Neural memory의 개념을 도입했습니다. Neural memory는 온라인 메타러닝(meta learning) 기법을 활용하여 새로운 입력이 들어올 때마다 이를 동적으로 학습합니다.

이렇게 하면 모델이 테스트 중에도 새로운 정보를 기억할 수 있어, 고정된 훈련 데이터에만 의존하지 않고 변화하는 데이터나 매우 긴 시퀀스 내의 문맥도 효과적으로 다룰 수 있게 됩니다. 이 아이디어는 마치 사람이 새로운 사실을 접하면 뇌에 장기 기억으로 저장하는 과정과 유사합니다.

Titans의 핵심 특징 - 3가지 메모리와 병렬화

Titans 아키텍처의 핵심은 세 가지 종류의 메모리 체계를 통합했다는 점입니다.

먼저 단기 메모리(short-term memory)로서 Transformer의 attention 메커니즘을 그대로 활용합니다. attention은 여전히 현재 입력 context window 내에서 상세한 관계를 모델링하고, 해당 context window 내의 문맥을 정확히 기억하는 역할을 합니다. 여기에 더해 장기 메모리(long-term memory)에 해당하는 Contextual memory 모듈이 추가됩니다. Contextual memory는 RNN의 은닉 상태처럼 과거 정보를 압축해 가지는 것이 아니라, 별도의 모듈이 과거의 key-query 쌍 정보를 학습하여 저장하고 필요할 때 인출하도록 한 것입니다. 이 Contextual memory 모듈은 과거 입력들을 보면서 계속해서 업데이트 되며, 이전에 본 정보를 일정하게 축적하는 지속성을 가집니다.

또한 Titans은 Persistent memory라고 불리는 또 다른 장기 메모리 모듈을 입력 데이터에 독립적인 학습 파라미터로 가집니다. 이는 특정 작업에 대한 사전 지식이나 전역적인 문맥을 저장하는 메모리로, 매 입력 시퀀스의 앞부분에 ****특수 토큰들 형태로 추가되어 모델이 해당 작업에 필요한 일반 상식이나 배경 지식을 활용할 수 있도록 합니다.

Titans은 이러한 장단기 메모리 모듈들을 병렬화하여 유기적이고 빠르게 학습이 가능하도록 특별히 설계되었습니다. 보통 순환식으로 과거를 기억하는 모델(RNN 등)은 시간을 따라 순차적으로 학습해야 해 병렬화가 어렵지만, Titans에서는 시간 축을 여러 청크(chunk)로 분할하여 각 구간마다 메모리 업데이트를 병렬 처리하는 기법을 사용합니다. 각 청크별로 텐서 연산과 행렬 곱을 병렬 계산함으로써 GPU/TPU 상에서 효율적으로 훈련되도록 했습니다. 이러한 최적화 덕분에 Titans는 훈련 시에도 큰 시간 지연 없이 장기 메모리를 배울 수 있고, 추론 시에도 메모리 갱신 연산이 비교적 가벼워서 빠른 추론이 가능합니다.

Titans과 Transformer의 비교

이제 Titans 아키텍처를 Transformer와 비교하여 어떤 차이가 있고 어떤 발전이 있는지 살펴보겠습니다. 두 모델은 기본적인 목표(시퀀스 모델링)는 같지만, 내부 구조와 작동 방식에서 여러 차이가 존재합니다. 이러한 구조적 차이는 성능, 확장성, 기능 측면에서 상당한 영향을 미칩니다. 기능적인 비교와 더불어 실험 결과로 확인된 성능 상의 차이도 함께 다루어 보겠습니다.

구조 및 기능의 차이

아키텍처 구성 측면에서, Transformer는 attention과 feed-forward 층이 교대로 쌓인 단일 경로의 네트워크입니다. 반면 Titans는 여기에 메모리 모듈이 추가된 이중 경로에 가깝습니다. Titans에는 기본적으로 Transformer와 동일한 attention 기반 코어(core) 네트워크가 존재하면서, 병렬적으로 장기 메모리 경로가 함께 동작합니다. Titans는 현재 문맥에 해당하는 attention을 장기 메모리와 어떻게 통합하냐에 따라 여러 구현 방법이 있습니다.

MAC, MAG, MAL

그중 하나인 MAC(Memory as a Context) 구조에서는 입력 시퀀스를 일정 길이로 분할하고, 분할 된 각 세그먼트 (segment)를 처리할 때 이전까지 축적된 메모리에서 관련 정보를 검색하여 attention 계산 과정에서 추가 컨텍스트 (context)를 제공하는 방식을 취합니다. 이 경우 어텐션 모듈이 현재 세그먼스뿐만 아니라 메모리가 준 과거 요약까지 함께 고려하여 출력을 생성하며, 그 출력으로 다시 메모리를 업데이트합니다. 또 다른 변형인 MAG(Memory as a Gate) 구조를 보면, 입력이 두 갈래로 처리되어 하나는 장기 메모리 모듈을 업데이트합니다. 다른 하나는 attention 기법 중 하나인 sliding-window attention으로 처리됩니다. 이후 두 출력은 게이트로 합쳐지게 됩니다.

마지막으로 MAL(Memory as a Layer) 구조에서는 아예 메모리 모듈을 하나의 층 (layer)처럼 활용하여, 입력과 Persistent memory를 Contextual memory에 통과시킨 결과를 다시 attention 레이어에 넣는 순차적인 처리 방식을 제안합니다. 이처럼 Titans에서는 메모리를 어디에, 어떻게 통합하느냐에 따라 몇 가지 변형이 있지만, 공통적으로 Transformer와 달리 명시적인 메모리 모듈이 존재하고, 이것이 기존 attention이 처리하지 못하는 긴 범위 정보를 보완하는 역할을 합니다.

[캡션] Titans의 아키텍처들. 위에서 부터 MAC, MAG, MAL 아키텍이다. [출처 : BEHROUZ, Ali; ZHONG, Peilin; MIRROKNI, Vahab. Titans: Learning to memorize at test time. arXiv preprint arXiv:2501.00663, 2024.]

Persistent Memory: 사전 지식을 담은 기억 장치

또 하나 주목할 점은 Persistent memory의 존재입니다. 앞서 설명했듯 Persistent memory는 특정 작업에 대한 전역 지식을 담고 있는 학습 가능한 파라미터들입니다. 이는 마치 모델이 작업에 특화된 “배경 지식”을 내부에 지니고 시작하는 효과를 주어, 매번 처음부터 모든 것을 새로 학습해야 하는 Transformer보다 유리할 수 있습니다. 예를 들어 자연어 상식 추론에서는 일반 상식에 대한 정보를 Persistent memory에 담아두고, 각 각 질문이나 문장 입력 시 해당 지식을 바로 참고함으로써 추론에 도움이 되도록 합니다. Titans 논문에 따르면 이러한 Persistent memory가 특히 attention 메커니즘의 가중치가 입력 시퀀스의 시작 부분에 쏠리는 경향을 완화하고, 모델의 안정성을 높이는 데 이바지한다고 합니다.

Titans의 효율성과 확장성: 길고 복잡한 입력을 감당하다

계산 복잡도와 확장성 측면에서, Titans는 기본적으로 Transformer의 attention 모듈을 포함하므로 최악의 경우 $O(n^2)$ 복잡도를 가집니다. 그러나 실용적으로는 매우 긴 시퀀스를 처리할 때 일부만 참조하고 하고 나머지는 메모리 경로로 처리하기 때문에, 사실상 거의 선형적으로 확장되는 효과를 가집니다. 예를 들어 MAG 구조에서는 sliding-window attention을 사용하여 한 번에 큰 창(window)이 아니라 작은 창으로 attention을 수행하고, 창을 넘어서는 정보는 장기 메모리가 담당하므로, 입력 길이가 길어져도 attention으로 보는 범위는 일정하게 유지될 수 있습니다. 그 결과 Titans 모델은 200만 토큰이 넘는 긴 문맥도 성능 저하 없이 효율적으로 다룰 수 있음을 확인할 수 있었습니다. 반면 일반 Transformer는 수만 단위 토큰만 되어도 메모리 부족이나 연산 지연으로 다루기 힘들고, 설령 모델을 늘려서 가능하게 한다 해도 성능이 떨어지는 문제가 있습니다. Titans는 이러한 영역에서 뛰어난 확장성을 보여주며, 필요한 메모리 용량도 훨씬 적게 사용합니다. 또한 추론 속도 면에서도, Transformers처럼 병렬 토큰 처리는 어렵더라도 한번 업데이트된 장기 메모리를 재사용하기 때문에, 매 토큰을 모든 과거와 비교해야 하는 Transformer보다 더 효율적입니다.

성능 및 혁신적 기능 비교

저자들은 여러 실험을 통해 Titans이 기존 Transformer에 비해 우수함을 증명하였습니다. 논문의 실험 결과에 따르면, Titans는 언어 모델링, 상식적 추론, 게놈 분석, 시계열 예측 등 다양한 과제에서 기존 Transformer 및 최신 순환 아키텍처들을 능가하는 성능을 보였습니다. 예를 들어 언어 모델링에서는 위키텍스트(WikiText)같은 데이터로 측정한 퍼플렉서티(perplexity) 점수에서 Titans은 26.18점을 달성해 기존 강화된 Transformer++ 모델의 31.52보다 크게 개선되었습니다.

언어 모델링 및 상식적 추론 벤치마크에서 Titans 과 다른 언어 모델 간의 성능 비교 [출처 : BEHROUZ, Ali; ZHONG, Peilin; MIRROKNI, Vahab. Titans: Learning to memorize at test time. arXiv preprint arXiv:2501.00663, 2024.]

또한 needle-in-a-haystack이라 불리는, 긴 텍스트에서 특정 정보 조각을 찾아내는 NIAH 벤치마크에서는 Titans 모델이 GPT-4 같은 초 거대 모델보다도 높은 정확도를 보였습니다. 실제 16K 토큰 길이의 입력에 대해 Titans(Long-term Memory Module만 사용한 모델)이 96.2% 정확도로 정답을 찾아낸 반면, GPT-4 모델은 88.4%에 그쳤습니다. 다른 최신 메모리 기반 모델들인 Mamba2나 DeltaNet 등은 이 길이에서 각각 5.4%, 71.4%로 거의 작동하지 못한 것에 비하면 Titans의 압도적인 우수성을 확인할 수 있습니다 .
유전체(게놈) 분석 작업에서도 Titans는 최첨단 (SOTA) 수준의 정확도를 달성했는데, Enhancer라고 불리는 유전자 활성 예측 문제에서 75.2%의 정확도로, 이전 최고였던 Mamba 기반 모델의 74.6%보다 더 우수한 성능을 보였습니다.

그림 1: BABILong 벤치마크에서 Titans과 다른 언어 모델 간의 few-shot (좌) 및 fine-tuning 결과 비교 (가로축 : 시퀀스 길이 (log-scale), 세로축 : 정답 정확도(%)) [출처 : BEHROUZ, Ali; ZHONG, Peilin; MIRROKNI, Vahab. Titans: Learning to memorize at test time. arXiv preprint arXiv:2501.00663, 2024.]

위의 그림1을 보면, NIAH 보다 어렵다고 여겨지는 BABILong 벤치마크에서, Titans은시퀀스 길이가 $10^3$에서 $10^7$까지 증가해도 90~100%대의 높은 정확도를 유지함을 보여 줍니다 . 반면 GPT-4나 Llama 시리즈와 같은 다른 모델들은 길이가 길어질수록 정확도가 크게 떨어지며, 특히 GPT-4는 $10^5$이상에서 성능이 급격히 하락하는 모습을 볼 수 있습니다. 해당 벤치마크 결과들을 통해 Titans 아키텍처가 기존 Transformer 기반 모델이 처리하지 못하는 초장기 의존성도 효과적으로 다룰 수 있음을 보여줍니다.

딥러닝 아키텍처 - Titans의 잠재력과 한계

Transformer가 출시 직후 시퀀스 내 의존성을 고려하는 방식으로 자연어 문제에서 절대적인 방법으로 부상했던 것처럼, Titans은 기존 Transformer가 한계를 보였던 대용량의 텍스트, 로그 데이터, 시계열 신호 분석 분야를 정복할 수 있는 차세대 모델로 주목받고 있습니다. 예를 들어 개인화된 AI 비서를 생각해 보면, 지금까지의 모델은 대화 기록이 길어지면 앞부분 내용을 잊어버려서 매번 사용자가 배경을 설명해야 했지만, Titans 기반 모델이라면 수백만 단어 분량의 대화 기록도 축적하여 필요할 때 과거 맥락을 바로 꺼내 쓸 수 있을 것입니다. 이는 장기간 상호작용을 하는 AI를 개발하는 데 필수적인 능력이고, Titans는 그 핵심 열쇠를 제공할 것으로 기대됩니다. 또한 Titans의 테스트 시에도 학습할 수 있는 특성은 온라인 러닝이나 연속학습(continual learning) 연구 방향과도 맞닿아 있어서, 모델이 배포된 후에도 환경 변화에 적응하고 성능을 개선하는 자율 학습형 AI의 구현에도 한 걸음 다가서게 합니다.

그러나 Titans에도 분명 남은 과제와 한계는 존재합니다. 우선 구조가 복잡해진 만큼 구현과 튜닝의 난이도가 올라갑니다. attention 모듈과 별도로 메모리 모듈에 대한 하이퍼 파라미터(hyper parameter)설정이 추가되어, 최적의 성능을 내기 위해서는 세심한 조율이 필요합니다. 또한 테스트 시간에 메모리가 업데이트 되므로, 모델의 상태가 호출할 때마다 변화합니다. 이는 재현성(reproducibility)이나 안정성 측면에서 새로운 도전일 수 있습니다. 예컨대 동일한 입력 시퀀스라도 이전에 어떤 데이터를 거쳤느냐에 따라 메모리 상태가 달라져 결과가 조금씩 다를 수 있는데, 이것을 어떻게 관리할지에 대한 논의가 필요합니다. 더 나아가 보안적인 문제도 상정해 볼 수 있습니다. 만약 악의적인 입력이 모델의 메모리에 주입되어 잘못된 정보를 학습하게 만든다면, 추론 결과에 영향이 갈 수도 있습니다. 이러한 테스트 시간 학습의 부작용을 통제하고 신뢰성을 확보하는 것도 추후 연구 과제로 남아 있습니다.

Titans, AI의 새로운 패러다임을 열다

딥러닝의 역사는 곧 아키텍처 혁신의 역사라고 할 수 있습니다. Titans는 Transformer 이후 등장한 매우 흥미로운 아키텍처로서, 단기 메커니즘(attention)과 장기 메커니즘(Neural Memory)의 결합을 통해 기억의 한계를 뛰어넘으려는 시도를 보여주었습니다. 긴 시퀀스를 효율적으로 처리하고, 모델이 운용 도중에도 배움을 계속하게 한다는 Titans의 철학은 앞으로 AI 모델 개발에 새로운 방향성을 제시합니다. 물론 현 단계에서는 실험적인 부분도 있고 더 검증이 필요합니다.

“Titans가 새로운 Transformer가 될 수 있을까?” 하는 기대가 나올 만큼 그 임팩트가 크다는 점은 분명합니다. 향후 몇 년간 Titans의 아이디어를 발전시킨 후속 연구들과, Titans를 실제 응용에 적용하려는 노력들이 계속될 것입니다. 그 과정에서 Titans의 개념이 더욱 세련되게 다듬어지고 성능도 입증된다면, 우리 곁의 AI는 지금보다 훨씬 방대한 정보를 이해하고 스스로 적응하는 진정한 의미의 똑똑한 동반자로 거듭날지 모릅니다. 딥러닝 아키텍처의 진화라는 큰 흐름 속에서, Titans가 만들어갈 새로운 장을 지켜보는 일은 AI 분야에 몸담은 이들에게 무척 흥미로운 여정이 될 것입니다.