LLM을 넘어서: 단백질 설계 AI 시대의 개막


LLM에서 단백질 설계 AI로 확장되는 빅테크 인공지능 전쟁
최근 몇 년 동안 빅테크 기업들은 거대 언어 모델(LLM) 개발을 중심으로 인공지능 경쟁을 벌여왔습니다. OpenAI의 ChatGPT, Google의 Gemini, 메타의 LLaMA가 대표적이며, 이 외에도 여러 기업이 시장에서 통하는 상용 LLM을 개발해 서비스하고 있습니다. 한편, 중국에서는 DeepSeek을 발표하며 전 세계 AI 시장에서 큰 반향을 일으키기도 했습니다.
반면, 단백질 구조와 관련된 AI 연구에서는 구글 딥마인드가 압도적인 선두를 달려왔습니다. 구글 딥마인드는 2020년 AlphaFold를 발표하며 단백질 구조 예측의 혁신을 일으켰습니다. AlphaFold는 단백질의 3차원 구조를 빠르고 정확하게 예측할 수 있었고, 2024년 노벨 화학상 수상의 영예를 안기도 했습니다.

이런 딥마인드의 독주에 OpenAI가 도전장을 내밀었습니다. 2025년 1월, OpenAI가 단백질 설계 AI인 GPT-4b micro를 개발했음을 발표한 것입니다. 구글 딥마인드도 2024년 9월, 단백질 설계 AI인 AlphaProteo를 발표한 바 있습니다. LLM이 중심이던 빅테크 AI 전쟁이 단백질 설계 AI로 확장되는 모양새입니다.
AlphaFold: 단백질 구조 예측의 혁신
이제는 너무나도 유명한 AlphaFold는 단백질의 아미노산 서열을 입력하면 3차원 구조를 예측하는 AI입니다. AlphaFold는 X선 결정학 및 NMR 같은 전통적 방법보다 훨씬 빠르게 단백질 구조를 예측할 수 있으면서도 신뢰성 있는 정확도를 보여줬습니다. 뿐만 아니라 AlphaFold를 통해 예측한 수백만 개의 단백질 구조를 무료로 공개하며, 생물학 연구에 일대 혁신을 일으켰습니다.

그러나 AlphaFold는 어디까지나 존재하는 단백질의 접힘(Fold)을 예측함으로써 3차원 구조를 추정하는 것이 목적입니다. 만약 새로운 기능을 가진 단백질 서열을 디자인하고 싶다면, 별도의 모델이 필요합니다.
AlphaFold에 대한 보다 기술적인 내용은 여기에서 읽어보세요
AlphaFold가 높은 성능을 보인 비결이 궁금하다면 여기에서 읽어보세요.
LLM에서 단백질 설계 AI로, AlphaProteo: 표적 단백질에 결합하는 단백질 설계
이에 Google DeepMind는 단백질을 설계하는 새로운 AI 모델인 AlphaProteo를 개발했습니다. [1, 2] AlphaProteo는 특정 표적 단백질에 결합하는 새로운 단백질을 설계하는 AI 시스템입니다. 사용자가 표적 단백질을 지정하면, AlphaProteo는 해당 단백질과 결합할 수 있는 단백질을 생성합니다.
예를 들어 어떤 암세포에서 VEGF-A (Vascular Endothelial Growth Factor A) 단백질이 과다 발현되고 있다고 합시다. VEGF-A 단백질의 정보를 입력하면, AlphaProteo는 이 단백질에 잘 결합하는 새로운 단백질 서열을 설계해 줍니다. 두 단백질 서열이 결합하면 VEGF-A 단백질은 기존의 기능을 잃을 가능성이 높기 때문에, AlphaProteo가 설계한 단백질은 이 암세포에 대한 항암 효과를 가지는 항암제 후보 물질이 됩니다. 지금까지 나온 결과에 따르면, AlphaProteo는 총 8개의 표적 단백질에 대해 효능이 있는 후보 물질을 제안했습니다. 이 중 TNF-alpha를 제외한 7개의 표적 단백질에 대해 기존의 디자인 방법보다 우월한 성능을 보여주었습니다.

LLM에서 단백질 설계 AI로, GPT-4b micro: 특정 기능을 가진 단백질의 재설계
LLM 시장의 선두 주자인 OpenAI는 Retro Biosciences라는 바이오 스타트업과 손잡고 GPT-4b micro라는 단백질 설계 AI를 개발함으로써 생물학 AI 전쟁에 참전을 선언했습니다. 특정 단백질에 결합하는 새로운 단백질을 설계하는 것이 목적인 AlphaProteo와는 달리, GPT-4b micro는 특정 생물학적 기능을 띠는 새로운 단백질을 설계하는 것이 목표입니다. [3]
OpenAI는 GPT-4b micro의 효용을 더 나은 야마나카 인자(Yamanaka Factors)의 설계를 통해 증명했습니다. 야마니카 인자에 대해서 간략히 설명해 드리자면 다음과 같습니다.
2006년 일본의 야마나카 신야 박사에 의해 발견된 야마나카 인자는 체세포를 유도만능줄기세포(iPSC; induced Pluripotent Stem Cells)로 되돌릴 수 있는 네 가지 전사 인자(Oct4, Sox2, Klf4, c-Myc)를 의미합니다. 즉, 네 가지 전사 인자만 발현되면 성체 세포가 다시 배아 상태로 재프로그래밍될 수 있다는 것을 밝혀낸 것입니다. 이는 성체 세포가 완전히 분화되면 되돌릴 수 없다는 기존의 생물학적 패러다임을 뒤집는 결과였고, 이 발견으로 줄기세포 연구 및 재생 의학이 급속도로 발전하게 되었습니다. 야마나카 신야 박사는 이 공로로 2012년 노벨 생리의학상을 수상하기도 했습니다.

GPT-4b micro는 기존의 4가지 야마나카 인자와 유사한 기능을 가지면서도 부작용이 없거나, 더 높은 효율로 작동하는 새로운 단백질을 설계합니다. OpenAI는 인간이 직접 설계한 것 대비 최소 50배 높은 재프로그래밍 효율을 달성했다고 밝혔습니다. 다만, GPT-4b micro에 대한 공식적인 코드나 논문은 아직 공개되지 않았습니다. OpenAI는 실험 결과를 논문으로 발표할 계획이라고 밝혔지만, 구체적인 공개 일정을 언급하지는 않았습니다.
AlphaFold, AlphaProteo, GPT-4b micro 비교
특징 | AlphaFold | AlphaProteo | GPT-4b micro |
주요 목표 | 단백질 구조 예측 | 표적 단백질에 결합하는 단백질 설계 | 특정한 기능을 가진 새로운 단백질 서열 생성 |
입력 데이터 | 아미노산 서열 | 표적 단백질의 서열 및 선호하는 결합 부위 | 단백질의 기능 또는 해당 기능을 가진 다른 단백질의 정보 (추정) |
출력 결과 | 3D 단백질 구조 | 설계된 아미노산 서열 | 설계된 아미노산 서열 |
LLM에서 단백질 설계 AI로, 생명과학과 신약 개발의 새로운 기회
AlphaFold가 단백질 구조 예측으로 생물학 연구의 패러다임을 전환했다면, 이제 AlphaProteo와 GPT-4b micro라는 단백질 설계 AI를 통해 생명과학과 신약 개발의 새로운 장을 열고 있습니다. 생명체 내에서 단백질이 가질 수 있는 역할이 아주 다양한 만큼, 단백질 설계 AI의 가능성 역시 무궁무진할 것으로 보입니다.
- 신약 개발 가속화: 특정 질병을 표적으로 하는 단백질 기반 치료제 설계.
- 합성 생물학 발전: 새로운 단백질을 설계함으로써 생산 효율 향상.
- 환경 문제 해결: 플라스틱 분해 효소 등 환경친화적인 단백질 개발.
이제 AI는 생물학 및 신약 개발 분야에서도 분석을 위한 도구를 넘어, 생물학적 혁신을 직접 창조하는 도구로 자리 잡고 있습니다. 구글 딥마인드와 오픈AI의 경쟁은 이제 시작에 불과할 것으로 보입니다. 앞으로 단백질 설계 AI 기술 전쟁이 생물학과 신약 개발 연구를 어디까지 확장할지, 앞으로의 발전이 기대됩니다.
올해를 기점으로 신약 개발에 대한 연구와 투자는 더욱 가속화될 전망이며, 이러한 노력이 글로벌 건강 문제 해결에 중요한 역할을 할 것으로 기대됩니다. 현재 하이퍼랩을 이용하면 자체적으로 개발한 AI를 통해 초기 신약 개발 물질을 보다 효율적으로 발견할 수 있습니다. 또한, 무료 체험이 가능하므로 연구에 큰 도움이 되길 바랍니다.
AI 신약개발 플랫폼 하이퍼랩
-
무료체험 https://lrl.kr/zjjk
출처
[1] https://arxiv.org/abs/2409.08022
[3] https://tecknexus.com/ai-meets-longevity-openai-retros-gpt-4b-micro/24/