인공지능 기술에 익숙하지 않은 제약바이오 연구자 분들 중에서도 알파폴드(AlphaFold)를 모르는 분은 없을 겁니다.

단백질 서열로부터 3차원 구조를 예측하는 알파폴드(AlphaFold)는 과학계에 대단한 임팩트를 남긴 기술입니다. 주 개발자인 데미스 하사비스(Demis Hassabis)와 존 점퍼(John Jumper)는 이 공로로 2023년 Breakthrough Prize와 Lasker Award를 수상하기도 했습니다. AlphaFold Database가 개방된 이후, 신약개발 프로젝트에서 “표적 단백질의 AlphaFold 예측 구조”를 사용하는 것도 이제는 흔한 일이 되었지요.

AlphaFold가 multi-domain 단백질 (CASP14 T1091) 구조를 점진적으로 예측하는 모습 [Nature 596: 583 (2021), CC BY 4.0

알파폴드(AlphaFold)는 버전 1 (2018), 버전 2 (2020)를 거쳐 AlphaFold-Multimer (2021), 그리고 가장 최신 버전 2.3 (2022)에 이르기까지, 꾸준히 발전하며 예측 가능한 단백질 크기와 정확도를 높여오고 있습니다.

지난 2023년 8월 31일, Google DeepMind에서 차세대 알파폴드(AlphaFold)에 대한 소식을 공유했습니다. AlphaFold-latest라 가칭한 이번 모델은 이전에 알파폴드(AlphaFold) 성능이 처음 공개됐을 때처럼, 관련 분야 연구원 분들에게 경종을 울리고 있는데요.

과연 무엇이 달라졌을까요?

Google DeepMind AlphaFold-latest 달라진 점

Google DeepMind의 AlphaFold-latest를 마지막 공개 모델인 AlphaFold 2.3과 비교했을 때, 가장 크게 달라진 점은 단백질과 함께 소형분자, DNA와 RNA, 이온, 변형 아미노산을 포함한 거의 모든 생체 분자 구조들을 예측할 수 있게 됐다는 점입니다.

AlphaFold-latest가 예측한 생체분자 구조들. 각 예에서 AlphaFold-latest의 예측은 유채색으로, 실험 관측 구조는 흰색으로 표현되어 있다.

AlphaFold와 Alphafold-latest 차이점

과거 알파폴드(AlphaFold)가 단백질 구조 만을 예측할 수 있었습니다. 하지만 AlphaFold-latest는 독립된 핵산 뿐만 아니라 단백질-핵산, 단백질- 저분자 화합물, 단백질-항체에 이르기까지 신약개발에 필요한 거의 모든 분자 조합을 예측할 수 있게 됐습니다. 약물이 작동하는 과정을 이전보다 정확히 이해할 수 있게 됐다는 점에서 놀라운 발전이 아닐 수 없습니다.

Google DeepMind AlphaFold-latest 놀라운 점

1. 높은 예측 정확도를 가진 AlphaFold-latest

단백질과 리간드가 결합된 복합체 구조를 예측하는 것은 아주 오랫동안 풀리지 않는 난제였습니다. 신약개발 연구원이라면 해당 연구의 필요성에 대해 모두 공감할 것 입니다.

최근 학계에서는 단백질-리간드 복합체 구조를 예측하기 위한 다양한 딥러닝 모델들이 발표되고 있지만, 아직까지 업계에서 표준적으로 사용하는 도구는 docking 프로그램입니다. 극도로 근사 된 물리화학 법칙과 고전적인 알고리즘으로 비단백질(주로 소형분자) 결합 구조를 탐색하는 프로그램이죠.

알파폴드 최신버전 AlphaFold-latest는 단백질-리간드 복합체 구조 예측에 한해서만은, 현재 가장 정확도가 좋은 docking 프로그램보다 40% 이상 높은 예측 정확도를 보여주고 있습니다. 결합 구조 예측이 특히 까다로운 공유 결합 비단백질 — 예를 들어, 공유 결합 리간드, 당단백질, 변형 아미노산, 변형 핵산 등 — 에 대해서도 37~53%의 정확도로 비교적 높은 예측 성능을 보여주고 있습니다. 단백질 다합체나 단백질-항체 결합체 등 복합적인 단백질 구조도 이전의 AlphaFold 2.3보다 크게는 2배 이상 향상된 정확도를 보입니다.

ligands-posebusters-benchmark — PoseBusters 벤치마크의 428 가지 단백질-소형분자 복합체에 대한 구조 예측 성능 비교.
EquiBind, DeepDock, TankBind, Uni-Mol, DiffDock 등 딥러닝 모델과
Gold, Vina 등 docking 프로그램을 AlphaFold-latest와 비교하고 있다.
해당 AlphaFold-latest 모델은 2019-09-30 이전 데이터까지만 학습했다
[Google DeepMind & Isomorphic Labs, 2023].

AlphaFold-latest 가 다양하고 새로운 단백질-비단백질 복합체 구조를 예측할 수 있다는 점은 아래 그림을 통해서도 살펴보실 수 있습니다.

alphafold-latest-highlight — AlphaFold-latest 예측 성능 (*하이라이트 위주)
(a) PORCN–WNT3A 복합체에 결합한 LGK974 (PDB ID 7URD)
(b) AziU3/U2에 결합한 (5S,6S)-O7-sulfo DADH (PDB ID 7WUX)
(c) CtaZ에 결합한 Closthioamide (PDB ID 7ZHD)
(d) KRAS G12C와 CypA에 공유결합한 Sanglifehrin A 아날로그 (PDB ID 8G9Q)
(e) PI5P4Kγ의 allosteric 부위에 결합한 NIH-12848 아날로그 (PDB ID 7QIE)
(f) GdmN에 결합한 20-O-methyl-19-chloroproansamitocin macrocycle 리간드와 cofactor (PDB ID 7VZN)
[Google DeepMind & Isomorphic Labs, 2023]

2. 최소 입력 대비 최대 출력이 가능한 AlphaFold-latest

다양한 범주에서 정확한 예측이 가능해지는 건 좋지만, 그만큼 더 많은 입력 정보와 사전 지식이 요구될 수밖에 없습니다.

AlphaFold-latest 의 가장 놀라운 점은 필요로 하는 정보가 간단하다는 것입니다. 단백질/핵산 서열과 리간드 텍스트 표현 (SMILES 문자열)만 입력해도 정확한 예측이 가능해집니다. 기준이 될 3차원 단백질 구조도 필요하지 않고, 심지어 결합 위치 정보 또한 필요하지 않습니다. 그에 반해 위에서 비교된 docking 프로그램은 표적 단백질의 3차원 구조는 물론, 결합 위치와 범위까지 알고 있어야 합니다.

텍스트 정보만으로 복합체의 3차원 구조를 예측한다는 것은, 리간드 결합으로 인한 단백질 구조 변형까지 함께 예측한다는 것입니다. 대다수의 docking 프로그램이나 딥러닝 모델들이 단백질 구조 변형을 무시하는 반면, AlphaFold-latest는 결합하는 리간드에 맞춰 결합부의 유동성까지 고려한다는 말이지요. 이는 리간드가 소형분자일 때만이 아니라 또 다른 단백질이나 항체일 때 중요한 측면입니다.

Google DeepMind AlphaFold-latest 대체 가능성

유사 딥러닝 모델 RoseTTAFold

알파폴드(AlphaFold)와 흔히 함께 거론되는 모델로는 미국 워싱턴대 David Baker 그룹의 RoseTTAFold가 있습니다. RoseTTAFold 또한 단백질 서열로부터 3차원 구조를 예측하는 비슷한 딥러닝 모델이죠.

두 모델은 비슷한 시기에 발표되었습니다. AlphaFold 2는 2021년 7월에 Nature지에, RoseTTAFold는 같은 해 8월 Science지에 게재 되었죠. 이후 2023년 11월, Baker 그룹은 단백질-핵산 복합체의 결합 구조를 예측하는 RoseTTAFold2NA를 소개했습니다.

위에서 AlphaFold-latest가 단백질-핵산 복합체 구조도 예측한다 소개드린 바 있습니다. 이번 Google DeepMind 발표 자료에는 AlphaFold-latest 와 RoseTTAFold2NA의 성능 비교도 포함됐습니다. 결과는 아래 그림처럼 AlphaFold-latest 의 압도적인 승리로 나타났습니다.

AlphaFold-latest VS RoseTTAFold2NA

alphafold-latest-rosettafold2na — 단백질-핵산 시스템에 대한 AlphaFold-latest와 RoseTTAFold2NA의 구조 예측 성능 비교 [Google DeepMind & Isomorphic Labs, 2023].

AlphaFold-latest VS RoseTTAFold All-Atom

공교롭게도, AlphaFold-latest가 보고되기 조금 전인 2023년 8월 9일, RoseTTAFold의 차세대 모델인 RoseTTAFold All-Atom에 대한 preprint가 게재되었습니다. 1) 서열과 SMILES 같은 텍스트 정보만을 입력 값으로 받는 점, 2) 핵산, 이온, 소형분자 등 비단백질을 포함하는 점 등 AlphaFold-latest와 기능에 있어 무척 유사합니다.

뿐만 아니라 결과만 나열한 AlphaFold-latest 에 비해, 저널에서 심사 중일 것으로 짐작되는 전체 원고가 공개 되었습니다. 모델의 구조와 학습에 대해서도 자세히 설명 됐는데요. 성능만 요약 하자면 동일한 벤치마크에서 Vina, Gold 등과 같은 docking 프로그램들보다 못한 예측율을 보입니다. (*40% 정도의 구조 예측 성공률)

다시 말해 AlphaFold-latest가 리간드 결합 구조 예측에 있어 RoseTTAFold All-Atom보다 우수하다는 의미겠지요.

Google DeepMind의 보고에서도 아래와 같이 언급된 바 있습니다..

During preparation of this manuscript, independent work on RoseTTAFold All-Atom (Krishna et al., 2023) was released that performs structure prediction and protein design across a wide range of biomolecular systems. This system is not available for baselining at the time of writing, but the RoseTTAFold All-Atom paper indicates their accuracy is below specialist predictors in almost all categories.

단, 이번 RoseTTAFold preprint의 중요한 점은 바로 단백질 생성 모델인 RFdiffusion의 All-Atom 버전도 함께 소개하고 있다는 점입니다. RFdiffusion은 이미 2023년 7월 Nature지에 발표되었었는데요. RoseTTAFold All-Atom처럼 RFdiffusion All-Atom 또한 소형분자와 같이 비단백질에 결합할 수 있는 단백질을 생성할 수 있는 모델로 확장되었습니다. AlphaFold-latest나 RoseTTAFold All-Atom과는 별개로 RFdiffusion All-Atom이 앞으로 어떤 놀라운 적용 사례들을 보여줄지 기대가 됩니다.

rfdiffusion-all-atom — RFdiffusion All-Atom이 특정한 소형분자가 결합하는 단백질 구조를 생성하는 과정 [R. Krishna et al. bioRxiv 2023.10.09.561603, CC-BY-ND 4.0].

Google DeepMind 행보를 주목해야 하는 이유

Google DeepMind 에서 발표한 AlphaFold-latest 결과를 접하고 “소형분자 약물을 타겟하는 인공지능 기술 개발은 이제 끝났다”고 생각할 수도 있겠습니다. 정말 그럴까요~?

AlphaFold-latest 발표를 통한 더 나은 기술 개발

앞서 살펴본 것처럼 AlphaFold-latest가 알파폴드(AlphaFold) 이후 또 한 번의 혁신을 가져올 기술인 것은 확실한 것 같습니다. 예를 들어 최근 Isomorphic Labs가 Eli Lilly 및 Novartis와 맺은 4조 원 규모의 연구 제휴 계약 건을 볼 때 알파폴드(Alphafold) 모델의 대단함을 짐작할 수 있겠죠.

하지만 아직 많은 과제가 남아 있습니다. 우선 이번 보고 결과에서 여러 성능 지표들이 100점 만점에는 한참 못 미친다는 사실을 알아야 합니다. 설사 단백질-리간드 결합 구조 예측 문제가 완벽히 해결된다 할지라도 소형분자 약물 개발에서 컴퓨터 기술이 필요한 곳은 아직 많이 남아 있습니다. 효소, 세포, 조직, 질병 모델, 임상 등 다양한 단계에서의 활성 예측, 그와 더불어 약물동태학까지 갈 길이 이렇게나 멉니다.

그럼에도 불구하고 AlphaFold-latest의 발전은 단백질-리간드 결합을 넘어 훨씬 더 넓은 영역에 영향을 미치고 있습니다. 앞서 살펴본 것처럼 AlphaFold-latest는 단백질 구조 예측 면에서 AlphaFold 2.3을 개선하며 발전돼왔고, 항체 설계와 같이 단백질-단백질 상호작용이 중요한 문제에서도 지대한 영향을 줄 것입니다.

Google이 과연 AlphaFold-latest 또한 완전히 공개할지, 한다면 언제 할지는 미지수입니다. 하지만 적어도 학계를 통해 RoseTTAFold All-Atom과 같은 모델이 공개된다면, 생체분자 구조 예측이란 문제에 있어서 기술의 수준과 접근성이 훨씬 나아질 거란 기대는 해볼 수 있겠습니다. 마치 GPT에 대항하여 Llama 2를 포함한 오픈소스들이 개발되며 서로 간 경쟁을 통해 딥러닝 모델 성능을 끌어올렸듯이 말이죠. 앞으로도 저희 하이퍼랩과 함께 Google DeepMind 의 행보를 주목해보시죠.