“프로그램이 가볍다.” “따라하기 쉽다.”
“기능이 다 있다” 이 AI 플랫폼의 이름은?
AI

ICML 2024 미리 보기

ICML 2024에서 발표될 화학·생명과학 분야의 논문들 가운데 5가지를 소개합니다. 분자 생성 모델과 거대언어모델을 활용한 분자 최적화 연구를 다룹니다. MolCRAFT라는 분자 생성 모델은 Bayesian Flow Networks (BFNs)를 사용하여 생성 문제를 해결하고, 거대언어모델을 활용한 물질 최적화 연구에서는 베이지안 최적화와 finetuning을 사용하여 성능을 분석하고 개선하는 방법을 제시하고 있습니다.
ai-researcher
황상연 AI 연구1팀 팀장
2024.06.0710min read
ICML 2024 미리보기.png

ICML이란?

지난 ICLR 2024 미리 보기에서 세계 3대 인공지능 학회로 ICLR, ICML, NeurIPS를 소개해드렸습니다. 얼마 전 5월 오스트리아 빈에서 ICLR 2024이 진행되었는데요, 다가오는 7월에 같은 장소에서 제 41회 ICML, The 41st International Conference on Machine Learning이 개최될 예정입니다.

ICLR에 비해 ICML이 기계학습 전 분야를 보다 폭넓게 다룬다는 의견도 있지만, 발표되는 연구들을 실제로 보면 그러한 차이는 유의미하게 있지 않은 것 같습니다.

ICLR처럼 ICML도 학회 개최에 앞서 발표가 승인된 논문들이 공개되었습니다 [링크]. 지난 글에 이어서 이번에는 ICML 2024에 승인된 논문들 중 신약개발 관련 분야에 딥러닝을 적용한 연구들을 모아보고 그 중 5건의 연구들을 한 번 살펴보겠습니다.

ICML 2024에 발표되는 신약개발 관련 분야 연구들

이번에도 승인 논문 목록에서 chem, bio, molecule, drug, protein 등 관련 키워드를 통해 신약개발에 직간접적으로 도움이 될 수 있는 연구들을 모아보았습니다. 그렇게 약 60 건의 논문을 모으고 주제를 나눠보았습니다.

ICML 2024에 게재가 승인된 화학, 생명과학 관련 논문들 50여 건의 주제별 비율. 한 논문이 여러 주제를 가질 수 있다. 통계에 포함된 논문 목록은 이곳에서 확인할 수 있다.

ICLR 2024 때처럼 분자를 디자인하거나 (즉, 분자 생성 AI를 개발하거나) 분자 시스템의 다양한 물성을 예측하는 연구가 주를 이뤘습니다. 분자의 표현을 학습하는 (representation learning) 연구는 많은 경우 물성 예측을 목적으로 하기에, 해당 두 카테고리의 연구들은 대부분 겹치는 편입니다. 이어서 의학 분야 문제를 주제로 하는 경우, 거대언어모델 (large language models, LLMs)을 화학·생명과학 문제에 적용하는 경우, 분자 시스템의 구조를 예측하는 경우 등이 뒤를 이었습니다.

위 통계에 포함된 논문들의 총 목록은 아래와 같습니다.

더 자세한 내용은 사진을 눌러주세요.

그럼 어떤 연구들이 발표되었는지 좀 더 자세히 알기 위해 위 목록으로부터 다음의 5개 ICML 2024 논문들을 뽑아 하나씩 살펴보겠습니다. 참고로 앞서 보여드린 주제별 통계와는 무관하게 각 논문에서 다루는 문제에 주안을 두고 뽑아보았습니다.

  1. AlphaFold Meets Flow Matching for Generating Protein Ensembles [Jing et al. ICML 2024]
  2. CLIPZyme: Reaction-Conditioned Virtual Screening of Enzymes [Mikhael et al. ICML 2024]
  3. Drug Discovery with Dynamic Goal-aware Fragments [Lee et al. ICML 2024]
  4. MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space [Qu et al. ICML 2024]
  5. A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [Kristiadi et al. ICML 2024]

ICML 2024 논문 미리 보기 1 - 단백질의 다양한 3차원 구조 예측하기

단백질의 3차원 구조가 고정되어 있지 않고 시간에 따라 유동적으로 움직인다는 것은 잘 알려진 사실입니다. 이는 단백질의 단순한 열운동을 말하기보단 안정된 구조 (conformation)가 환경에 따라 달라질 수 있는 것을 말합니다. Protein Data Bank (PDB)에 동일한 단백질의 서로 다른 X-ray 구조들이 다수 등재되어 있는 것으로써 알 수 있죠.

AlphaFold의 놀라운 성능이 발표되었을 때 이미 적잖은 연구자들은 해당 모델이 단일한 단백질 구조를 예측하는 점을 한계로 삼았습니다. 그러고선 AlphaFold와 같은 모델이 단백질의 서로 다른 conformation들, 즉 단백질 구조의 ensemble을 예측할 수 있도록 응용하는 방법을 연구해왔습니다.

AlphaFold로 단백질 구조의 ensemble을 예측하는 대표적인 방법으로는 MSA subsampling이 있습니다. MSA (multiple sequence alignment, 다중서열정렬) 데이터는 AlphaFold와 같은 모델이 주어진 단백질 서열의 3차원 구조를 예측할 때 중요하게 참고하는 데이터로, 진화적 관계에서 비롯하는 서열 간 동종성을 유추할 수 있게 합니다. MSA subsampling이란 주어진 서열에 대한 전체 MSA 데이터 중 일부만을 추려 AlphaFold와 같은 모델이 사용하게 하는 방법입니다. 서로 다르게 추려진 MSA 샘플이 동일한 단백질의 서로 다른 conformation을 예측하게 해준다는 연구들이 보고되어 왔습니다[Wayment-Steele et al. Nature 625: 832 (2024)].

다중서열정렬 (multiple sequence alignment, MSA) 데이터의 예시. 서로 다른 유기체들에서 비롯되는 L10e 단백질 서열들이 정렬되어 있다 [Wikipedia].

이번 ICML 2024의 연구 “AlphaFold Meets Flow Matching for Generating Protein Ensembles”는 동일한 문제를 전혀 다른 방법으로 해결합니다 [Jing et al. ICML 2024]. AlphaFold는 주어진 단백질 서열의 최적의 단일 구조를 예측하는 예측 AI입니다. MSA subsampling은 이 같은 예측 AI가 동일한 질문 (서열)에 대해 서로 다른 예측값을 내놓게 하는 일종의 트릭인 셈이죠. [Jing et al. ICML 2024]에서는 MSA subsampling에 의존하는 대신 AlphaFold를 생성 AI로 바꾸는 방법을 제시합니다. 다양한 결과를 내놓을 수 있는 생성 AI의 본질을 자연스럽게 이용하여 단백질 ensemble을 예측하는 것이죠.

이 때 생성 모델의 형태 및 학습 방법으로 최근에 각광받는 flow matching [Lipman et al. ICLR 2023]을 사용했습니다. 또한, MSA 데이터를 조작할 필요가 없기 때문에 ESMFold [Lin et al. Science 379: 1123 (2023)]처럼 애초에 MSA 데이터를 사용하지 않는 단백질 구조 예측 모델에도 적용할 수 있습니다.

[Jing et al. ICML 2024]에선 AlphaFold와 ESMFold를 각각 생성 AI로 변형하여 AlphaFlowESMFlow로 명명하고, 해당 모델들로 단백질 구조의 ensemble을 예측했습니다.

아래 그림은 AlphaFlow, ESMFlow 및 비교 모델들로 단백질 구조의 ensemble을 예측한 성능을 보여주고 있습니다. 단일 구조를 예측하는 AlphaFold와 ESMFold는 구조의 다양성 (diversity)이 매우 낮거나 없는 반면, AlphaFlow와 ESMFlow 모두 예측 구조에서 MSA subsampling보다 높은 다양성을 보였습니다. 세 방법 모두 추론 파라미터를 조절하여 다양성을 낮추는 대신 정확도 (precision)를 올리거나 그 반대로 조절할 수 있습니다. 반면, 동일한 단백질의 서로 다른 PDB 구조들을 최대한 많이 예측해내는 측면 (recall)에선 AlphaFlow와 ESMFlow 둘 다 추론 파라미터를 조절해도 큰 변화가 없었습니다.

AlphaFlow, ESMFlow 및 비교 모델들로 단백질 구조의 ensemble을 예측한 성능. AlphaFlow, ESMFlow, MSA subsampling의 실선은 각 모델이 추론할 때 조절할 수 있는 파라미터 변화에 따른 성능 추이. Precision: 예측 구조와 가장 유사한 PDB 구조 간 차이, Recall: 얼마나 많은 PDB 구조들을 찾아내는지, Diversity: 예측 구조 간 차이의 정도. Figure 3, [Jing et al. ICML 2024].

다음으로는 분자동력학 (molecular dynamics, MD) 시뮬레이션으로 단백질 conformation의 변화를 모사하고 해당 conformation을 AlphaFlow가 찾아내는지 실험하였습니다. 아래 그림과 같은 사례에서 AlphaFlow가 PDB 결정 구조가 담고 있지 못한 또 다른 conformation을 올바르게 예측하고 그 존재 확률 또한 분자동력학 결과에 가깝게 예측하는 것을 볼 수 있습니다.

분자동력학 (MD) 시뮬레이션으로 결정 상태 (crystal)와 상이한 conformation을 탐색하고, 해당 구조를 AlphaFlow로 예측한 예들. 각 구조 위 수치는 해당 conformation이 발생할 확률을 분자동력학 및 AlphaFlow에서 계산한 값. D: 묻혀 있던 단백질 잔기가 용매로 노출되는 경우, E: 떨어져 있던 두 잔기가 일시적으로 맞닿는 경우, F: 약하게 결합하고 있던 두 잔기가 서로 떨어지는 경우. Figure 5, [Jing et al. ICML 2024].

최근 AlphaFold 3 [Abramson et al. Nature (2024)]와 RoseTTAFold All-Atom [Krishna et al. Science 384 (2024)]처럼 단백질뿐 아니라 모든 생분자 시스템의 구조를 예측할 수 있는 놀라운 모델들이 개발되었습니다. 두 모델 모두 최적의 단일 구조를 예측하는 모델로, 위처럼 단백질 구조의 ensemble을 예측할 수 있게 응용되는 연구가 다시금 이어질 것 같습니다.

ICML 2024 논문 미리 보기 2 - 원하는 화학 반응을 촉매하는 효소 찾아내기

실험적으로 활성을 확인한 화합물의 표적을 가상 조사하는 방법으로 reverse docking, 혹은 inverse docking이 있습니다. Docking이 정해진 표적 단백질에 궁금한 화합물과의 상호작용을 조사하는 거라면, reverse docking은 정해진 화합물을 놓고 유의미한 상호작용이 확인되는 단백질을 조사하죠.

원하는 화합물과 상호작용 할 수 있는 단백질을 탐색하는 것과 비슷하게, 원하는 화학반응을 촉매할 수 있는 효소 단백질을 탐색할 수도 있습니다. 예로서 해당 화학반응을 생합성으로 구현하고자 할 때이죠.

거대한 화학공간에서 약물을 찾아내는 게 어려운 것처럼 원하는 효소를 찾아내는 것도 어려운 일입니다. UniProt Knowledgebase (UniProtKB)에 등록된 2.4억 개 단백질들 중 20%에 못 미치는 부분만이 효소가 촉매하는 화학반응의 종류를 분류하는 Enzyme Commission (EC) number가 밝혀져 있습니다 [Ribeiro et al. Biochem. J. 480: 1845 (2023)]. 아울러 효소 구조의 작은 변화가 활성에 큰 차이를 주거나, 구조적으로 상이한 효소가 동일한 화학반응을 촉매하는 경우도 있어 예측에 어려움을 줄 수 있습니다.

최근에는 단백질의 서열로부터 EC number를 예측하는 CLEAN (contrastive-learning-enabled enzyme annotation)이라는 비교적 간단한 아이디어의 모델이 Science 지에 발표되기도 했습니다 [Yu et al. Science 379: 1358 (2023)].

이번 ICML 2024에 발표되는 “CLIPZyme: Reaction-Conditioned Virtual Screening of Enzymes”에서는 원하는 화학반을 촉매할 수 있는 단백질을 예측합니다 [Mikhael et al. ICML 2024]. CLEAN 모델의 대상이 효소로부터 화학반응을 맞추는 docking과 같다면, 본 연구의 모델 CLIPZyme의 대상은 화학반응으로부터 효소를 맞추는 reverse docking과 같은 셈이죠.

CLIPZyme은 CLEAN과 비슷하게 대조 학습 (contrastive learning)을 사용하지만, 기질과 생성물 구조를 입력으로 받는다는 점과 조사할 단백질의 3차원 구조를 모델 내부에서 활용한다는 점이 다릅니다. 참고로 대조 학습이란 짝을 지었을 때 정답인 쌍들과 오답인 쌍들을 모아 데이터를 구성한 후 임의의 쌍을 정답 혹은 오답으로 판단하도록 학습 방법입니다 [Radford et al. ICML 2021]. 효소 탐색 문제처럼 특정한 화학반응을 촉매할 수 있는 단백질들과 상관없는 단백질들이 나뉘어 있을 때 적용하기에 적절한 방법이죠.

CLIPZyme은 화학반응에 있어서 전이상태가 중요하다는 점, 특히 효소의 활성부위 구조가 기질의 전이상태 구조를 안정화하도록 형성된다는 점에 초점을 맞춥니다. 따라서 기질과 생성물의 화학구조로부터 가상의 전이상태 구조 (pseudo-transition state graph)를 만들어 모델에 입력합니다. 가상 전이상태 구조와 AlphaFold로 예측한 단백질 구조를 입력으로 받아, 아래 그림의 우측처럼 화학반응들과 단백질들 간의 점수를 예측합니다. 주어진 화학반응에 대해 점수가 가장 높은 단백질이 해당 반응을 촉매할 효소라고 예측하는 것이죠.

CLIPZyme 모델의 구조. 기질과 생성물로부터 가상의 전이상태 구조를 만들고, 조사할 단백질 서열로부터 AlphaFold로 예측한 3차원 구조와 함께 모델에 입력한다. 모델은 우측의 행렬로 표현된 것처럼 화학반응들과 효소들로 조합되는 쌍들로부터 촉매 관계인 것과 아닌 것을 학습한다. Figure 1, [Mikhael et al. ICML 2024].

CLIPZyme의 정확도를 조사하기 위해 주어진 단백질의 EC number를 맞추는 문제에 응용한 후 CLEAN 모델과 비교했습니다. CLIPZyme 모델만으로는 주어진 단백질의 EC number를 맞출 수는 없기 때문에, 주어진 EC number로 분류되는 단백질들을 CLEAN으로 먼저 예측하고, 그 안에서 CLIPZyme이 다시 순서를 매기는 식으로 응용했습니다. 그 결과 CLEAN만을 썼을 때에 비해 CLEAN에 CLIPZyme의 예측을 함께 썼을 때 정답 효소를 찾아내는 성능이 크게 앞서는 것을 확인할 수 있었습니다.

효소 단백질의 EC number를 맞추는 문제에서의 CLIPZyme의 성능. 네 개의 숫자 (X.X.X.X)로 이뤄지는 EC number에서 특정 레벨까지만 맞추도록 경우를 나누어 성능을 측정했다. CLIPZyme을 단독으로 쓰는 경우 EC number를 예측할 순 없으며, 따라서 첫 번째 행은 주어진 화학반응에 대한 효소를 맞추는 CLIPZyme 본연의 기능에 대한 성능이다. BEDROC: Boltzmann-enhanced discrimination of the receiver operating characteristic, EF: enrichment factor. 두 지표 모두 높을수록 가상 탐색의 효율이 높다는 걸 의미한다. Table 1, [Mikhael et al. ICML 2024].

CLEAN 같은 모델은 조사할 화학반응에 적절한 EC number를 먼저 부여해야 하지만 CLIPZyme의 경우 그런 과정 없이 임의의 화학반응을 조사할 수 있다는 장점도 가집니다.

ICML 2024 논문 미리 보기 3 - Building block의 변화와 중요도를 고려하여 분자 디자인하기

표적 단백질에 대해 적절한 화합물을 디자인해주는 생성 AI 연구는 계속해서 관심을 받고 있습니다. 단백질 구조가 있는 3차원 공간상에서 바로 리간드를 생성하고자 하는 시도가 많이 되고 있지만, 마치 의약화학자들이 디자인하듯 2차원 분자 구조를 생성하는 모델들도 계속해서 연구되고 있습니다.

“Drug Discovery with Dynamic Goal-aware Fragments”에서 소개하는 GEAM (goal-aware fragment extraction, assembly and modification) 모델은 분자를 building block 단위로 붙여서 생성합니다 [Lee et al. ICML 2024]. Building block, 혹은 fragment 단위로 분자를 생성하는 모델은 이미 여럿 있어왔는데요, GEAM은 몇 가지 매우 합리적인 차별점을 가집니다.

먼저, GEAM은 고정된 하나의 building block 집합을 사용하는 대신, 서로 다른 최적화 상황에서 목표 물성에 적합한 building block 집합을 다르게 설정하여 생성을 시작합니다. 대상 물성에 가장 크게 기여할 수 있는 building block들을 예측하고 골라 쓰는 것이죠. 또한 그렇게 처음 정한 building block들의 조합으로만 분자가 생성되는 것이 아니라, 생성 중인 분자의 부분 구조를 변형하고, 또 변형된 분자를 기반으로 building block 집합을 재설정 하여 생성을 이어나갑니다. 제목의 “goal-aware” 하고 “dynamic” 하다는 게 이러한 특성들을 말하죠. GEAM이 분자를 생성하는 과정은 아래 그림과 같습니다.

GEAM의 분자 생성 과정. 먼저 학습 데이터의 분자들로부터 building block (fragment)들을 추출하고 조합한다 (위 연두색 파트). 이 때 추출과 조합 모두 목표 물성에 기여할 수 있도록 예측하며 진행된다. 조합으로 초기 분자가 생성되면 물성을 체크하고 (”oracle” 과정. 예를 들어 docking 계산), 유전 알고리즘으로 분자의 구조를 변형한다 (아래 노란색 파트). 변형된 분자에서 다시 building block을 추출하고 과정을 정해진 횟수만큼 반복한 후, 최적의 생성물을 선정한다. Figure 2, [Lee et al. ICML 2024].

GEAM의 분자 생성 성능을 비교하기 위해 다섯 가지 표적 단백질들 (PARP1, FA7, 5-HT1B, B-Raf, JAK2)에 대해 생성한 분자들의 docking score, quantitative estimate of drug-likeness (QED), synthetic accessibility (SA) 등을 계산하여 novel hit ratio를 측정했습니다. 그 결과 비교 생성 모델들에 비해 5가지 표적에서 모두 크게 앞서는 성능을 보였습니다.

GEAM과 비교 모델들의 novel hit ratio (%). 5가지 표적에 대해 분자를 3,000번 생성하여 측정. Novel hit ratio는 생성된 분자가 (1) 표적에 알려진 활성 분자들의 docking score 중간값보다 낮은 docking score를 가지고, (2) QED > 0.5, (3) SA < 5를 만족하며 (4) 학습 데이터에 없던 새로운 구조인 비율로 정의했다. Table 1, [Lee et al. ICML 2024].

또한 GEAM이 building block을 선정하는 성능 또한 정성적으로 조사했습니다. 아래 그림은 GEAM이 생성한 분자가 표적 단백질과 상호작용 하고 있는 모습과 GEAM이 해당 분자의 각 building block이 상호작용에 기여할 것이라 예측한 정도 (weight)입니다. Weight이 크게 예측된 부위가 단백질과 특정한 상호작용을 맺고 있는 것을 확인할 수 있습니다.

GEAM이 생성한 리간드들과 표적 단백질 간 상호작용. 3차원 구조는 docking으로, 상호작용은 Protein–ligand interaction profiler (PLIP)으로 계산. 아래 2차원 구조 그림에서 w는 해당 fragment가 각 표적 단백질과의 상호작용에 기여할 정도를 GEAM이 예측한 수치. Figure 7, [Lee et al. ICML 2024].

GEAM과 같은 리간드 생성 모델은 (1) 표적 단백질이 달라지면 모델이 새로 학습돼야 한다는 점, (2) 외부 docking 프로그램에 의존한다는 점을 제약으로 가지지만, structure–activity relationship (SAR)에 초점을 맞추어 2차원 분자 구조 디자인 성능에 더 초점을 맞추는 다른 시각을 가진다고 볼 수 있겠습니다.

ICML 2024 논문 미리 보기 4 - 자연스러운 3차원 구조로 분자 디자인하기

단백질 구조가 있는 3차원 공간에서 리간드를 바로 생성하는 연구는 이번 ICML 2024에서는 많이 수가 발표되진 않았습니다. 그만큼 문제가 어려워서일까요?

“MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space”에서 소개하는 MolCRAFT (Continuous paRAmeter space Facilitated molecular generaTion) 모델은 이전의 3차원 리간드 생성 모델들이 공통적으로 보이던 고질적인 문제를 해결하고자 합니다 [Qu et al. ICML 2024]. 그 문제란 모델들이 자연스럽고 그럴듯하게 생긴 분자를 생성하지 못하는 문제입니다.

아래 그림에서 나오는 것처럼 기존의 모델들은 부자연스런 고리 구조를 만들거나 단순한 부분구조를 반복해서 붙이는 경우들이 있었습니다. 생성물에 따라선 올바른 결합길이나 결합각도를 모사하지 못하는 경우도 있습니다.

3차원 분자 생성 모델의 대표적 실패 사례들: (a) 부자연스런 고리 구조를 생성한 경우, (b) 생성 직후 (하늘) vs re-docking 후 (연두) 구조 변화가 큰 경우 (즉, 모델이 생성하는 구조가 결합 부위에서 가능한 최적의 구조에서 크게 먼 경우), (c) 온전한 분자 생성에 실패한 경우. Figure 1, [Qu et al. ICML 2024].

MolCRAFT는 이러한 생성 문제를 Bayesian Flow Networks (BFNs)로 해결합니다 [Graves et al. 2023]. BFN은 앞선 AlphaFlow에서도 사용된 flow 기반 생성 모델의 한 종류입니다. MolCRAFT의 논문 [Qu et al. ICML 2024]에선 분자를 원자 단위로 혹은 fragment 단위로 순차적으로 붙여가는 자기회귀 (autoregressive) 모델의 경우 단순한 부분구조만 반복 생성하는 문제를 겪기 쉽다고 분석합니다. 또한, 그와 달리 확산 (diffusion) 기반 모델, 즉 저해상도 이미지를 고해상도로 복원하듯이 처음에 noise가 많은 원자단을 생성하고 점차 정제 (denoising) 하여 분자를 생성하는 방식의 경우, 3차원 좌표와 같은 연속적인 변수와 원소 종류처럼 이산적인 변수를 함께 다루는 것이 부족한 생성 성능의 원인이라 분석합니다. 때문에 MolCRAFT는 BFN 방법을 이용해 모든 변수가 연속된 공간에서 변할 수 있게 하여 기존의 자기회귀 모델과 확산 모델의 단점을 동시에 잡고자 했습니다.

논문에서는 다음처럼 다양한 결과들을 보여주는데요,

  1. 화학결합의 올바른 길이 분포 모사하기
  2. 치우치지 않고 다양한 고리 구조 생성하기
  3. 안정한 docking score를 가진 분자 생성하기
  4. 안정한 conformation의 분자 생성하기

여기에는 간략하게 아래의 결과만 가져와봤습니다. 임의의 표적 단백질에 대해 다양한 모델로 분자를 생성하고 그 구조를 비교한 결과입니다. 비교 모델들에 비해 MolCRAFT는 무리 에너지 (strain energy)가 작은 분자를 생성하고, 또한 결합 부위에서 비교적 안정한 포즈를 생성해낼 수 있음을 볼 수 있습니다.

무작위로 선정한 표적 단백질 (PDB ID: 4RLU)에 대해 생성한 분자들의 모습. 우측 그림에서 하늘색이 생성 직후의 포즈, 연두색이 re-docking 후 포즈이며, RMSD는 그 둘 간의 수치. Figure 11, [Qu et al. ICML 2024].

기존의 3차원 리간드 생성 모델 논문들이 통계적인 수치 성능 뒤에 가린 채 자세히 밝히지 않은 위 같은 문제를 지적하고 해결하고자 한 점에서 큰 의의를 가진 연구라 생각합니다. 다만 바로 위 그림의 결과에서 MolCRAFT의 생성물이 여전히 약간은 부자연스러운 결합각을 가지는 걸 볼 수 있는데요, 저자들이 엄선한 (cherry-picking 한) 결과일 것임에도 완벽하지 못한 것을 보면 3차원 생성 문제는 아직 많은 발전이 필요할 것 같습니다.

ICML 2024 논문 미리 보기 5 - 거대언어모델로 분자 최적화하기

위의 연구 주제 통계에서 살펴봤다시피 거대언어모델을 자연과학에 적용하는 문제는 계속해서 연구자들의 관심을 받고 있습니다. 지난 ICML 2024 미리 보기에서도 살펴본 적이 있죠.

이번 ICML 2024에서도 관련되는 연구들이 여럿 발표되는데요, 그 중 “A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules?” 연구는 베이지안 최적화 (Bayesian optimization)라는 방법으로 물질을 최적화 할 때 거대언어모델을 활용하는 효과를 분석합니다 [Kristiadi et al. ICML 2024].

ChatGPT와 같은 서비스를 물질 개발에 활용하기 위해 아래 그림처럼 직접적인 질문을 거대언어모델에 던져볼 수 있습니다. 이런 경우, 모델이 마치 과학 원리는 이해하는 듯하지만 결국엔 매우 자신있게 틀린 답을 내놓는 현상을 흔히 접할 수 있습니다.

거대언어모델에 기본적인 화학 문제를 물어본 결과. 두 API 모두 2024-01-07에 이용했다. Figure 1, [Kristiadi et al. ICML 2024].

위 같은 방식보다 간접적으로 거대언어모델을 활용하기 위해 거대언어모델을 베이지안 최적화와 함께 사용할 수 있습니다.

베이지안 최적화는 임의의 함수 ƒ(x)를 최적화 하는 일반적인 전략 중 하나인데요, 지금의 맥락에서 논항 x는 후보 분자, 함숫값 ƒ(x)는 원하는 물성으로 생각할 수 있습니다. 대부분의 분자 최적화 문제는 모든 분자들 x의 물성 ƒ(x)을 일일이 알기 어려운 조건에 있죠. 베이지안 최적화는 그 같은 조건에서 기존에 조사된 분자들 x1, x2…과 그것들의 물성 ƒ(x1), ƒ(x2)...이 있을 때 물성을 최적화 하기 위해 다음에 조사해야 할 최적의 분자 후보 x*를 추정해줍니다. 이 같은 과정을 반복하면 무작위로 분자들을 조사하는 것보다 빠른 속도로 (적은 실험 횟수로) 최적의 분자를 찾아낼 수 있게 되죠.

[Kristiadi et al. ICML 2024]에서는 베이지안 분자 최적화 문제에서 분자의 특성을 뽑아내는 데에 거대언어모델을 사용합니다. 거대언어모델은 임의의 자연어 입력을 벡터나 행렬과 같은 수치적 형태, 즉 임베딩 (embedding)으로 변환할 수 있는데요, 분자 구조를 SMILES와 같은 문자열로 표현하여 거대언어모델에 입력하면 해당 분자 구조의 임베딩을 얻어낼 수 있습니다. 마치 분자 구조를 fingerprint로 표현하는 것과 비슷하죠. 논문에서는 이러한 임베딩이 내포한 분자의 정보를 베이지안 최적화에 이용해 원하는 물성을 최적화 할 때의 효율을 조사했습니다.

[Kristiadi et al. ICML 2024]에서는 다음과 같은 6가지 데이터셋과 최적화 문제에서 실험을 진행했습니다.

  1. Redoxmer: 흐름전지 (flow battery) 전해질의 산화-환원 전위 최소화
  2. Laser: 레이저의 형광 진동자 세기 (oscillator strength) 최대화
  3. Solvation: 흐름전지 전해질의 용매화 에너지 최소화
  4. Photovoltaics: 광전지 물질의 전력변환효율 (PCE) 최대화
  5. Kinase: Kinase 저해제의 docking score 최소화
  6. Photoswitches: 유기광스위치 물질의 π-π* 전이파장 최대화

먼저, 사용한 거대언어모델의 종류에 따른 따른 최적화 성능 차이를 보았습니다. 거대언어모델로는 ChatGPT처럼 일반적인 목적으로 훈련된 모델들 (T5, GPT2-M, LL2-7B 등)과, T5 모델을 화학 반응 데이터에 전이학습시킨 T5-Chem과 같은 모델들을 사용했습니다.

그 결과, 아래 그림에서 보이는 것처럼 일반적인 목적의 거대언어모델은 fingerprint처럼 단순한 정보를 쓴 경우보다도 최적화 성능이 떨어지게 나왔으며, 반대로 MolFormer, T5-Chem처럼 화학 데이터에 (재)훈련한 모델은 보다 빠르게 물성을 최적화하였습니다.

6가지 최적화 문제에서 임베딩 방법에 따른 최적화 성능 비교. x 축은 최적화의 단계수이며 y 축은 각 최적화의 대상이 되는 물성 수치. 각 그림 위 텍스트의 화살표는 최적화가 되는 방향을 의미. 각 범례의 표현 “X-Y”에서 X는 베이지안 최적화 방법이며, Y는 임베딩 방법. RS: random search, GP: Gaussian process, LA: Laplace approximation, FP: fingerprint. 그 외 T5, GPT2-M, LL2-7B는 일반적인 거대언어모델이며, MolFormer, T5-Chem은 화학 맥락에서 훈련한 (거대)언어모델이다. Figure 3, [Kristiadi et al. ICML 2024].

위 실험에서는 거대언어모델의 파라미터를 주어진 그대로 유지한 채 물질 정보를 임베딩 했다면, 이번에는 거대언어모델에 적은 개수의 파라미터를 새로이 도입해 최적화할 물성 데이터로 finetuning 하여 비교했습니다. 아래 그림에서 실선이 거대언어모델을 그대로 쓴 경우, 점선이 finetuning을 한 경우이며, 많은 경우에 finetuning이 더 빠르게 물성을 최적화하는 것을 볼 수 있습니다.

거대언어모델의 파라미터를 주어진 그대로 쓴 경우 (Fixed)와 각 최적화 문제에 finetuning 한 경우의 최적화 성능 비교. Figure 8, [Kristiadi et al. ICML 2024].

대부분의 독자들께 거대언어모델을 활용하는 방법으로는 in-context learning, 소위 프롬프트 엔지니어링 (prompt engineering)이 더 익숙할 텐데요, 실제로 in-context learning을 물질 최적화 문제에 적용한 연구도 있습니다 [Ramos et al. 2023]. 이곳에 소개된 연구 [Kristiadi et al. ICML 2024]는 그와 같은 방법보다 베이지안 추정, finetuning과 같은 추가 연산이 필요하지만, 거대언어모델의 대답에 곧바로 의존하는 것에 비해 위양성 위험을 줄일 수 있을 것으로 보입니다.

ICML 2024 미리 보기를 마치며

이렇게 조만간 있을 ICML 2024에서 발표되는 화학·생명과학 분야 논문들을 뽑아보고 대표적인 5가지 연구를 다뤄보았습니다.

인공지능 기반 신약개발 분야에서 최근의 가장 핫한 소식이라면 단연 AlphaFold 3의 발표일 텐데요 [Abramson et al. Nature (2024)], ICML 2024 논문들의 경우 이미 지난 2월에 제출이 마감된 후 심사가 이뤄진 논문들이기에 AlphaFold 3을 분석하거나 응용하는 연구들은 아직 보이지 않습니다. 올해 말에 있을 NeurIPS 2024도 지난 5월이 제출 마감이었던 걸 생각하면 관련 연구가 AI 컨퍼런스에 나타나는 건 적어도 내년이 될 것 같습니다. 하지만 다른 과학지나 arXiv 같은 곳에서 관련 연구가 게재되는 건 훨씬 이를 수 있겠죠?

Google이 AlphaFold 3를 통해 또 한 번 놀라운 개발을 한 것은 사실이지만, 앞서 살펴본 것처럼 신약개발 분야에서 남아있는 문제는 무궁무진 합니다. 앞으로도 연구자들이 각자가 중요하게 여기는 다양한 문제에서 계속해서 흥미로운 인공지능 연구가 나오기를 기대합니다.