카이스트 연구실에서 직접 개발한
AI 기술은 뭐가 다를까?
AI

ICLR 2024 미리 보기

ICLR 2024에서 승인된 신약 개발 관련 논문들의 트렌드를 살펴보겠습니다. 주요 주제로는 분자 구조 설계와 물성 예측, 데이터셋 마련, 거대언어모델 응용 연구, 그리고 분자 구조 예측이 있습니다. 이 중에서도 분자 구조 설계와 물성 예측, 그리고 거대언어모델 응용 연구가 주목받고 있습니다.
ai-researcher
황상연 AI 연구1팀 팀장
2024.02.2310min read
ICLR 2024 미리보기.png

ICLR (International Conference on Learning Representations)이란?

매년 인공지능 분야에서 개최되는 가장 저명한 3대 학회로 International Conference on Learning Representations (ICLR), International Conference on Machine Learning (ICML), Conference on Neural Information Processing Systems (NeurIPS)가 있습니다. ICLR, ICML, NeurIPS 순서대로 매년 4-5월, 6-7월, 11-12월에 진행되죠. 그리고 2024년에 들어선 지금, 제 12회 ICLR, 통칭 ICLR 2024가 5월 7일에서 11일까지 오스트리아 빈에서 개최될 예정입니다.

얼마 전 진행된 NeurIPS 2023에서 일어난 일들이 궁금하다면? 사진을 click!

 

자연과학 분야 학회에서 흔히 발표자들이 초록만 제출하여 심사를 받는 것과 달리, ICLR, ICML, NeurIPS와 같은 기계학습 분야 학회들은 논문의 전문을 제출하고 peer review를 받습니다. 심사자들의 질의응답과 리비전을 거쳐 최종 승인을 받게 되면 학회에서 구두나 포스터로 발표를 할 수 있고, 추후 프로시딩에 논문이 출판되지요.

그렇기 때문에 학회가 개최되기 약 반 년 전부터 논문 제출을 시작으로 심사와 판정이 이루어집니다. ICLR 2024의 경우 지난 1월부터 논문들의 최종 판정이 이루어져 오늘까지 최종 승인 논문들 (accepted papers)이 거의 결정되었습니다. 이번 ICLR 2024에는 7,304 건의 논문이 제출되고, 2월 막바지인 지금까지 그중 31%인 2,250 건의 게재가 승인되었습니다. 전체 제출 논문들의 목록과 심사 통계는 Paper Copilot 사이트에서 살펴볼 수 있습니다.

ICLR 2024에 발표되는 신약개발 관련분야 연구들

ICLR과 같은 학회에선 본래 기계학습, 특히 딥러닝의 일반적인 이론과 방법을 다루는 내용들이 많았던 반면, 물리, 화학, 생명과학 등 자연 과학 문제에 적용하는 연구들은 ICLR의 본 학회보다는 Workshop들에서 다뤄지는 편이었습니다. 하지만 점차 딥러닝이 갖은 분야에 전파되고 응용·적용 연구들이 더 많이 투고됨에 따라 본 학회에서도 딥러닝을 방법으로 하되 자연과학적 문제를 중심으로 다루는 연구들이 늘어가고 있습니다.

이번 ICLR 2024의 승인 논문들 중 신약개발 과정에 접목할 수 있는 연구들을 살펴보기 위해 chem, bio, molecule, drug, protein 등 키워드를 이용해 해당하는 연구들을 뽑아 살펴보았습니다. 총 242건의 관련 논문이 투고되고 그 중 81건의 논문이 최종 승인되었습니다. Workshop이 아닌 본 학회임에도 불구하고 적지 않은 양이 발표되는 만큼 인공지능 분야에서 점차 화학, 생명과학 관련 문제가 주목받고 있다는 점이 보여집니다. 승인된 81건의 신약개발 관련 논문들의 트렌드를 한 번 알아볼까요?

ICLR 2024의 신약 개발 관련 승인 논문 트렌드

먼저 논문들이 다루는 주제를 분류하고 주제별 비율을 조사해보았습니다.

ICLR 2024에 발표 및 게재가 승인된 화학, 생명과학 관련 논문들 81건의 주제별 비율. 참고로 한 논문이 여러 주제를 가질 수 있다.

원하는 물성에 맞는 소형 분자나 단백질을 설계하는 molecule design, protein design 주제가 19% + 10%로 가장 많았고, 분자나 단백질의 물성을 예측하는 property prediction 주제가 25%로 그 뒤를 이었습니다. 또한 GPT, Gemini와 같은 거대언어모델 (LLM), 더 일반적으로는 foundation model의 대두와 반향으로 그 응용 연구들 또한 증가하고 있는데요, 신약개발과 관련하여서도 9건 (9%)의 적지 않은 논문들이 승인되었습니다.

그럼 몇 가지 주요한 주제들에 대해 조금씩 더 살펴보겠습니다.

ICLR 2024의 신약 개발 주제 | 1. 분자 구조 설계 (Molecule design & protein design, 29%)

분자 구조 설계는 신약개발이나 재료 분야에서 사실상 궁극의 목표라고 볼 수 있습니다. 어떤 물질을 만들면 되는지 뚝딱 알려주길 바라는 문제니까요. 그런 만큼 오랫동안 연구자들로부터 관심을 받아오고 있는데요. 최근 언어, 이미지, 비디오, 음성 등에서 생성 AI의 대단한 성과들이 보여지면서 다른 분야에 접목하려는 시도들이 더욱 활발히 이루어지고 있습니다.

이번 ICLR 2024에 승인된 “Training-free Multi-objective Diffusion Model for 3D Molecule Generation” 논문에서는 여러 물성을 동시에 최적화하여 분자를 설계하는 방법을 제안합니다. 기존의 분자 생성 AI는 조절하고자 하는 물성의 종류나 가짓수가 바뀔 때 해당 물성을 다룰 수 있도록 생성 AI를 다시 학습시켜야 했는데요. 이번 연구에서는 물성 조건 없이 3차원 분자 구조를 생성하는 생성 AI를 한 번만 학습시키고, 그다음에는 분자 구조로부터 원하는 물성을 예측하는 별도의 AI를 연동하여 해당 물성을 조절하는 분자 구조가 설계되도록 했습니다. 따라서 물성을 바꾸거나 추가하려면 물성 예측 AI만 바꾸어 연동하고 생성 AI는 재활용할 수 있는데요. 물성 예측 AI는 생성 AI에 비해 학습 비용이 적기 때문에 생성 AI를 통째로 새롭게 준비하는 것에 비해 훨씬 유연하게 대처할 수 있습니다.

이번 논문에서는 분자의 전자구조적인 물성을 조절하는 예만 보였지만, 약물 분자들에 응용하는 것도 가능할 것으로 보입니다.

(좌) Polarizability (\alpha)와 dipole moment (\mu)를 동시에 조절하여 분자를 생성한 결과와, (우) HOMO, LUMO 에너지를 동시에 조절하여 분자를 생성한 결과 [Han, X. et al. ICLR 2024].

ICLR 2024의 신약 개발 주제 | 2. 분자 물성 예측 (Property prediction, 25%)

분자의 물성을 예측하는 것은 실제 실험에 들어갈 화합물이나 단백질을 선별하기 위한 가장 기본적이고 중요한 문제입니다. 때문에 인공지능의 응용 연구에서 분자 구조를 설계하는 문제보다 훨씬 전부터 다뤄졌지요.

이번 ICLR 2024에는 24건의 우수한 논문들이 승인되었는데요, 그중 "One For All: Towards Training One Graph Model For All Classification Tasks” 논문에선 거대언어모델과 그래프 신경망을 융합한 하나의 AI로 다양한 임의의 분자 물성을 예측하는 방법을 소개합니다. 물성을 조사할 분자의 구조와 구조에 대한 설명 (예: 구성하는 원자와 결합에 대한 설명), 그리고 물성 자체에 대한 설명을 모델에 입력하면 해당 내용에 맞게 입력 분자의 물성을 예측하는 방식입니다. 원하는 물성별로 데이터를 수집하고 AI를 학습시켜야 했던 기존의 방법과 달리, 거대언어모델의 텍스트 해석 능력과 지식을 이용해 말 그대로 “one for all” AI를 제안하고 있는데요, 이런 뛰어난 성과에 맞게 이번 ICLR 2024에서도 spotlight 연구로 승인되었습니다.

One For All (OFA) 프레임워크의 파이프라인. 분자 물성 예측 문제의 경우, 분자 구조 (그래프), 분자 구조에 대한 설명 (텍스트), 그리고 예측할 물성에 대한 설명 (텍스트)를 입력하면 해당 구조의 해당 물성을 예측한다 [Liu, H. et al. ICLR 2024].

ICLR 2024의 신약 개발 주제 | 3. 데이터셋 마련 (Benchmark, 9%)

기계학습과 딥러닝 연구에서 가장 중요한 것은 데이터를 수집하고 가공하는 일입니다. 양질의 데이터셋을 준비하는 건 굉장한 시간과 전문지식이 필요함에도 성능 좋은 AI를 발표하는 것에 비해 영향력이 훨씬 적은데요. 그럼에도 불구하고 커뮤니티를 위해 그런 노고를 무릅쓴 연구자들이 있습니다.

이번 ICLR 2024에 승인된 “Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets”에서는 아래 표에 보여진 것처럼 세 가지 서로 다른 크기의 데이터 셋을 소개하고 있습니다. 양자화학적 물성뿐 아니라 독성이나 오믹스 데이터 또한 포함하여 약 1억 개 분자들에 대한 3천여 가지 데이터를 집적하였습니다. 정리된 데이터를 공개하고 있는 만큼, 관련 문제를 다루는 연구자들에게 큰 기여를 하게 될 것 같습니다.

[Beaini, D. et al. ICLR 2024]에서 발표한 3가지 데이터셋. G.: graph-level; N.: node-level; C.: classification; R.: regression; RC.: ranked classification.

ICLR 2024의 신약 개발 주제 | 4. 거대언어모델 응용 연구 (LLM, 9%)

ChatGPT, Gemini와 같은 다기능 언어 모델이 유행하는 때에 제약바아이오 분야의 연구자분들은 모두 같은 생각을 하실 것 같습니다. “저런 기술이 약물 개발도 해줄까?” 학계에서 또한 그런 가능성을 찾고 높여가는 문제에 큰 관심을 갖고 있으며, 관련하는 연구 성과들이 조금씩 나오는 것 같습니다.

이번 ICLR 2024에 승인된 “Conversational Drug Editing Using Retrieval and Domain Feedback”은 ChatGPT와 같은 대화 방식으로 약물 분자 구조를 개선할 수 있는 AI, ChatDrug를 소개합니다. ChatDrug는 약물 설계라는 전문적인 문제를 이해시키기 위한 프롬프트 엔지니어링을 담당하는 PDDS (prompt design for domain-specific) 모듈, 거대 과학지식 베이스로부터 필요한 정보를 추출하고 피드백하기 위한 ReDF (retrieval and domain feedback) 모듈, 사용자와의 상호작용으로 생성 결과를 개선하기 위한 Conversation 모듈 세 개로 이루어져, 주어진 분자 구조로부터 요구에 맞게 물성이 최적화된 구조를 제안합니다.

ChatDrug의 파이프라인. 서로 다른 기능을 PDDS, ReDF, Conversation 모듈이 전체 시스템을 구성하여 타겟 물성이 개선되도록 약물 분자의 구조를 최적화 한다 [Liu, S. et al. ICLR 2024].

논문에서는 ChatDrug를 이용해 용해도, druglikeness, 투과율, 수소결합 경향 등을 개선하는 실험들을 수행했으며, 비교 기술들 중에 가장 우수한 성공률과 물성 변화량을 보여주었습니다.

6가지 약물 분자 구조 편집 예시. 구조가 변경되는 부분에 있어, 청색 영역: 입력 분자, 적색 영역: 중간 과정, 녹색 영역: 최종 변형 단계를 보여주고 있다 [Liu, S. et al. ICLR 2024].

ICLR 2024의 신약 개발 주제 | 5. 분자 구조 예측 (Docking & conformer generation, 11%)

분자 구조를 예측하는 문제는 크게, 자유롭거나 특별한 환경에 놓인 소형 분자의 3차원 구조를 예측하는 문제와 단백질과 같은 거대분자의 3차원 구조를 예측하는 문제가 있습니다. 두 문제 모두 구조 기반 신약개발에서 컴퓨터 기술을 활용할 때 필히 수반되는 문제이죠. 예측한 단백질 구조나 약물의 결합 구조가 부정확하다면 그 후에 이뤄지는 모든 과정이 잘못될 수 있습니다.

이번 ICLR 2024의 “STR2STR: A Score-based Framework for Zero-shot Protein Conformation Sampling” 논문에서는 단백질의 유동성이라는 중요한 문제를 다룹니다. 약물의 기작이나 단백질 자체의 역할을 이해할 때 단백질의 구조적 유동성은 극히 중요하지만, 많은 계산량과 부족한 정확도로 인해 다루기가 까다롭습니다. STR2STR에서는 딥러닝 분야에서 2020년부터 크게 각광받은 diffusion model을 이용해 동일한 단백질의 서로 다른 안정한 3차원 구조들을 생성합니다. 비교 기술들보다 우수한 정확도를 보여줍니다. 우선 분자동력학 같은 시뮬레이션보다 훨씬 빠른 시간에 예측이 가능합니다. 모델의 학습에 시뮬레이션 구조 없이 실험에 의한 결정 구조만 이용한다는 장점 또한 보여주고 있습니다.

구조 기반 약물 설계에서 표적 단백질의 다양한 구조를 빠르게 얻을 수 있으면 우연히 결정된 하나의 구조에서 시작하는 것에 비해 잘못된 설계를 진행할 확률이 낮아지고, 결과적으로 설계의 정확도를 높일 수 있습니다. AlphaFold 2와 같은 모델이 단일한 단백질 구조를 예측하는 데 반해, STR2STR과 같은 모델은 AI 예측까지 포함해 유용성을 더욱 높여주고 있습니다.

ICLR 2024 미리 보기를 마치며

ICLR, ICML, NeurIPS와 같은 학회는 공개된 논문을 살펴보는 것보다, 학회 기간에 참여자들 간에 이루어지는 커뮤니케이션이 더 값지다고 합니다. 하지만 개최되기 한참 전부터 새로운 기술들을 공부하고 트렌드를 이해할 수 있는 것 또한 대단한 기회입니다.

본 학회보다 좀 더 신약개발과 인공지능의 융합에 초점을 맞춘 ICLR 2024 Workshop 중 하나로 Generative and Experimental Perspectives for Biomolecular Design이 예정되어 있습니다. 저명한 산학계 인사들과 뛰어난 학생들이 준비하고 있는 워크샵으로서 in silico biology 분야의 연구 결과들이 발표될 예정입니다. 발표될 모든 연구가 웹에 공개될 것은 아니기에 직접 참여하지 않으면 모든 연구를 접할 수는 없겠지만, 그래도 신약개발에 기여하게 될 어떤 연구들이 공개될지 기다려집니다.

저희는 앞으로 개최 될 ICML 2024와 NeurIPS 2024를 기다리며, 제약바이오 업계에서 다가가기 어려울 수 있는 전문적인 인공지능/딥러닝 커뮤니티 소식을 전달드리겠습니다.