NeurIPS 2023에서 AI 신약개발의 미래를 보다
올해로 37번째 열린 NeurIPS는 세계 최대 인공지능 학회로서 인공지능 분야의 최신 연구 트렌드를 한눈에 볼 수 있는 최적의 장소입니다. NeurIPS 2023에서는 유독 신약개발 관련 주제들을 많이 다루었는데, 이러한 관점에서 본 학회를 직접 방문하고 느낀 후기와 함께 AI가 바꿀 신약개발의 미래를 상상해 봅니다.
NeurIPS 2023 이란?
NeurIPS는 Conference and Workshop on Neural Information Processing Systems의 약자로 예전에는 간단히 NIPS라 불리기도 했습니다. 제목에서 말해주듯 신경망 (Neural Network) 시스템을 이해하기 위해 만들어진 학회이며, 1986년 미국에서 시작되었습니다. 초창기에는 생물의 신경망과 인공 신경망을 함께 다루는 학회였지만, 현재는 주로 딥러닝의 기반이 되는 인공 신경망을 기반으로 한 AI 연구에 초점을 두고 있습니다.
흥미로운 것은 최근 딥러닝의 눈부신 발전과 함께 AI for Science가 중요한 연구 주제로 대두 되었고, 그 중에서도 신약개발을 비롯한 생물 관련 연구가 급부상 하고 있다는 사실입니다.
이 글에서는 지난 12월 미국 뉴올리언스에 개최한 NeurIPS 2023 학회에서 2편의 논문 발표를 위해 KAIST 연구실 학생들과 다녀온 후기를 소개하고자 합니다.
NeurIPS 2023 에서 본 신약 개발의 미래
신약 개발 AI 연구 현황
하나의 신약이 탄생하기까지는 1~2조 원에 달하는 천문학적인 비용과 10년 이상의 연구가 필요합니다. 성공률은 매우 낮지만, 성공했을 때 매년 수조 원의 이익이 보장 되는 전형적인 High Risk High Return 산업이라 할 수 있습니다.
최근에는 AI 예측을 통해 신약개발 각 단계의 성공률과 기간을 획기적으로 단축할 수 있다는 기대가 주목 받고 있습니다.
지난 수십 년 간 축적된 데이터를 바탕으로 최신 AI 기술을 활용함으로써 약물 설계, 물성 예측, 대규모 가상 탐색 등 신약개발 과정의 다양한 문제를 해결할 수 있습니다.
저분자 화합물 기반의 신약개발 뿐만 아니라 펩타이드나 항체 신약, 단백질 구조 예측 등 다양한 모달리티 (multi-modality)에 딥러닝을 적용할 수 있습니다. 딥러닝 기반 AI가 신약개발 과정에 어떻게 활용될 수 있는지는 지난 포스팅 "AI 신약개발 공부 이 논문 3개로 시작하세요"을 통해서 확인 가능합니다.
NerulPS 2023 신약 개발 AI 연구 현황
NeurIPS 2023에서는 거대 언어 모델 (LLM)과 더불어 신약개발을 비롯한 화학 및 생물 관련 연구가 또 하나의 메가 트렌드로 주목 받았습니다.
학회 첫날인 12월 10일 오전부터 아스트라제네카 (AstraZeneca; AZ)가 "Artificial Intelligence & Machine learning across the Entire drug development pipeline” 주제로 신약개발 연구 첫 발표를 개시하였습니다. 신약개발 전과정에 걸쳐서 어떻게 AI를 활용하는지에 대해 소개하는 발표였습니다.
이어서 구글, MS를 비롯한 빅테크 회사에서부터 아스트라제네카, 제넨텍, 애비, 머크 등 글로벌 제약사, MIT, 하버드 등 유수의 대학까지 다양한 기관에서 신약개발 관련 구두 및 포스터 발표를 진행하였습니다.
NeurlPS 2023 ㅣ 신약 개발 논문 및 워크샵
NeurIPS 2023에서 출판된 총 3,584편의 논문 중 키워드 검색에 따른 논문 수를 살펴보면, Drug 124편, Protein 156편, Biology 72편, Molecule 32편, Antibody 31편 등이 있었습니다.
그리고 일주일 동안 개최된 학회의 마지막 이틀은 소주제 별 워크샵이 개최되는데, 올해는 아래와 같이 총 5개의 워크샵이 신약개발과 직간접적으로 연관된 주제였습니다.
그 중 첫번째 워크샵에서 저희 KAIST 연구실(https://wooyoun.kaist.ac.kr/) 대학원생이 딥러닝 기반 파마코포어 (PharmacoNet: https://arxiv.org/abs/2310.00681v3) 연구 주제로 포스터 발표를 하기도 했습니다.
- New Frontiers of AI for Drug Discovery and Development (https://neurips.cc/virtual/2023/workshop/66504)
- Machine Learning in Structural Biology Workshop (https://neurips.cc/virtual/2023/workshop/66513)
- Generative AI and Biology (https://neurips.cc/virtual/2023/workshop/66505)
- Deep Generative Models for Health (https://neurips.cc/virtual/2023/workshop/66495)
- AI for Science: from Theory to Practice (https://neurips.cc/virtual/2023/workshop/66548)
NeurlPS 2023 ㅣ 신약 개발 관련 기업 전시 부스 운영
이 학회의 하이라이트 중 하나는 빅테크 회사들의 전시코너입니다. NeurIPS는 세계 최대 인공지능 학회 답게 빅테크 회사들이 많은 후원을 하고, 학회 기간 동안 전시 부스를 운영하고 있습니다. 제품을 마케팅 하는 일반적인 학회 전시 부스와 다르게 여기서는 AI 연구원 채용을 주 목적으로 운영합니다. 그래서 각 회사의 주요 개발자들이 직접 부스를 운영하면서 방문자들과 연구에 대한 토의를 이어 갑니다.
이번 전시장에서 가장 주목을 받은 곳은 단연 구글 딥마인드(Google DeepMind)였습니다. 제미나이 (”Gemini·ChatGPT 차이점은? ㅣ 개념부터 차이점까지 총 정리” )를 비롯해서 최근 공개된 바 있는 날씨 예측 AI(구글 딥마인드, 1분 만에 열흘치 날씨 예측하는 AI 개발**, AI 타임스, 2023.11.15), 고성능 신소재 개발 연구로 Nature에 소개된 GNoMe ( [AI 이슈] 딥마인드 AI 모델 'GNoME', 220만 개 새로운 소재 구조 예측!...곧 생산될 수 있는 '후보 물질 38만개, 데이터베이스' 오픈소스로 공개**, 인공지능 신문, 2023.12.03) 저자들이 세션을 운영하기도 하였고, 그동안 베일에 쌓여있던 아이소모픽 랩스 (Isomorphic Labs) 연구원들도 부스에 등장하였습니다.
(그림 2). 아이소모픽 랩스는 신약개발 목적으로 2021년 설립된 구글의 자회사로 딥마인드에서 스핀오프 되었습니다. 현재는 100여명의 연구원을 채용하였고, 알파폴드 최신 버전과 함께 다양한 신약개발 AI 연구에 집중하고 있다고 합니다. 세간의 기대와 다르게 그 동안 이 회사의 성과에 대해 자세히 소개된 바가 없었는데, 2024년부터 하나둘 뉴스를 통해 성과가 발표되고 있습니다. (구글·빅파마 4兆 계약에 엔비디아 JPM 발표까지…AI 신약개발 '주목', 한국경제, 2024.01.08) 동종 업계 연구자로서 기대가 큽니다.
이 밖에도 엔비디아(Nvidia)가 투자해서 유명해진 Recursion 회사의 AI 연구 자회사 베일런스 랩스 (Valence Labs)와 LG AI 연구원의 엑사온 (Exaone) 개발팀이 부스를 운영하면서 신약개발 관련 연구를 소개하기도 했습니다.
NeurIPS 2023 AI 신약 개발 최신 연구 트렌드
AI 신약개발 최신 연구 트렌드는 생성형 AI (LLM & Diffusion Model)
그렇다면 NeurIPS 2023에서 발표된 AI 신약개발 최신 연구 트렌드는 무엇일까요? 하나의 키워드를 꼽으라면 단연 “생성형 AI (Generative AI)”라 할 수 있습니다. GPT나 GEMINI와 같은 거대 언어 모델, 즉 LLM은 대표적인 생성형 AI입니다.
LLM을 이용해 단백질 설계, 분자 설계 등 다양한 연구들이 소개 되었습니다. LLM 다음으로 가장 크게 주목 받은 생성형 AI는 Diffusion Model (검색어 diffusion 기준 454편 논문 출판)입니다. 2015년 물리학자에 의해 처음 소개된 Diffusion Model은 2020년부터 급성장 하면서 2023년에 가장 크게 성장한 AI 모델이 아닌가 싶습니다.
지난 7월 Nature에 소개된 단백질 설계 AI RFdifussion(De novo design of protein structure and function with RFdiffusion, nature, 2023.07.11)도 Diffusion Model에 기반한 것입니다.
Diffusion Model은 한때 이미지 생성 최강자로 군림했던 GAN을 밀어 내고, 이미지 생성의 최고 성능을 보여 주었고, 지금은 분자 설계 (그림 3), 단백질 설계 (그림 4), 단백질-약물 결합 구조 예측 (그림 5) 등 다양한 신약개발 연구에 활용되고 있습니다. 그밖에도 GFlowNet과 같은 생성형 AI가 많이 활용되었습니다.
생성형 AI가 바꿀 신약 개발의 미래
이러한 생성형 AI의 급성장은 신약개발 AI 기술의 고도화를 주도하고 있습니다. 딥러닝을 적용하기 이전에도 1) 단백질 구조 예측, 2) 단백질-약물 결합 구조 및 결합력 예측, 3) 단백질 설계, 4) 단백질-단백질 상호작용 예측 등 다양한 문제에 물리 기반 계산 과학이 활발히 적용되었습니다.
수십 년의 연구에도 좀처럼 진전을 이루지 못했는데, 지난 5년 사이 생성형 AI 발전 덕분에 기대 이상의 큰 성과를 이루어 내고 있습니다.
그 첫번째 예가 2020년 소개된 알파폴드2로서 50년 난제로 여겨졌던 단백질 구조 예측을 완벽에 가깝게 풀어 냈습니다. 이번 학회에서는 알파폴드2가 풀지 못했던 다양한 문제에 생성형 AI가 확대 적용되면서 눈부신 발전을 보여주었습니다.
한편으론 이러한 인실리코 기술의 발전이 실제 실험 연구에 적용된 사례는 여전히 드문 것이 사실입니다. 데이터의 부족과 노이즈가 AI 성능을 저해하기 때문에 실제 환경에서의 결과를 정확히 예측하는 것이 아직까지는 매우 어려운 것이 사실입니다. 이러한 현실은 지난 포스팅을 통해 보다 자세히 알 수 있습니다. “제약 업계 AI 디지털 전환 ㅣ CADD부터 딥러닝 기반 AI 기술까지”
하지만 분명한 것은 5년이라는 매우 짧은 시간에 AI가 보여준 과학적 진보는 그 무한한 잠재력을 보여주기에 충분했다는 것입니다. 현재의 발전 속도를 감안할 때 앞으로 5년은 상상하기 힘들 정도로 더 큰 진전을 이루지 않을까 짐작해 봅니다. 특히 현재 잘 풀리지 않는 다양한 문제들이 5년 뒤에는 모두 풀려서 지금은 감히 엄두도 내지 못하는 문제들로 새롭게 고민하고 있지 않을까 생각해 봅니다.
예를 들어 이번 학회에서도 세포 내 복잡한 단백질 신호전달 네트워크를 AI로 모사하여 세포 전체를 모사하려는 연구가 소개 되기도 했습니다. 이러한 연구가 발전한다면, 세포를 넘어 인체의 조직이나 장기, 나아가 인체 시스템을 AI로 모사하는 시대가 오지 않을까 조심스럽게 기대해 봅니다. 그리고 이렇게 눈부시게 발전하는 최신 AI 기술을 신약개발에 종사하는 모든 연구자들이 하이퍼랩(https://hyperlab.ai/)을 통해 향유할 수 있기를 바랍니다.