AI 신약 개발의 동향과 미래
성큼 다가온 AI 시대
지난 2016년, 구글의 DeepMind가 개발한 인공지능 바둑 프로그램 AlphaGo가 프로 바둑 기사 이세돌에게 승리하며 전 세계에 AI는 더 이상 공상 과학 영화에만 존재하는 개념이 아님을 공표하였습니다. 이후의 우리는 AI 혁명의 시기를 목도하고 있습니다. 2020년에는 구글 DeepMind에서 세기의 난제라고 손꼽히는 단백질 구조 예측을 정확하게 수행하는 AlphaFold를 공개하여 과학계를 놀라게 하였습니다. 그리고 지난 2022년에는 OpenAI에서 대화형 인공지능 챗봇 모델인 ChatGPT를 발표하여 과학계와 전 산업 분야를 넘어 우리의 삶 전반에 영향을 미치고 있습니다.
AI 활용 사례 - 신약 개발
이러한 AI 신드롬은 신약 개발 분야에도 그 영향을 미치고 있습니다. 지난 포스트에서 소개한 AlphaFold3는 표적 단백질 및 후보 약물의 결합 구조를 빠르고 정확하게 예측하여 기존 방식으로는 막대한 시간과 비용이 소모되었던 hit discovery 단계를 획기적으로 단축할 AI 모델로 평가받고 있습니다. 신약 개발을 위해서는 hit discovery 외에도 후보 물질을 약물로써 발전시키는 hit-to-lead, 약물의 효과 및 독성을 검증하는 임상 시험 등 매우 많은 과제가 남아있는데요. 전 세계적으로 이러한 프로세스들을 포함한 신약 개발 과정 전반에 걸쳐 AI를 적용하기 위한 연구가 꾸준히 진행되고 있고, 그에 따른 산업계의 분석도 이어지고 있습니다. 즉, 신약 개발 분야에서 AI는 이제 거부할 수 없는 거대한 흐름이 된 것이죠. 저는 오늘 여러분들이 이 거대한 흐름에 잘 따라오실 수 있게 도움을 드리고자 신약 개발 분야에서 AI의 발전과 동향, 그리고 앞으로의 방향에 대한 분석과 관점을 공유하고자 합니다.
AI가 신약 개발 분야에 미치는 영향
먼저 AI가 신약 개발 분야에 어떻게 영향을 미치는 지에 대해 정확하게 파악하는 것이 중요합니다. 마침, 미국 유력 출판지 중 하나인 포브스에서 신약 개발 분야 전반에서 AI가 미친 영향을 분석한 글을 기고하여, 이를 여러분께 요약 및 소개해 드리고자 합니다.
약물 개발에서 AI
AI 시대 이전에도 컴퓨터 과학 및 데이터 분석 기술의 발전은 신약 개발 프로세스, 특히 초기 약물 개발 단계인 hit-discovery에 기여해 왔습니다. 대표적인 것이 Glide, GOLD, AutoDock Vina와 같이 표적 단백질에 후보 약물 물질의 결합 구조를 예측하는 docking 프로그램들과 이를 기반으로 방대한 양의 약물 후보 물질을 탐색하는 drug screening입니다. 이러한 컴퓨터 기반 약물 설계(CADD)는 신약 발견 파이프라인의 중요한 요소로 자리 잡고 있습니다. 최근에 발전한 AI 모델들은 방대한 데이터를 학습하여 더 빠르고 정확하게 화학 구조와 그 상호작용을 예측할 수 있으며, 이를 통해 더 많은 약물 후보 물질 발견에 기여합니다.
임상 시험에서 AI
약물 개발 단계에서 발견된 물질은 FDA에서 정식 약물로 승인되기 전 약리적 효과와 위험성을 확인하는 임상 시험 단계를 거칩니다. 많은 대형 제약사들이 정기적으로 자신들이 개발한 물질에 대한 임상 시험을 실시하지만, 종종 문서화 과정이 미흡하여 효율성을 놓치는 경우가 많습니다. AI는 데이터를 효율적으로 다루고, 조직화하여 향후 개선에 큰 역할을 수행합니다. 지리적 범위를 확장하고 다양한 인구 집단군에 접근할 수 있는 가상 임상 시험을 가능하게 하여, 임상 단계에서 더 폭 넓고 통찰력 있는 결과를 제공해 줍니다.
약물 재창출에서 AI
신약 개발 프로젝트는 방대한 양의 데이터의 축적을 야기하지만 한 프로젝트의 종료 후 남은 데이터의 재활용률은 상대적으로 떨어지는 편입니다. AI는 이러한 데이터들을 활용하는 데 큰 강점을 가지고 있습니다. 특히 서로 다른 표적 단백질 및 대사 반응을 대상으로 한 약물들 간의 연관성을 분석하는 다중 약리학(polypharmacology)을 통해, 유전자, 질병 및 약물 간의 새로운 연결을 발견하여 더욱 빠르고 정확한 약물 재창출이 가능합니다. 이미 지난 펜데믹 때 코로나 바이러스(Covid-19)에 대항하기 위해 기존 약물들을 AI 로 탐색한 사례도 있습니다.
정밀 의학에서 AI
정밀 의학은 환자 개개인의 유전형 혹은 표현형적인 특성에 따른 약물이나 치료법을 제공하여 환자의 건강을 더욱 증진 시킬 수 있습니다. 현재까지는 환자 개개인의 생체 데이터를 확보하고 분석하는 작업에 많은 시간과 비용이 요구되어 그 적용에 한계가 있습니다. 하지만 최근의 차세대 시퀀싱 기술 (NGS)과 AI의 발전은 개인의 유전체 데이터 확보와 분석에 드는 시간과 비용을 획기적으로 단축해 정밀 의학의 가능성을 현실로 만들고 있습니다. 특히 AlphaFold와 같은 AI 모델은 주어진 유전체나 단백질 서열에 대한 DNA와 단백질 구조를 제공하여 연구자들에게 더 효과적인 약물이나 치료법을 제공합니다.
AI 신약 개발이 마주한 과제
이러한 AI의 잠재력에도 불구하고 현재 AI가 신약 개발 분야 전반에 적용되기 위해서는 극복해야 할 과제가 존재합니다. AI 모델은 학습 과정에서 많은 양의 정제된 데이터를 요구하지만, 실제 신약 개발 분야에서는 많은 데이터가 서로 다른 연구자와 제약 회사 간에 고립되어 일관된 대규모 데이터셋 구축에 한계가 있습니다. 또한, 데이터의 특수성으로 인해 데이터 라벨링 과정이 복잡하여 데이터의 품질 관리에도 제약이 있습니다. 이를 해결하기 위해 기업과 기관 전반의 데이터 표준화 및 데이터 공유 프로세스 구축에 대한 목소리가 꾸준히 나오고 있지만 하나의 데이터를 생성하는 데에 많은 시간과 비용이 발생하고 데이터에 대한 엄격한 관리와 보안이 적용되는 제약 분야의 특성상, 현실적으로 어려운 과제입니다. 이처럼 고품질 데이터 부족 문제는 신약 개발 분야 AI 기술 도약의 고질적인 장애물이었습니다. 따라서 현재 신약 분야 AI에서 가장 주요한 화두 중 하나는 바로 이 데이터 부족 문제 해결이라고 해도 과언이 아닌데요. 지난 6월 뉴욕 타임스에서 게재한 글에서는 이러한 동향에 대한 사례 중 하나로 미국의 바이오테크 기업인 Terray Therapeutics를 소개합니다.
Terray Therapeutics, 신약 개발 AI를 위한 데이터 공장을 설립하다
Terray Therapeutics는 신약 개발 분야 AI 데이터 부족 문제에 대한 해결법으로 AI용 데이터를 자체 생산한다는 해결책을 제시 하였습니다. 이들은 축구장 크기의 2/3에 해당하는 거대한 연구실을 설립하고 자동화된 연구 및 데이터 기록 관리 프로세스를 구축하여 매일 50 테라 바이트에 해당하는 AI용 실험 데이터를 생성합니다. 이는 영화 12,000여 개에 해당하는 어마어마한 데이터 양입니다. 또한 Terray Therapeutics는 실험실과 AI 간에 효율적으로 데이터를 교환하는 프로세스를 구축하였습니다. 실험실에서 생성된 데이터는 AI를 위한 학습 및 추론 데이터로 가공, 전달되고 AI가 예측한 결과는 다시 실험실로 보내져 검증 및 시험 됩니다. 그리고 실험실에서 나온 결과물이 다시 AI로 피드백되는 과정을 통해 전체적으로 AI 모델 구축 및 AI 기반 신약 개발 과정이 가속화됩니다. 즉, 실험실과 AI 사이에 데이터 및 피드백을 교환하며 상호 간의 데이터 축적과 성능 향상을 촉진하는 일종의 거대 데이터 공장이자 AI 신약 개발 파이프라인이라고 할 수 있습니다.
이정도 규모의 실험 및 데이터 센터를 설립하는 데에는 분명 막대한 자본과 인력, 시간이 필요합니다. 그럼에도 불구하고 Terray Therapeutics의 설립자들과 투자사들이 이러한 대규모 프로젝트에 기꺼이 투자한 이유는 바로 AI 기반 신약 개발의 시대가 반드시 도래한다는 확신과 지금이 바로 그러한 시대로 도약하기 위한 자원을 투입할 때라는 공통된 결론을 공유하기 때문일 것입니다. 일례로 세계 최대 경영 컨설팅 회사 중 하나인 맥킨지에서는 AI가 제약 분야에 100년에 한 번 올 기회라고 언급하였고, NVIDIA의 벤처 케피탈인 NVentures와 여러 거대 제약사는 이러한 기회 개척의 선봉장 중 하나인 Terray Therapeutics에 대규모 투자를 진행하였습니다.
Isomorphic Labs, AI와 과학을 합쳐 신약 개발의 미래를 열다
AI 기반 신약 개발로의 도약 사례는 Terray Therapeutics에만 그치지 않습니다. 지난 2021년 11월 DeepMind에서 창업한 신약 개발 Isomorphic Labs는 AlphaFold를 필두로 AI 신약 개발 시대를 향한 출사표를 던졌습니다. Isomorphic Labs는 현재 AI 신약 개발 시대의 개척자로써 전 세계의 기대를 받고 있으며, 그 명성에 걸맞게 많은 글로벌 거대 빅 파마들의 투자와 연구가 진행되고 있습니다. 특히 과학 자문 위원회의 멤버로 Jennifer Doudna를 포함한 노벨상 수상자가 무려 4명이나 포함되었다는 것은 AI 신약 개발이 현재 과학 및 산업계에서 가장 주요한 화두라는 것을 시사 합니다.
더불어 Isomorphic Labs에서 화려한 라인업의 과학 자문 위원회를 구성했다는 것은 신약 개발 분야에서 데이터 부족의 한계를 현시대 최고의 과학적 지성과 자신들의 AI 기술을 결합해 극복하려는 시도라고 해석될 수 있습니다. 즉, 부족한 데이터의 한계를 해결하고자 AI에 그 분야의 사전 지식을 투여하는 기술적 해결책을 모색한 것입니다. 이 방법은 Inductive bias라고 불리는데, AI 분야에서는 꽤 고전적인 방법입니다. 예시로 이전 AlphaFold 모델들에서는 구조를 예측하고자 하는 단백질 서열의 진화론적인 정보를 담는 MSA (Multiple Sequence Alignment) 데이터를 AI 모델에 제공하는 방식으로, 상대적으로 부족한 단백질 구조 데이터의 한계를 극복하고자 하였습니다.
즉, Terray Therapeutics와 Isomorphic Labs의 사례를 통해 현재 AI 신약 개발 분야는 주요한 난제 중 하나인 데이터 부족 문제를 극복하기 위해 자체 실험 데이터 구축 혹은 inductive bias를 기반으로 한 기술 개발을 진행하고 있다고 정리할 수 있습니다. 또한 이 과정에서 드는 막대한 자본은 글로벌 빅파마들과 투자사들이 AI 신약 개발이라는 천재일우의 기회를 잡기 위해 기꺼이 지불하고 있으며, 그 결과 최고의 인재들이 모여들어 활발한 연구가 진행되고 있음을 알 수 있습니다.
AI 신약 개발의 미래
그렇다면 앞으로 AI 신약 개발의 발전은 어떤 방향으로 전개될까요? 우선 한동안은 AI 신약 개발용 데이터 부족 문제를 해결하기 위한 노력이 이어질 것으로 예측됩니다. 이를 위해 Terray Therapeutics 사례처럼 신규 데이터를 자체 생산하는 방향으로 접근할수 도 있지만, 기존 제약·바이오 기업 및 기관들이 축적해 놓은 데이터를 활용하는 것이 가장 효율적인 해결 방법이 될 것입니다. 하지만 앞서 언급한 것처럼 실험 데이터 하나당 많은 시간과 자본이 투자된다는 점, 그로 인해 제약사들이 보유 데이터의 공개를 꺼린다는 점, 그리고 제약사마다 데이터 형태가 달라 표준화된 데이터셋 구성이 어렵다는 점 등 현실적으로 여러 가지 제약이 있는 상태입니다.
따라서 이를 극복하고 한 단계 더 높은 신약 개발 AI 모델을 구축하기 위해 기업 및 기관 간 데이터 공유 프로세스를 구축하는 노력이 이어지고 있는데요. 대표적인 사례가 바로 지난 2023년 첫 발족한 K-멜로디(MELLODDY) 프로젝트입니다. K-멜로디는 기관 별 데이터를 암호화하여 하나의 거대 AI 모델을 학습에 활용 및 협력할 수 있는 플랫폼을 구축하는 프로젝트입니다. K-멜로디의 전신이라고 할 수 있는 2019년 유럽연합(EU) 멜로디 프로젝트에 아스트라제네카, GSK, 노바티스 등 유럽 주요 제약사 10개 및 주요 대학 및 연구 기관이 참여하여 AI의 성능을 향상 사례가 있는 만큼 이번 K-멜로디 프로젝트는 국내 바이오테크 기업이 글로벌 빅파마와 AI 성능 격차를 좁힐기회로 평가받고 있습니다. 이러한 기대에 힘입어 복지부 및 과학기술부의 주관으로 여러 국내 제약사도 참여하여 신약 개발 AI 고도화를 위한 다기관 데이터의 안전 공유 체계 구축을 위한 협력에 나서고 있습니다.
Terray Therapeutics의 CEO Jacob Berlin는 “일단 적절한 종류의 데이터를 확보하면, AI는 매우 뛰어난 성능을 발휘할 수 있다”라는 언급하였습니다. 그만큼 AI, 특히 신약 개발 분야에서의 AI에 데이터의 품질과 양은 절대적으로 중요한 요소라는 것이죠. 현재 국내외 제약바이오 업계에서 데이터 확보에 노력을 기울이고 있는 이유도 모두 충분한 데이터가 초고도화 된 신약 개발 AI로 가는 열쇠라는 공통된 결론에 도달했기 때문입니다. 데이터의 양에 따라 기술 혁신의 속도에 탄력이 받는 AI의 특성 상 신약 개발 AI는 지금보다 더 빠른 속도로 발달하게 될 것임이 자명합니다. 즉, 현재 제약·바이오 업계는 AI라는 중대한 기술적 변곡점에 있다고 무방하다고 할 수 있습니다. 하지만 기술적 장벽이 상대적으로 높은 AI 분야의 특성 상, 그 기반이 약한 제약 업계에서 바로 AI 혁명에 동참하기는 상당히 어려운 일입니다. 따라서 글로벌 빅파마들은 자신들의 이러한 대전환점에 대응하고자 뛰어난 AI 기술력을 지닌 스타트업과 파트너십을 맺으며 이러한 기술 대전환의 시기에 대비하고 있습니다. 즉, 현재 당도한 AI 신약 개발의 시대는 제약·바이오 업계에게 어느 때보다 적극적인 대외 협력과 투자가 필요한 시기라고 할 수 있습니다.
References
- https://www.forbes.com/sites/forbestechcouncil/2024/06/11/the-future-of-medicine-how-ai-is-revolutionizing-pharma/?utm_source=linkedin&utm_medium=social&utm_content=ap_v5xwql6qha
- https://www.nytimes.com/2024/06/17/business/ai-drugs-development-terray.html#:~:text=The young A.I.,bankers to smaller research ventures