카이스트 연구실에서 직접 개발한
AI 기술은 뭐가 다를까?
AI

인공지능 신약개발, 정말 빠를까?

AI 기술이 실제 신약개발 현장에서 어떻게 쓰이는지, 일동제약과의 협업 사례를 통해 설명합니다. 7일 만에 유효물질을 발굴해낸 과정을 통해 AI의 가능성과 한계를 함께 짚어봅니다.
Co-founders
임재창 CTO
2021.09.0910min read
1.png

안녕하세요. HITS에서 신약개발을 위한 인공지능(AI) 모델 개발을 맡고 있는 임재창입니다. 오늘은 일동제약과의 공동 신약개발 사례를 바탕으로, HITS의 또 다른 핵심 기술인 약물-단백질 상호작용 예측 모델의 적용 사례에 대해 설명드리겠습니다.

 공동연구 목적  

이 공동 신약개발 과제는 KPBMA 과제의 일환으로, 그 목적은 크게 두 가지였습니다.

  1. 타겟 A에 대해 활성을 보이는 신규 골격의 새로운 유효물질 도출
  2. AI가 실제 신약개발 현장에서 의미 있는 후보물질을 빠른 시간 내에 도출할 수 있는지 검증

공동연구 과정  

이 과제는 일반적으로 docking을 이용한 가상 탐색을 통해 물질을 선별하는 방식과 유사하게 진행되었습니다. 다만 다른 점은, docking뿐만 아니라 HITS의 약물-단백질 상호작용 예측 AI 기술인 PIGNet계산화학 기법을 함께 활용했다는 것입니다.

먼저 가상 탐색을 위한 라이브러리를 준비하였습니다. 빠르게 화합물을 반출받아 실험을 수행하기 위해 화합물은행 라이브러리를 사용하기로 하였고, 일동제약에서 해당 라이브러리를 전처리한 뒤 HITS에 전달해주었습니다. HITS에서는 이 라이브러리를 대상으로 docking, AI, 계산화학을 활용해 약물 활성을 예측하고, 이를 기반으로 물질을 선별하였습니다. 이 과정에서는 타겟 pocket의 3차원적 특성도 함께 고려되었습니다. 최종적으로 선별된 분자들은 연구원들이 한 번 더 검토한 뒤 최종 후보물질로 선정되었고, 이후 실험을 통해 타겟 A에 대한 활성을 검증하였습니다.

사용된 기술 

사용된 기술은 크게 3가지입니다. docking은 일반적으로 많이 사용하는 autodock vina를 사용하였으므로 나머지 2개 기술에 대해서 설명드리겠습니다.

1. PIGNet (약물-단백질 상호작용 예측 AI기술)

PIGNet은 구조 기반 약물-단백질 상호작용 예측 기술입니다. 약물-단백질 결합 구조를 입력으로 받아 결합 에너지를 예측하는 모델입니다. PIGNet이 기존 AI 모델들과 다른 점은, 물리법칙과 딥러닝 기술을 결합하여 일반화 성능을 높였다는 데에 있습니다. 기존 AI 모델들은 특정 데이터셋이나 특정 지표에서는 뛰어난 성능을 보일 수 있지만, 데이터셋의 한계로 인해 다양한 분자나 다양한 지표에서는 오히려 성능이 저하되는 경우가 많습니다. 이에 반해, 물리법칙은 데이터와 무관하게 항상 유효하다는 점에 착안하여, PIGNet은 AI 모델이 물리법칙을 따르도록 학습시킴으로써 보다 높은 일반화 성능을 달성할 수 있었습니다.

2. 계산화학

물리법칙을 이용해 일반화 성능을 개선했지만, 데이터에 의존하는 딥러닝 방법의 특성상 과적합 문제를 완전히 해결할 수는 없습니다. 즉, 과적합으로 인해 AI 모델이 특정 타겟에 대해서는 성능이 매우 떨어질 수 있고, 특정 구조를 가진 분자만을 지나치게 많이 선별할 수 있습니다. 계산화학은 물리법칙을 기반으로 하기 때문에, AI가 선별한 분자들을 계산화학으로 한 번 더 검증함으로써 이러한 문제를 보완할 수 있습니다. 여기서 "AI를 사용하지 않고 계산화학만 사용하면 되지 않느냐"는 의문이 생길 수도 있지만, 계산화학은 계산량이 매우 많기 때문에 수십만 개의 분자를 모두 계산하는 것은 현실적으로 매우 비효율적일 수 있습니다. 그래서 AI를 이용해 1차적으로 분자를 선별하고, 그중 상위 분자들만 계산화학으로 재검증하는 방식이 효과적인 전략이 되는 것입니다.

결과  

최종적으로 약 40만 개의 가상 라이브러리를 1주 동안 탐색하여 113종을 선별한 뒤 활성 측정을 수행하였습니다. 그 결과 1μM 40% inhibition 기준으로 8종의 유효물질을 새롭게 발굴할 수 있었습니다. 이 중 7종에 대해서 추가로 IC50을 측정하였고, 측정된 IC50 값은 34nM, 113nM, 155nM, 830nM, 1,119nM, 5,428nM이었습니다. 7일간의 가상 탐색을 통해 IC50 기준 수십 nM 수준의 활성을 보이는 분자를 찾았다는 점에서 매우 고무적인 결과입니다.

  성공 요인   

1. HITS의 뛰어난 AI 및 계산화학 기술력: AI 신약개발 과제에서 가장 중요한 요소 중 하나는 바로 AI 기술력입니다. HITS는 뛰어난 AI 기술을 바탕으로 유망한 분자 구조를 효과적으로 디자인하고 선별할 수 있었습니다. 여기에 더해 HITS는 다양한 계산화학 기술도 함께 활용합니다. 원리 기반의 계산화학 기술을 적용하면, AI 모델이 가지고 있을 수 있는 bias 문제를 효과적으로 보완할 수 있습니다. 이러한 접근이 가능했던 이유는, HITS에 AI 전문가뿐 아니라 최고의 계산화학 연구진이 함께하고 있기 때문입니다.

2. 최고의 연구인력: AI는 매우 효과적인 도구이며 큰 잠재력을 가지고 있습니다. 하지만 이 유용한 도구를 어떻게 사용할지는 결국 ‘사람(연구자)’이 결정합니다. 따라서 AI 신약개발 과제의 성공 여부에는 어떤 연구자가 참여하느냐가 매우 중요합니다. HITS에는 AI 기술을 깊이 이해하고, 실제 문제를 재정의할 수 있는 연구진이 있었기에 AI 기술을 효과적으로 적용하여 과제를 성공적으로 수행할 수 있었습니다.

성공 요인은 지난번 hit-to-lead 단계에서 설명드린 것과 동일합니다. AI는 만능이 아니며, AI를 활용하는 연구진의 능력에 크게 의존한다는 점을 다시 한번 강조하고 싶습니다. AI를 효과적으로 적용하기 위해서는, AI가 문제를 풀 수 있도록 문제를 재정의하고, AI의 한계를 보완하는 것이 매우 중요합니다. 이 점을 끝으로 글을 마치겠습니다.