하루만에 100만개 분자 가상 탐색이 가능해진다?
제약

제약 업계 AI 디지털 전환 ㅣ CADD부터 딥러닝 기반 AI 기술까지

제약 업계 디지털 전환은 언제부터 시작 됐을까요? AI 기술이 제약 업계 , 그 안에서도 특히 ‘신약개발’ 분야를 어떻게 혁신할 수 있을지 유추해 보도록 하겠습니다. 제약 업계 AI 데이터 특수성을 이해한 후 디지털 전환 흐름에 대해 살펴봅시다.
sehan
이세한 AI 연구2팀 팀장
2023.12.285min read
제약-ai-디지털-전환

제약 업계에 부는 AI 바람

CADD(Computer-Aided Drug Discovery : 컴퓨터를 사용하여 새로운 약물을 발견하고 개발하는 것)에 대한 신약개발 연구자들의 이해와 인식이 개선되고, 딥러닝 기반의 AI 기술이 산업 전반에서 널리 활용되기 시작하면서 제약 업계에서도 AI 기술을 적용하기 위한 많은 시도들이 이루어지고 있습니다. 다양한 제약사와 AI 벤처 간 협업들이 진행되고 있으며 크고 작은 성과들이 들려오고 있습니다. 그러나 다른 산업 분야에 비해 제약 산업에서는 AI 기술의 발전과 확산이 매우 더딘 편입니다.

ai-digital-transformation-pharma-status

참고 자료 : IQVIZ 디지털 전환율 조사 

제약 AI란?

“제약사는 AI를 모르고, AI 기업은 신약개발을 모른다”

히츠(AI 신약개발 스타트업) 김우연 대표의 말로 국내 제약 업계의 AI 기술 적용 현황을 대략이나마 살펴볼 수 있을 것 같습니다.

제약, AI 모두 고도로 전문화된 분야이며 공통점을 찾기 어려운 분야입니다. 때문에 제약 업계 종사자들과 AI 연구자들은 서로에 대해 이해가 부족할 수밖에 없습니다. 이는 최적화된 AI 개발과 이를 효율적으로 활용하는데 있어 큰 장애물로 작용하고 있습니다. 이와 같은 현황은 다음 기사를 통해서도 살펴볼 수 있습니다. (참고 기사 : "제약산업 디지털 전환 100점 만점에 13점... 초입단계", 히트 뉴스, 2022. 04.18 )

제약 AI 데이터만의 특수성 이해

일반적인 이미지나 언어의 경우 데이터의 형태가 매우 단순 할 뿐만 아니라 확보할 수 있는 데이터의 양이 거의 무한하기 때문에 고품질의 데이터를 활용하여 거대 AI를 학습시킬 수 있습니다. GPT-3의 경우 3,000억개의 데이터를 사용해 1,750억개 매개 변수를 학습하였으며 특정 영역에서는 사람보다 높은 정확성을 가진 것으로 알려져 있습니다.

반면 제약 분야는 매우 복잡한 생명 현상을 다루지만 데이터의 양과 질은 매우 부족한 상황입니다. 

  • 실험을 통해 데이터를 확보하는 만큼 데이터 생산을 위해서는 많은 시간, 인력, 그리고 자본 비용을 필요로 합니다. 따라서 한 기관이나 회사에서 필요한 모든 데이터를 생산하기 보다는 ChEMBL등의 공공 DB에 오랜 기간 축적된 데이터를 활용하는 것이 일반적 입니다. 여기에 제약사의 고유 데이터를 추가한다면 차별화된 인공지능 개발이 가능합니다!
  • 공공 DB의 주요 데이터 출처는 논문입니다. 이들 논문에는 보통 활성이 높거나 독성이 있는 분자 등의 Positive 데이터 위주로 보고되는 경향이 있습니다. 때문에 상대적으로 비활성, 비독성 분자에 대한 데이터가 부족한 경우가 많으며 이는 인공지능의 성능 저하로 이어질 가능성이 높습니다.
  • 또한 실험 데이터는 실험 환경과 방법에 따라 값이 크게 달라질 수 있어 데이터의 신뢰도 평가와 표준화 과정이 매우 중요합니다. 데이터 확보가 특히 어려운 제약 산업에서 이러한 데이터 품질은 매우 중요한 이슈이며 고품질의 데이터를 확보하기 위한 많은 노력들이 이뤄지고 있습니다.

그럼에도 불구하고 제약 산업은 AI 를 기반으로 한 디지털 전환에 무게를 두고 변화하고자 노력하고 있습니다. (참고 기사 : “신약 개발도 AI가”…‘디지털 전환’ 서두는 제약사들, 브릿지경제, 2023-04-06) 세상에 필요한 약이 더 빠르게 탄생하기 위해서 특히 "신약개발" 분야 디지털 기술 가속화가 어떻게 이루어져왔는지 다음 섹션에서 살펴보도록 하겠습니다.)

제약 업계 디지털 전환

신약개발 - CADD부터 딥러닝 기반 AI 기술까지

수만(104)개의 화학물질이 현재 인간의 삶에 적용되고 있습니다. 지금까지 화학 역사에서 약 1억 개(108)의 화학 물질이 발명되었고, 이론적으로 가능한 숫자는 우주의 입자 수보다 큰 1,060~10,200개로 알려져 있습니다. 신약개발은 이러한 무한한 화합물 공간(Chemical Space)에서 최적의 분자 구조를 찾아내는 과정으로 단순화할 수 있습니다.

chemical-space

직관적으로 이러한 화합물 공간을 효율적으로 탐색할수록 유리하다는 것을 알 수 있을 겁니다. CADD (Computer-Aided Drug Discovery)는 컴퓨터를 활용하여 이러한 화합물 공간에서 최적의 물질을 찾아내고 더 나아가 설계까지 하는 것을 목적으로 하고 있습니다. CADD는 QSAR, Pharmacophore, docking, regression 등 다양한 방법들을 포함하고 있으며, 최근에는 딥러닝 기반의 AI가 적극적으로 활용되고 있습니다.

computer-aided-drug-design

출처 : Computer Aided Drug Design: A Novel Loom to Drug Discovery

딥러닝 기반 AI가 신약개발 과정에 어떻게 영향을 미치고 있는지는 지난 포스팅 "AI 신약개발 공부 이 논문 3개로 시작하세요" 을 통해서 자세히 확인 가능합니다. 참고하셔서 도움이 되길 바랍니다.

마무리

지금까지 제약 업계에 부는 AI 바람 및 신약개발 디지털 전환 흐름에 대해 대략적으로 살펴보았습니다. 이후 글에서는 신약개발 과정에서 AI를 보다 올바르고 효율적으로 활용하기 위해서 어떤 점들을 고려하면 좋을지를 데이터 관점에서 다루도록 하겠습니다. 주로 공공 데이터베이스인 RCSB, UniProt, ChEBML 등에서 데이터를 확보하는 방법과 확보한 데이터를 AI 기반 연구에 활용하는 방법을 정리할 예정입니다.