“프로그램이 가볍다.” “따라하기 쉽다.”
“기능이 다 있다” 이 AI 플랫폼의 이름은?
AI

단백질 구조 기반의 약물 설계 - Docking 환경 설정

Molecular docking은 신약 개발에서 리간드와 수용체 간의 결합 구조를 예측하는 핵심 기술입니다. 그러나 Thoroughness, scoring function, flexible residue 설정과 같은 환경 구성에 따라 결과가 달라질 수 있다는 사실, 알고 계셨나요? 도킹의 한계를 극복하고 이를 연구에 어떻게 활용할 수 있을지 함께 알아보시죠!
sehan
이세한 AI 연구팀 팀장
2024.11.2912min read
1.png

분자 모델링 분야에서 molecular docking은 두 분자의 상호작용을 분석하여 안정적인 결합 구조를 예측하는 것을 목표로 합니다. 신약 개발에서는 주로 화합물과 표적 단백질의 결합 구조를 예측하기 위해 사용되며, 이때 화합물을 ligand, 표적 단백질을 receptor라고 표현합니다. 성공적인 docking을 수행하기 위해서는 단백질 구조의 선택, binding site 정의, 그리고 환경 설정에 대한 철저한 고려가 필요합니다.

도킹(Docking) 프로그램의 구성 요소

Docking 프로그램의 환경 설정을 설명해 드리기에 앞서, docking의 구성 요소를 간단히 소개하겠습니다.

  1. 도킹(Docking) 알고리즘
    • Ligand와 receptor의 다양한 결합 구조를 생성하는 과정입니다. 생성된 구조는 scoring function에 의해 평가됩니다.
    • Rigid docking은 ligand와 receptor의 구조(conformation)가 고정된 상태에서 ligand를 회전(rotation) 및 평행 이동(translation)시키는 방식입니다.
    • lexible docking은 ligand의 형태 변화가 추가로 고려되며, binding site를 구성하는 일부 side chain의 형태 변화까지 허용하기도 합니다. 형태 변화는 보통 회전 가능한 결합(rotatable bond)의 비틀림 각(torsional angle) 변화를 통해 이루어지며, 일부 프로그램에서는 ring 구조의 형태 변화까지 고려할 수 있습니다.
torsional angle 변화
ring 형태 변화

  1. Scoring function

    결합 친화도를 계산하기 위해 사용되는 수학적 모델입니다. 생성된 receptor-ligand 결합 구조의 상대적 안정성을 점수로 평가합니다. 물리 기반 scoring function은 force field를 사용하여 분자 간의 상호작용을 계산하며, hydrogen bond, 전기적 상호작용(electrostatic), 반데르발스 힘(van der Waals), 엔트로피(entropy) 등을 고려합니다.
    경험적(empirical) scoring function은 알려져 있는 protein-ligand 결합 구조와 binding affinity 데이터를 기반으로 학습된 모델로, 계산 속도가 빠르다는 장점이 있으나 학습 범위를 벗어나는 경우에는 정확도가 떨어질 수 있는 한계가 있습니다. Consensus scoring function은 서로 다른 scoring function에서 얻어진 점수를 종합하여 평가하는 방식이며, 연관성이 높은 scoring function들을 함께 사용할 경우 변별력이 낮아질 수 있으므로 주의가 필요합니다.

  1. 최적화 알고리즘
    최적화 알고리즘은 손실 함수의 값이 최소화되는 변수 값을 찾는 것을 목표로 합니다. Docking에서 손실 함수는 score function이 사용되며, 변수는 ligand의 형태와 위치를 정의하는 torsional angle, 중심 좌표(center), 회전 각도(rotation angle) 등을 포함합니다.
    즉, 최적화 알고리즘은 score 값이 낮아지는 방향으로 이러한 변수들을 조정하여 ligand-receptor 결합 구조가 보다 안정적인 형태로 최적화되도록 합니다. 이를 위해 유전 알고리즘(genetic algorithm), 시뮬레이티드 어닐링(simulated annealing), 랜덤 워크(random walk) 등 다양한 기법이 사용될 수 있습니다.

도킹(Docking) 환경 설정

Docking의 환경 설정은 위에서 설명한 세 가지 구성 요소와 밀접하게 관련되어 있습니다. 환경 설정에 따라 예측의 정확성과 소요 시간이 달라지기 때문에, 효율적인 연구 수행을 위해서는 사용하는 프로그램의 특성을 충분히 이해하고 적절히 활용하려는 노력이 필요합니다. 옵션의 종류와 설정 가능한 범위는 사용하는 프로그램에 따라 달라질 수 있습니다.

  1. Thoroughness (Exhaustiveness)
    • Docking 과정에서 receptor-ligand 결합 구조 탐색을 얼마나 철저히 진행할지를 정의하는 값입니다. Thoroughness 값이 높을수록 더 많은 탐색이 이루어져 docking 결과의 정확성과 재현성이 향상될 가능성이 높아집니다. Docking 과정에서 탐색은 random 변수를 기반으로 진행되기 때문에, 같은 receptor-ligand 조합이더라도 실행마다 결과가 달라질 수 있습니다. 
    • 일반적으로 회전할 수 있는 single bond의 수는 분자 구조의 유연성을 정의하는 기준이 됩니다. Single bond의 수가 많아질수록 분자 구조는 더욱 유연해지며, 이는 곧 탐색해야 할 구조적 범위가 확장된다는 것을 의미합니다. 예를 들어, single bond가 30° 간격으로 회전한다고 가정하면, 3개의 single bond를 가진 분자는 총 1,728개((360°/30°)^3)의 가능한 구조를 가질 수 있습니다. 그러나 thoroughness가 충분히 높지 않은 경우 이 중 일부 구조(예: 1,000개)만 탐색하게 되며, 이는 최적의 결합 구조를 찾지 못할 가능성을 높이는 결과로 이어질 수 있습니다.
    • 반대로, thoroughness 값이 지나치게 높을 경우 불필요하게 많은 탐색이 이루어질 수 있습니다. 또한 thoroughness가 높아질수록 계산 시간도 함께 증가하므로, 대량의 docking 작업을 수행할 경우 전체 계산 비용이 과도하게 증가할 수 있습니다. 따라서 정확도와 효율성 간의 균형을 고려하여 적절한 thoroughness 값을 설정하려는 노력이 필요합니다.
  2. 결합 구조 수
  • 일반적으로 docking 프로그램들은 다양한 결합 구조를 탐색한 후 약 10개 정도의 binding pose와 해당 score 값을 제공합니다. 이러한 수는 대부분의 경우 충분하지만, ligand가 매우 유연하거나 flexible docking을 적용해 다양한 conformation이 가능한 경우에는 더 많은 pose를 검토할 필요가 있습니다.

  • Binding pose의 적절성을 평가하는 방법 중 하나는 key interaction의 형성 여부를 확인하는 것입니다. 예를 들어, kinase inhibitor의 경우 hinge binding을 필수적으로 형성해야 하는 것으로 알려져 있습니다. Hyper Lab의 3D viewer를 활용하면 이러한 결합 구조를 시각적으로 분석하고, 중요한 상호작용의 형성 여부를 편리하게 확인할 수 있습니다.
  1. Scoring function & 최적화 알고리즘
  • 프로그램에 따라 다양한 scoring function과 최적화 알고리즘이 제공됩니다. 각 scoring function과 최적화 알고리즘의 특성을 잘 이해하고 목적에 맞게 적절히 활용한다면, 더 나은 예측 결과를 얻을 수 있습니다.

  • 일반적으로 물리 기반 scoring function은 구조 예측에 강점을 보이는 경향이 있습니다. 반면, 최근 활발히 연구되고 있는 deep learning 기반 모델들은 x-ray 구조 데이터를 바탕으로 활성을 예측하도록 학습되었기 때문에, 활성 예측에 더 강점을 보이는 경향이 있습니다. Hyper Lab의 Hyper Binding은 물리 기반 접근과 딥러닝 기반 접근을 융합한 알고리즘을 적용하여, 활성 예측과 구조 예측 모두에서 최상위 수준의 성능을 보여주고 있습니다.

  1. Flexible residue 설정
  • Receptor 구조의 유연성이 높은 경우, docking 과정에서 이를 적절히 반영하는 것이 중요합니다. 결합하는 ligand에 따라 receptor의 골격 구조에 큰 변화가 생기는 경우에는 두 개 이상의 단백질 구조를 사용하는 것을 고려할 수 있습니다. 또한, binding site를 구성하는 residue 중 일부가 ligand에 따라 다양한 구조를 가질 수 있다면, docking 과정에서 해당 residue의 구조 변화까지 함께 탐색하는 방법을 적용할 수 있습니다.

  • Flexible residue를 추가할 경우 탐색 범위가 크게 확장됩니다. 이로 인해 계산 시간이 상당히 증가할 수 있으며, 경우에 따라서는 오히려 예측 정확성이 낮아질 우려도 있습니다. 따라서 flexible residue를 포함한 전략이 실제로 효과적인지 여부는 사전에 적절한 테스트를 통해 검토할 필요가 있습니다.

이제 단백질-약물 결합 구조 예측을 위한 docking 환경 설정이 마무리되었습니다. Docking의 예측 결과는 단순히 수치만을 받아들이기보다는, 분석을 통해 비판적으로 해석하고 활용하는 것이 바람직합니다. 다음 글에서는 docking의 한계를 짚어보고, 이를 어떻게 합리적으로 활용할 수 있을지에 대해 살펴보겠습니다.