단백질 구조 기반의 약물 설계 - 배경 지식 편
약물 설계는 논리적이고 이론적인 지식 정보를 활용하여 새로운 약물의 구조를 설계하는 과정을 말합니다. 과거에는 주로 실험을 통해 얻어진 데이터에 의존하였지만, AI의 발전으로 시뮬레이션과 예측을 통해 효율성과 성공 가능성을 높이고 있습니다.
약물 설계는 활성, 선택성, 신규성 등의 신약 개발을 위한 다양한 지표 개선을 위해 활용되고 있습니다. 일반적으로 약물이 표적 단백질에 결합하여 이들의 활성을 조절함으로써 약효를 가진다는 사실을 생각했을 때, 표적 단백질의 결합 부위 (binding site)에 안정적으로 결합할 수 있는 분자 구조의 탐색은 약물 설계에서 꼭 필요한 과정임을 알 수 있습니다.
그렇다면 이러한 분자 구조는 어떻게 찾을 수 있을까요? 이론적으로 존재 가능한 저분자 유기 화합물의 수는 10⁶⁸개 정도로 알려져 있습니다. 바닷가와 사막의 모래알 개수가 7*10²⁷개 정도라고 하니 아무런 정보 없이 우연히 약물을 찾을 가능성은 모래사장에서 바늘 찾기와는 비교하기도 어려울 만큼 낮음을 알 수 있습니다. 더군다나 화합물이 약물이 되기 위해서는 ADME/T 등 다른 조건들도 만족해야 한다는 사실을 생각 했을 때 어떻게 하면 효율적으로 약물을 설계 할 수 있을까 고민하지 않을 수 없습니다.
약물 설계를 포함한 모든 연구에서 정보는 풍부할수록, 그리고 이를 효율적으로 활용할수록 더 나은 성과를 기대할 수 있습니다. 이 글에서는 AI 예측과 분석을 활용한 효율적인 약물 설계 방법(Computer-Aided Drug Design, CADD)을 다루도록 하겠습니다.
단백질-화합물, 무엇이 결합 에너지를 결정하는가?
화합물이 표적 단백질에 안정적인 결합을 이루기 위해서는 물이라는 환경과 단백질의 움직임 등 다양한 조건들이 고려되어야 하지만, 기본적으로 단백질의 결합 부위에 잘 맞는 형태(shape)와 전자(charge) 분포를 가지는 것이 중요합니다. 이들이 중요한 이유는 결국 단백질과 안정적인 상호작용을 이루기 위해서 입니다.
1. 형태
우선 형태를 생각해 봅시다. 분자의 형태가 결합 부위에 잘 맞을 경우 단백질과의 접촉 면적이 극대화 되고 이는 보다 많은 상호작용을 이룰 기회가 있음을 의미합니다. 또한 분자의 형태가 결합 부위에 잘 맞을 경우 결합 부위에서의 결합 형태와 움직임이 제한적이기 때문에 보다 안정적인 상호작용을 이루는데 유리한 면이 있습니다. Hydrophobic interaction과 같은 non-specific interaction의 경우 이러한 접촉 면적과 결합 구조 유지에 많은 영향을 받습니다.
2. 전자의 분포
전자의 분포는 단백질 과의 상호작용을 정의하며 작용기(functional group)라고 생각하셔도 됩니다. 예를 들어 OH나 NH의 경우 수소 결합, COO-나 N+의 경우 ionic interaction, 그리고 benzene은 pi-pi 또는 hydrophobic interaction을 이룰 수 있습니다. 이러한 상호작용은 말 그대로 둘 이상의 분자나 functional group 사이의 작용으로 수소 결합을 이루는 acceptor와 donor와 같은 파트너를 필요로 합니다. 즉 결합 부위를 구성하는 특정 residue와의 상호작용을 위해서는 화합물의 적정한 위치에 그 상호작용을 이룰 수 있는 작용기가 존재해야 합니다.
단백질-화합물 결합 구조 예측
단백질과 화합물의 3차원 결합 구조는 화합물의 형태나 전자 분포를 분석하기 위한 가장 중요한 정보입니다. 결합 구조로부터 단백질-화합물 사이의 상호작용을 분석하고, 목적 달성을 위한 설계, 즉 새로운 구조를 도입하나 기존의 구조를 바꿀 수 있는 위치와 적합한 작용기를 선택 할 수 있습니다. 하지만 아쉽게도 단백질과의 결합 구조가 x-ray 등의 실험을 통해 알려져 있는 화합물은 극소수이기 때문에 분자 docking을 통해 이를 예측하는 것이 일반적입니다.
Docking은 입력 정보 준비, 결합 구조 및 에너지 예측 (binding energy), 결과 분석 3단계로 정리 할 수 있습니다.
1. 입력 정보 준비
- Docking은 binding site와 분자 구조 2가지를 입력 정보로 사용합니다. 입력 정보에 대한 파일 서식은 프로그램에 따라 다를 수 있습니다.
- 결합 부위는 분자가 결합하는 단백질의 영역과 구성 요소들을 말합니다. 결합 부위의 정의는 알고리즘과 함께 docking 결과를 결정짓는 핵심 요소입니다.
- 단백질은 주변 환경에 따라 side chain과 backbone이 움직일 수 있는 유동적인 구조 입니다. Kinase의 경우 inhibitor type에 따라 결합 부위의 형태가 크게 달라질 수 있습니다. 하지만 x-ray 구조는 단백질이 가질 수 있는 다양한 구조 중 단 하나의 구조에 대한 정보를 제공하는 snapshot이기 때문에 예측하고자 하는 분자 구조에 따라 단백질 구조를 신중히 선택하여야 합니다.
-
- 결합 부위는 기본적으로 하나 이상의 단백질로 구성되며 작용 기전에 따라 Heme과 같은 coenzyme과 Zn과 같은 금속을 포함 할 수 있습니다. 이들은 리간드와 상호작용하여 결합 구조와 안정성에 영향을 줄 수 있기 때문에 binding site 환경을 정의 할 때 주의해야 합니다.
- 사용 목적에 따라 결합 부위의 크기와 위치를 조절할 수 있습니다. 결합 부위를 너무 넓게 잡으면 결합 구조를 탐색하는데 너무 긴 시간이 걸리거나 충분히 탐색하기 어렵고, 너무 작다면 분자 구조가 들어가 공간이 부족해서 결합 구조 예측이 실패할 수 있습니다. 예측하고자 하는 분자들의 크기를 고려하여 적절한 크기와 위치의 결합 부위를 정의하는 것이 바람직 합니다.
- 예측하고자 하는 분자 구조는 전처리를 통해 입력 정보로 변환됩니다. 전처리는 salt 등 불필요한 정보 제거, pKa를 반영한 protonation과 deprotonation, rotatable bond 정의 등을 포함합니다.
2. 결합 구조 및 에너지 예측
- 입력 정보를 잘 준비했다면 예측은 알고리즘이 자동으로 처리해 줍니다.
3. 결과 분석
- 계산이 잘 마무리 되었다면 docking 결과를 얻을 수 있습니다. Docking 결과에는 기본적으로 분자의 결합 부위에 대한 결합 구조와 점수 (score)를 포함합니다. 결합 구조는 docking 프로그램에서 제공하는 도구를 사용하거나 무료로 제공되는 PyMOL 등을 사용하여 확인 할 수 있습니다.
- Docking 프로그램이나 설정에 따라 다를 수 있지만 한 분자 당 10개 정도의 예측 된 결합 구조를 제공합니다.
- 점수는 결합 에너지(kcal/mol)를 의미하며 따라서 음수 값을 갖고 절대 값이 클수록 안정적인 결합 결합을 이룬다고 해석 할 수 있습니다. 즉 -4 kcal/mol 보다는 -6 kcal/mol이 더 높은 점수 입니다.
- 주의해야 할 점은 이 결합 에너지가 반드시 약물의 활성 (IC50, Kd 등)과 동일한 의미는 아니라는 점 입니다. 이는 약물의 작용 기전과 모델의 학습 목적, 그리고 성능과 관련이 있습니다.
- 약물이 competitive inhibitor라면 결합 에너지와 활성은 높은 상관 관계를 가질 수 있습니다. 하지만 allosteric inhibitor와 같이 결합이 활성을 가지기 위한 하나의 조건이라면 결합 에너지만으로 약물의 활성을 설명할 수는 없습니다.
- Docking 알고리즘의 경우 점수를 계산하는 모델은 활성 예측이 아닌 다양한 결합 구조를 탐색하는 과정에 생성된 구조들 사이의 비교 우위를 평가하기 위한 목적이 강합니다. 결합 구조의 안정성을 평가하는 만큼 활성을 일정 부분 설명해줄 수 있지만 얼마만큼 신뢰할 수 있는지는 평가가 필요합니다.
- Docking 모델에 따라 결합 구조와 활성 예측에 대한 성능은 다를 수 있습니다. 특정 단백질에 대한 성능을 비교한다면 이는 더 큰 차이가 있을 수 있습니다.
- 따라서 약물 설계 과정에서 설계된 분자 구조의 결합 구조와 활성을 docking으로 평가하고자 한다면 사용하는 docking 방법이 얼마나 결합 구조와 활성을 잘 예측해 주는지 평가하는 과정이 필요합니다. 이는 단순히 docking 방법을 평가하는 목적에서 더 나아가 docking 환경을 최적화하여 더 나은 결과를 얻기 위해 필요한 과정입니다.
이제 단백질-약물 결합 구조를 예측할 준비가 되었습니다. 하지만 예측 정확성을 높이고 더 나은 결과를 얻기 위해서는 docking 과정을 좀 더 자세히 들여다 볼 필요가 있습니다. 다음 글에서는 docking 환경 설정의 최적화를 위한 전략들을 살펴 보겠습니다.