세상에 필요한 약을 더 빨리 만들어 내는 AI 기술이
있다고?
제약

PDB 파일에는 어떤 정보가 담겨있을까?

PDB 파일은 생물학적 거대 분자의 3차원 구조를 담고 있으며, 원자 좌표, 구조 인자, 실험 데이터, 분자의 이름과 서열 등 다양한 정보를 포함합니다. 각 파일은 여러 레코드로 구성되어 있으며, 레코드의 순서와 형식이 정해져 있습니다. PDB 파일은 단백질과 핵산의 구조 연구에 활용되지만, 최근 CIF 형식으로 전환되고 있습니다.
jimmy.png
장현준 AI 연구2팀 연구원
2024.11.087min read
PDB 파일에는 어떤 정보가 담겨있을까_.png

단백질 데이터 뱅크(PDB) 파일에 담긴 정보


하이퍼랩의 사용자분들께서는 아시겠지만, 하이퍼 바인딩 계산을 수행하기 전에 먼저 타겟 단백질의 결합 부위를 지정해야 합니다. 이런 결합 부위를 지정해 주기 위해서 RCSB 단백질 데이터 뱅크 (PDB)에 등록되어 있는 ID로 3차원 구조 정보를 불러오는데요, 이러한 구조 정보는 PDB 파일 형식에 주로 담겨 있습니다. 그렇다면 이 PDB 파일에는 어떤 정보가 담겨있을까요?

RCSB PDB는 생물학적 거대 분자의 실험적으로 밝혀진 3차원 구조를 보관하는 아카이브로, 전 세계의 연구자, 교육자 및 학생들이 활용하고 있습니다. 이 아카이브에 포함된 데이터에는 원자 좌표, 결정학적 구조 인자, NMR 실험 데이터가 포함됩니다. 좌표 외에도, 각 기탁 자료는 분자의 이름, 1차 및 2차 구조 정보, 적절한 경우 서열 데이터베이스 참조, 리간드 및 생물학적 조립체 정보, 데이터 수집 및 구조 해석에 대한 세부사항, 그리고 참고문헌 인용을 포함합니다.

이번 포스팅에서는 PDB 파일은 어떤 정보가 담겨있는지, 어떤 형식으로 이루어져 있는지 알아보도록 하겠습니다.

레코드 유형 및 작성 순서


PDB 파일 중 가장 오래된 PDB 파일인 Hydrolase Zymogen (Serine Proteinase) (PDB ID: 1CHG)의 시작 부분
HEADER    HYDROLASE ZYMOGEN (SERINE PROTEINASE)   01-MAR-75   1CHG              
TITLE     CHYMOTRYPSINOGEN,2.5 ANGSTROMS CRYSTAL STRUCTURE, COMPARISON WITH     
TITLE    2 ALPHA-CHYMOTRYPSIN,AND IMPLICATIONS FOR ZYMOGEN ACTIVATION           
COMPND    MOL_ID: 1;                                                            
COMPND   2 MOLECULE: CHYMOTRYPSINOGEN A;                                        
COMPND   3 CHAIN: A;                                                            
COMPND   4 ENGINEERED: YES                                                      
SOURCE    MOL_ID: 1;                                                            
SOURCE   2 ORGANISM_SCIENTIFIC: BOS TAURUS;                                     
SOURCE   3 ORGANISM_COMMON: CATTLE;                                             
SOURCE   4 ORGANISM_TAXID: 9913                                                 
KEYWDS    HYDROLASE ZYMOGEN (SERINE PROTEINASE)                                 
EXPDTA    X-RAY DIFFRACTION                                                     
AUTHOR    S.T.FREER,J.KRAUT,J.D.ROBERTUS,H.T.WRIGHT,N.H.XUONG                   
REVDAT  13   23-OCT-24 1CHG    1       REMARK                                   
REVDAT  12   27-SEP-23 1CHG    1       REMARK SSBOND SCALE  ATOM                
REVDAT  11   24-FEB-09 1CHG    1       VERSN                                    
REVDAT  10   01-APR-03 1CHG    1       JRNL                                     
REVDAT   9   27-JAN-84 1CHG    1       REMARK                                   
REVDAT   8   30-SEP-83 1CHG    1       REVDAT                                   
REVDAT   7   31-DEC-80 1CHG    1       REMARK                                   
REVDAT   6   07-APR-80 1CHG    3       SCALE  ATOM                              
REVDAT   5   24-JAN-78 1CHG    1       AUTHOR                                   
REVDAT   4   01-NOV-77 1CHG    1       AUTHOR REMARK SSBOND                     
REVDAT   3   23-SEP-77 1CHG    3       ATOM   CONECT                            
REVDAT   2   03-JAN-77 1CHG    3       ATOM                                     
REVDAT   1   22-NOV-76 1CHG    0                                                
JRNL        AUTH   S.T.FREER,J.KRAUT,J.D.ROBERTUS,H.T.WRIGHT,N.H.XUONG          
JRNL        TITL   CHYMOTRYPSINOGEN: 2.5-ANGSTROM CRYSTAL STRUCTURE, COMPARISON 
JRNL        TITL 2 WITH ALPHA-CHYMOTRYPSIN, AND IMPLICATIONS FOR ZYMOGEN        
JRNL        TITL 3 ACTIVATION.                                                  
JRNL        REF    BIOCHEMISTRY                  V.   9  1997 1970              
JRNL        REFN                   ISSN 0006-2960                               
JRNL        PMID   5442169                                                      
JRNL        DOI    10.1021/BI00811A022                                          
REMARK   1                                                                      
REMARK   1 REFERENCE 1                                                          
REMARK   1  AUTH   J.KRAUT                                                      
REMARK   1  TITL   CHYMOTRYPSINOGEN,X-RAY STRUCTURE                             
REMARK   1  EDIT   P.D.BOYER                                                    
REMARK   1  REF    THE ENZYMES,THIRD EDITION     V.   3   165 1971              
REMARK   1  PUBL   ACADEMIC PRESS,NEW YORK                                      
REMARK   1  REFN                                                                
REMARK   1 REFERENCE 2                                                          
REMARK   1  AUTH   H.T.WRIGHT                                                   
REMARK   1  TITL   COMPARISON OF THE CRYSTAL STRUCTURES OF CHYMOTRYPSINOGEN-A   
REMARK   1  TITL 2 AND ALPHA-CHYMOTRYPSIN                                       
REMARK   1  REF    J.MOL.BIOL.                   V.  79     1 1973              
REMARK   1  REFN                   ISSN 0022-2836                

모든 PDB 파일은 여러 줄로 구성되어 있으며, PDB 항목 파일의 각 줄은 80개의 열로 이루어져 있습니다.

PDB 파일의 각 줄은 자체 식별이 가능한데요, 모든 줄의 처음 6개 열에는 레코드 이름이 적혀있으며 이는 왼쪽 정렬되어 있으며 공백으로 구분됩니다. 레코드 이름은 아래 명시된 레코드 이름들 중 하나와 정확히 일치해야 합니다. 각 레코드 유형은 더 나아가 필드들로 구분되며, 결국 PDB 파일은 이러한 레코드 유형들의 모음으로도 볼 수 있습니다.

PDB 좌표 항목의 모든 레코드는 또한 정해진 순서로 나타나야 합니다. 필수 레코드 유형은 모든 항목에 존재하는데, 필수 데이터가 제공되지 않을 경우 레코드 이름은 NULL 표시자와 함께 항목에 나타나야 합니다. 선택적 항목은 특정 조건이 존재할 때 필수가 됩니다.

레코드 설명 명시 조건 필수적으로 명시해야 하는 경우
HEADER 항목의 첫 줄로, PDB ID 코드, 분류, 그리고 기탁 날짜를 포함. 필수
OBSLTE 해당 항목이 배포에서 제거되었다는 설명과 이를 대체한 ID 코드 목록. 선택 새로운 항목으로 대체된 항목인 경우
TITLE 항목에 나타난 실험에 대한 설명. 필수
SPLIT 더 큰 거대분자 복합체(macromolecule complex)를 구성하는 PDB 항목들의 목록. 선택 하나의 macromolecule이 여러개의 PDB 항목으로 나뉜 경우
CAVEAT 심각한 오류 표시. 선택 Chirality과 같은 중대한 오류가 있는 경우
COMPND 항목에 포함된 macromolecule 내용의 설명. 필수
SOURCE 항목에 포함된 macromolecule의 생물학적 출처. 필수
KEYWDS Macromolecule을 설명하는 키워드 목록. 필수
EXPDTA 구조 결정에 사용된 실험 기법. 필수
NUMMDL 모델의 수. 선택 NMR 앙상블인 경우
MDLTYP 항목에 제시된 좌표와 관련된 추가 주석 포함. 선택 NMR 최소화된 평균 구조의 경우나 전체 폴리머 chain이 C-alpha 원자 또는 P 원자만을 포함하는 경우
AUTHOR 기탁자 목록. 필수
REVDAT 개정 날짜 및 관련 정보. 필수
SPRSDE 공개 배포에서 폐기되고 현재 항목으로 대체된 항목들의 목록. 선택 대체된 항목이 존재하는 경우
JRNL 좌표 세트를 정의하는 문헌 인용. 선택 실험을 설명하는 문헌인 경우
REMARK 일반적인 비고; 구조화되거나 자유 형식일 수 있음. 복합 0: 선택 (재정재된 구조의 경우)
1: 선택
2: 필수
3: 필수
그 외: 선택 (특정 조건에 따름)
DBREF 서열 데이터베이스의 항목에 대한 참조. 선택 모든 폴리머에 필수
SEQADV PDB와 지정된 서열 데이터베이스 간의 불일치 식별. 선택 서열 불일치가 존재할 경우
SEQRES Backbone 잔기의 1차 서열 정보. 필수 ATOM 레코드가 존재할 경우
MODRES 표준 잔기에 대한 modification 식별. 선택 Modification된 잔기가 존재할 경우
HET 비표준 그룹(헤테로젠, heterogen)의 식별. 선택 물 이외에 비표준 그룹이 존재할 경우
HETNAM 헤테로젠의 화합물 이름. 선택 물 이외에 비표준 그룹이 존재할 경우
HETSYN 헤테로젠의 동의어 화합물 이름. 선택
FORMUL 비표준 그룹의 화학식. 선택 물 이외에 비표준 그룹이 존재할 경우
HELIX 나선형(helix) 하위구조의 식별. 선택
SHEET 베타시트(Sheet) 하위구조의 식별. 선택
SSBOND 이황화(Disulfide) 결합의 식별. 선택 이황화 결합이 존재하는 경우
LINK 잔기 간 결합의 식별. 선택 폴리머에 비표준 잔기가 있는 경우
CISPEP 시스(cis) 구조를 가진 펩티드 잔기의 식별. 선택
SITE 중요한 개체 부위를 구성하는 그룹들의 식별. 선택
CRYST1 Unit cell 매개변수, 공간군(space group), 그리고 Z 값. 필수
ORIGXn 직교 좌표계(orthogonal coordinates)에서 제출된 좌표계로의 변환 값 (n = 1, 2, 또는 3). 필수
SCALEn 직교 좌표계에서 분율 결정학적 좌표계(fractional crystallographic coordinates)로의 변환 값 (n = 1, 2, 또는 3). 필수
MTRIXn 비결정학적 대칭(non-crystallographic symmetery)을 나타내는 변환 값(n = 1, 2, 또는 3). 선택 비결정학적 대칭을 사용하여 주어진 좌표로부터 완전한 비대칭 유닛(asymmetric unit)을 생성해야 하는 경우
MODEL 단일 좌표 항목 내 다중 구조에 대한 모델 번호 명세. 선택 1개 이상의 모델이 존재하는 경우
ATOM 표준 그룹(아미노산 및 뉴클레오타이드)에 대한 원자 좌표 기록. 선택 표준 잔기가 존재하는 경우
ANISOU 이방성(anisotropic) 온도 인자. 선택
TER 단백질 chain 종결자. 선택 ATOM 레코드가 있는 경우
HETATM 헤테로젠에 대한 원자 좌표 기록. 선택 비표준 그룹이 존재할 경우
ENDMDL 단일 좌표 항목 내 다중 구조에 대한 모델 종료 기록. 선택 MODEL 레코드가 있는 경우
CONECT 원자 간 화학적 연결성(connectivity) 기록. 선택 비표준 그룹이 존재하며 LINKSSBOND 레코드가 존재하는 경우
MASTER 장부 관리를 위한 제어 레코드. 필수
END 파일의 마지막 레코드. 필수

이러한 레코드 항목들을 아래와 같은 구성으로 분류할 수 있겠습니다.

구성 설명 포함 레코드
타이틀 요약 설명 비고 HEADER, OBSLTE, TITLE, SPLIT,

CAVEAT, COMPND, SOURCE,

KEYWDS, EXPDTA, NUMMDL, MDLTYP, AUTHOR, REVDAT, SPRSDE, JRNL
비고 표준 레코드보다 더 자세한 항목 주석에 대한 다양한 설명 REMARK 0-999
1차 구조 펩티드 및/또는 핵산염기 서열과 PDB 서열과 서열 데이터베이스에서 발견된 서열 간의 관계 DBREF, SEQADV, SEQRES, MODRES
헤테로젠 비표준 그룹에 대한 설명 HET, HETNAM, HETSYN, FORMUL
2차 구조 2차 구조에 대한 설명 HELIX, SHEET
연결성 비고 화학적 연결에 대한 비고 SSBOND, LINK, CISPEP
기타 특징 Macromolecule 내 나타나는 특징 설명 SITE
결정학적 정보 결정학적 셀에 대한 설명 CRYST1
좌표 변환 좌표 변환 연산자 ORIGXn, SCALEn, MTRIXn
좌표 원자 좌표 데이터 MODEL, ATOM, ANISOU, TER, HETATM, ENDMDL
연결성 원자 간 화학적 연결 정보 CONECT
장부 관리 정보 요약, 문서 끝 표시자 MASTER, END

보시다시피 PDB 파일에는 굉장히 다양한 정보를 담을 수 있는데요, 이번 포스팅에서는 단백질 구조의 3차원 좌표 정보를 파악할 수 있는 ATOM 레코드에 대해 더 깊이 있게 알아보도록 하겠습니다.

ATOM 레코드의 구성


PDB ID 1CHG 파일의 ATOM 레코드 부분
ATOM      1  N   CYS A   1       9.857  43.568  33.202  1.00  0.00           N  
ATOM      2  CA  CYS A   1      10.543  43.203  31.997  1.00  0.00         C  
ATOM      3  C   CYS A   1       9.486  42.711  30.987  1.00  0.00           C  
ATOM      4  O   CYS A   1       8.315  42.872  31.294  1.00  0.00           O  
ATOM      5  CB  CYS A   1      11.346  41.953  32.381  1.00  0.00         C  
ATOM      6  SG  CYS A   1      10.592  40.654  33.565  1.00  0.00         S  
ATOM      7  N   GLY A   2       9.977  42.345  29.888  1.00  0.00           N  
ATOM      8  CA  GLY A   2       9.114  41.755  28.979  1.00  0.00          C  
ATOM      9  C   GLY A   2       8.021  42.608  28.396  1.00  0.00           C  
ATOM     10  O   GLY A   2       7.253  42.220  27.590  1.00  0.00          O  
ATOM     11  N   VAL A   3       7.898  43.769  28.909  1.00  0.00          N  
ATOM     12  CA  VAL A   3       6.912  44.729  28.418  1.00  0.00         C  
ATOM     13  C   VAL A   3       7.467  45.819  27.530  1.00  0.00          C  
ATOM     14  O   VAL A   3       7.746  46.798  27.846  1.00  0.00          O  
ATOM     15  CB  VAL A   3       6.127  45.092  29.724  1.00  0.00          C  
ATOM     16  CG1 VAL A   3       5.614  46.445  29.544  1.00  0.00         C  
ATOM     17  CG2 VAL A   3       4.976  44.183  30.018  1.00  0.00         C  
ATOM     18  N   PRO A   4       7.677  45.261  26.325  1.00  0.00          N  
ATOM     19  CA  PRO A   4       8.343  45.967  25.133  1.00  0.00         C  
ATOM     20  C   PRO A   4       7.628  47.314  24.750  1.00  0.00          C  
ATOM     21  O   PRO A   4       6.365  47.490  24.646  1.00  0.00          O  
ATOM     22  CB  PRO A   4       8.165  45.097  23.918  1.00  0.00         C  
ATOM     23  CG  PRO A   4       7.797  43.728  24.507  1.00  0.00         C  
ATOM     24  CD  PRO A   4       7.312  43.895  25.913  1.00  0.00         C  
ATOM     25  N   ALA A   5       8.489  48.116  24.353  1.00  0.00           N  
ATOM     26  CA  ALA A   5       7.977  49.569  24.074  1.00  0.00          C  
ATOM     27  C   ALA A   5       7.294  49.568  22.675  1.00  0.00           C  
ATOM     28  O   ALA A   5       6.400  50.143  22.581  1.00  0.00           O  
ATOM     29  CB  ALA A   5       9.017  50.658  24.082  1.00  0.00          C  

ATOM 레코드는 표준 아미노산과 뉴클레오타이드의 원자 좌표를 나타내며, 각 원자의 점유도(Occupancy)와 온도 인자(Temperature factor)도 함께 표시합니다. 비폴리머 화학물질의 좌표는 HETATM 레코드 유형을 사용하며, 모든 ATOM 레코드에는 원소 기호가 반드시 포함되어야 하지만 전하는 선택적으로 표시할 수 있습니다.

각 열에 들어가는 정보는 아래와 같습니다.

열 번호 필드 정의
1 - 6 “ATOM “
7 - 11 serial 원자 일련번호
13 - 16 name 원자 이름
17 altLoc 대체 위치 표시자
18 - 20 resName 잔기 이름
22 chainID 사슬 식별자
23 - 26 resSeq 잔기 서열 번호
27 iCode 잔기 삽입을 위한 코드
31 - 38 x 직교 좌표계 X 값 (앙스트롬 단위)
39 - 46 y 직교 좌표계 Y 값 (앙스트롬 단위)
47 - 54 z 직교 좌표계 Z 값 (앙스트롬 단위)
55 - 60 occupancy 점유도 (0.0~1.0 사이 실수값)
61 - 66 tempFactor 온도 인자
77 - 78 element 원소 기호
79 - 80 charge 원자의 전하

ATOM 레코드의 특징

위 정보를 토대로 작성된 ATOM 레코드에는 몇 가지 특징들이 있습니다:

  • 양성자화(Protonation)가 되어 있지 않은 경우도 있습니다.
  • 단백질의 ATOM 레코드는 N-terminal에서 C-terminal 방향으로 나열됩니다.
  • 핵산 잔기는 5' 에서 3' 방향으로 나열됩니다.
  • 원자 이름이 “C”처럼 한 글자인 경우 14열에서, “FE”처럼 두 글자인 경우 13열에서 시작합니다.
  • 원자의 이름은 원자 유형으로 시작하여 명명됩니다. (예를 들어 C 알파 원자의 경우 “CA,” Tyrosine의
  • 다당류(Polysaccharides)의 경우 특별히 정해진 순서가 없습니다.
  • 사슬 식별자는 공백이 아닌 영문 혹은 숫자로만 표시합니다.
  • 하나의 사슬에 대한 ATOM 레코드 목록은 TER 레코드로 끝납니다.
  • 여러 모델이 포함된 항목의 경우, 각 모델은 MODELENDMDL 레코드로 구분됩니다.
  • AltLoc는 대체 구조를 표시하는 자리표시자입니다. 대체 구조는 전체 폴리머 사슬, 여러 잔기, 또는 하나의 잔기 내 일부 원자들에 존재할 수 있습니다. 한 원자가 여러 위치에 존재하는 경우, 각 위치마다 반드시 공백이 아닌 대체 위치 표시자를 사용해야 합니다. 같은 잔기 내에서도 특정 구조에 속한 모든 원자들은 동일한 대체 위치 표시자를 가집니다. 대체 구조는 원자 수준 또는 잔기 수준에서 표현할 수 있습니다.

ATOM    435  N   SER A  69      78.391  18.901  31.786  1.00  8.05           N  
ATOM    436  CA ASER A  69      77.622  17.702  31.446  0.70  8.36         C  
ATOM    437  CA BSER A  69      77.646  17.698  31.413  0.30  8.16         C  
ATOM    438  C   SER A  69      76.425  18.043  30.558  1.00  8.31           C  
ATOM    439  O   SER A  69      76.220  17.431  29.497  1.00  8.35           O  
ATOM    440  CB ASER A  69      77.152  17.000  32.717  0.70  9.01         C  
ATOM    441  CB BSER A  69      77.274  16.853  32.636  0.30  8.36          C  
ATOM    442  OG ASER A  69      76.383  15.862  32.393  0.70 10.15        O  
ATOM    443  OG BSER A  69      76.364  17.530  33.477  0.30  8.59         O  
  • 대체 위치를 가진 원자들의 ATOM/HETATM 목록 정렬은 다음 규칙을 따릅니다: • 대체 위치를 가진 원자나 잔기가 몇 개 없는 간단한 경우, 좌표들을 연속적으로 나열합니다. • 무질서한 상태의 큰 헤테로젠 그룹의 경우, 각 구조 이성질체에 속한 원자들을 함께 나열합니다.
  • 삽입 코드(iCode)는 주로 알파벳을 사용하며, 두 잔기가 같은 번호를 가질 때 사용됩니다. 잔기의 고유성은 잔기 번호와 삽입 코드의 조합으로 결정됩니다.
  • 기탁자가 데이터를 제공하면 온도 인자로 등방성 B값(isotropic B-factor)을 사용합니다.
  • 등방성 B값이나 ANISOU 레코드의 비등방성 온도 인자(anisotropic temperature factor)가 모두 없는 경우, 온도 인자는 기본값 0.0을 사용합니다.
  • 79-80열은 2+ 또는 1-와 같은 원자의 전하를 나타내는데, 대부분의 경우 이 부분은 비워둡니다.

마치며


이번 포스팅에서는 PDB 파일에 어떤 정보가 담겨있는지, 특히 폴리머의 3차원 구조 정보가 어떻게 표현되는지 살펴보았습니다. PDB 파일 형식은 지금까지 구조 결정 연구에 많이 사용되어 왔지만, 약물과 같은 헤테로젠이 결합되어 있는 구조 내 원자 간 연결성을 제대로 구현해주지 못하는 등 몇 가지 한계점을 지니고 있어 최근 RCSB에서는 PDB 파일 대신 CIF 파일 형식으로 넘어가고 있습니다.

그럼에도 불구하고, PDB 파일 형식으로 저장되어 있는 정보가 아직 많이 남아있는 만큼, PDB 파일 형식은 당분간 계속 사용되어질 것으로 보입니다. PDB 파일에 대해 더욱 궁금하신 분들께선 하이퍼랩에 채널톡으로 문의 주시면 감사하겠습니다. 포스팅을 마치도록 하겠습니다.

참고문헌


  1. Protein Data Bank Contents Guide: Atomic Coordinate Entry Format Description Ver. 3.30