PDB 파일에는 어떤 정보가 담겨있을까?
단백질 데이터 뱅크(PDB) 파일에 담긴 정보
하이퍼랩의 사용자분들께서는 아시겠지만, 하이퍼 바인딩 계산을 수행하기 전에 먼저 타겟 단백질의 결합 부위를 지정해야 합니다. 이런 결합 부위를 지정해 주기 위해서 RCSB 단백질 데이터 뱅크 (PDB)에 등록되어 있는 ID로 3차원 구조 정보를 불러오는데요, 이러한 구조 정보는 PDB 파일 형식에 주로 담겨 있습니다. 그렇다면 이 PDB 파일에는 어떤 정보가 담겨있을까요?
RCSB PDB는 생물학적 거대 분자의 실험적으로 밝혀진 3차원 구조를 보관하는 아카이브로, 전 세계의 연구자, 교육자 및 학생들이 활용하고 있습니다. 이 아카이브에 포함된 데이터에는 원자 좌표, 결정학적 구조 인자, NMR 실험 데이터가 포함됩니다. 좌표 외에도, 각 기탁 자료는 분자의 이름, 1차 및 2차 구조 정보, 적절한 경우 서열 데이터베이스 참조, 리간드 및 생물학적 조립체 정보, 데이터 수집 및 구조 해석에 대한 세부사항, 그리고 참고문헌 인용을 포함합니다.
이번 포스팅에서는 PDB 파일은 어떤 정보가 담겨있는지, 어떤 형식으로 이루어져 있는지 알아보도록 하겠습니다.
레코드 유형 및 작성 순서
HEADER HYDROLASE ZYMOGEN (SERINE PROTEINASE) 01-MAR-75 1CHG TITLE CHYMOTRYPSINOGEN,2.5 ANGSTROMS CRYSTAL STRUCTURE, COMPARISON WITH TITLE 2 ALPHA-CHYMOTRYPSIN,AND IMPLICATIONS FOR ZYMOGEN ACTIVATION COMPND MOL_ID: 1; COMPND 2 MOLECULE: CHYMOTRYPSINOGEN A; COMPND 3 CHAIN: A; COMPND 4 ENGINEERED: YES SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: BOS TAURUS; SOURCE 3 ORGANISM_COMMON: CATTLE; SOURCE 4 ORGANISM_TAXID: 9913 KEYWDS HYDROLASE ZYMOGEN (SERINE PROTEINASE) EXPDTA X-RAY DIFFRACTION AUTHOR S.T.FREER,J.KRAUT,J.D.ROBERTUS,H.T.WRIGHT,N.H.XUONG REVDAT 13 23-OCT-24 1CHG 1 REMARK REVDAT 12 27-SEP-23 1CHG 1 REMARK SSBOND SCALE ATOM REVDAT 11 24-FEB-09 1CHG 1 VERSN REVDAT 10 01-APR-03 1CHG 1 JRNL REVDAT 9 27-JAN-84 1CHG 1 REMARK REVDAT 8 30-SEP-83 1CHG 1 REVDAT REVDAT 7 31-DEC-80 1CHG 1 REMARK REVDAT 6 07-APR-80 1CHG 3 SCALE ATOM REVDAT 5 24-JAN-78 1CHG 1 AUTHOR REVDAT 4 01-NOV-77 1CHG 1 AUTHOR REMARK SSBOND REVDAT 3 23-SEP-77 1CHG 3 ATOM CONECT REVDAT 2 03-JAN-77 1CHG 3 ATOM REVDAT 1 22-NOV-76 1CHG 0 JRNL AUTH S.T.FREER,J.KRAUT,J.D.ROBERTUS,H.T.WRIGHT,N.H.XUONG JRNL TITL CHYMOTRYPSINOGEN: 2.5-ANGSTROM CRYSTAL STRUCTURE, COMPARISON JRNL TITL 2 WITH ALPHA-CHYMOTRYPSIN, AND IMPLICATIONS FOR ZYMOGEN JRNL TITL 3 ACTIVATION. JRNL REF BIOCHEMISTRY V. 9 1997 1970 JRNL REFN ISSN 0006-2960 JRNL PMID 5442169 JRNL DOI 10.1021/BI00811A022 REMARK 1 REMARK 1 REFERENCE 1 REMARK 1 AUTH J.KRAUT REMARK 1 TITL CHYMOTRYPSINOGEN,X-RAY STRUCTURE REMARK 1 EDIT P.D.BOYER REMARK 1 REF THE ENZYMES,THIRD EDITION V. 3 165 1971 REMARK 1 PUBL ACADEMIC PRESS,NEW YORK REMARK 1 REFN REMARK 1 REFERENCE 2 REMARK 1 AUTH H.T.WRIGHT REMARK 1 TITL COMPARISON OF THE CRYSTAL STRUCTURES OF CHYMOTRYPSINOGEN-A REMARK 1 TITL 2 AND ALPHA-CHYMOTRYPSIN REMARK 1 REF J.MOL.BIOL. V. 79 1 1973 REMARK 1 REFN ISSN 0022-2836 |
모든 PDB 파일은 여러 줄로 구성되어 있으며, PDB 항목 파일의 각 줄은 80개의 열로 이루어져 있습니다.
PDB 파일의 각 줄은 자체 식별이 가능한데요, 모든 줄의 처음 6개 열에는 레코드 이름이 적혀있으며 이는 왼쪽 정렬되어 있으며 공백으로 구분됩니다. 레코드 이름은 아래 명시된 레코드 이름들 중 하나와 정확히 일치해야 합니다. 각 레코드 유형은 더 나아가 필드들로 구분되며, 결국 PDB 파일은 이러한 레코드 유형들의 모음으로도 볼 수 있습니다.
PDB 좌표 항목의 모든 레코드는 또한 정해진 순서로 나타나야 합니다. 필수 레코드 유형은 모든 항목에 존재하는데, 필수 데이터가 제공되지 않을 경우 레코드 이름은 NULL 표시자와 함께 항목에 나타나야 합니다. 선택적 항목은 특정 조건이 존재할 때 필수가 됩니다.
레코드 | 설명 | 명시 조건 | 필수적으로 명시해야 하는 경우 |
---|---|---|---|
HEADER |
항목의 첫 줄로, PDB ID 코드, 분류, 그리고 기탁 날짜를 포함. | 필수 | |
OBSLTE |
해당 항목이 배포에서 제거되었다는 설명과 이를 대체한 ID 코드 목록. | 선택 | 새로운 항목으로 대체된 항목인 경우 |
TITLE |
항목에 나타난 실험에 대한 설명. | 필수 | |
SPLIT |
더 큰 거대분자 복합체(macromolecule complex)를 구성하는 PDB 항목들의 목록. | 선택 | 하나의 macromolecule이 여러개의 PDB 항목으로 나뉜 경우 |
CAVEAT |
심각한 오류 표시. | 선택 | Chirality과 같은 중대한 오류가 있는 경우 |
COMPND |
항목에 포함된 macromolecule 내용의 설명. | 필수 | |
SOURCE |
항목에 포함된 macromolecule의 생물학적 출처. | 필수 | |
KEYWDS |
Macromolecule을 설명하는 키워드 목록. | 필수 | |
EXPDTA |
구조 결정에 사용된 실험 기법. | 필수 | |
NUMMDL |
모델의 수. | 선택 | NMR 앙상블인 경우 |
MDLTYP |
항목에 제시된 좌표와 관련된 추가 주석 포함. | 선택 | NMR 최소화된 평균 구조의 경우나 전체 폴리머 chain이 C-alpha 원자 또는 P 원자만을 포함하는 경우 |
AUTHOR |
기탁자 목록. | 필수 | |
REVDAT |
개정 날짜 및 관련 정보. | 필수 | |
SPRSDE |
공개 배포에서 폐기되고 현재 항목으로 대체된 항목들의 목록. | 선택 | 대체된 항목이 존재하는 경우 |
JRNL |
좌표 세트를 정의하는 문헌 인용. | 선택 | 실험을 설명하는 문헌인 경우 |
REMARK |
일반적인 비고; 구조화되거나 자유 형식일 수 있음. | 복합 | 0: 선택 (재정재된 구조의 경우) 1: 선택 2: 필수 3: 필수 그 외: 선택 (특정 조건에 따름) |
DBREF |
서열 데이터베이스의 항목에 대한 참조. | 선택 | 모든 폴리머에 필수 |
SEQADV |
PDB와 지정된 서열 데이터베이스 간의 불일치 식별. | 선택 | 서열 불일치가 존재할 경우 |
SEQRES |
Backbone 잔기의 1차 서열 정보. | 필수 | ATOM 레코드가 존재할 경우 |
MODRES |
표준 잔기에 대한 modification 식별. | 선택 | Modification된 잔기가 존재할 경우 |
HET |
비표준 그룹(헤테로젠, heterogen)의 식별. | 선택 | 물 이외에 비표준 그룹이 존재할 경우 |
HETNAM |
헤테로젠의 화합물 이름. | 선택 | 물 이외에 비표준 그룹이 존재할 경우 |
HETSYN |
헤테로젠의 동의어 화합물 이름. | 선택 | |
FORMUL |
비표준 그룹의 화학식. | 선택 | 물 이외에 비표준 그룹이 존재할 경우 |
HELIX |
나선형(helix) 하위구조의 식별. | 선택 | |
SHEET |
베타시트(Sheet) 하위구조의 식별. | 선택 | |
SSBOND |
이황화(Disulfide) 결합의 식별. | 선택 | 이황화 결합이 존재하는 경우 |
LINK |
잔기 간 결합의 식별. | 선택 | 폴리머에 비표준 잔기가 있는 경우 |
CISPEP |
시스(cis) 구조를 가진 펩티드 잔기의 식별. | 선택 | |
SITE |
중요한 개체 부위를 구성하는 그룹들의 식별. | 선택 | |
CRYST1 |
Unit cell 매개변수, 공간군(space group), 그리고 Z 값. | 필수 | |
ORIGXn |
직교 좌표계(orthogonal coordinates)에서 제출된 좌표계로의 변환 값 (n = 1, 2, 또는 3). | 필수 | |
SCALEn |
직교 좌표계에서 분율 결정학적 좌표계(fractional crystallographic coordinates)로의 변환 값 (n = 1, 2, 또는 3). | 필수 | |
MTRIXn |
비결정학적 대칭(non-crystallographic symmetery)을 나타내는 변환 값(n = 1, 2, 또는 3). | 선택 | 비결정학적 대칭을 사용하여 주어진 좌표로부터 완전한 비대칭 유닛(asymmetric unit)을 생성해야 하는 경우 |
MODEL |
단일 좌표 항목 내 다중 구조에 대한 모델 번호 명세. | 선택 | 1개 이상의 모델이 존재하는 경우 |
ATOM |
표준 그룹(아미노산 및 뉴클레오타이드)에 대한 원자 좌표 기록. | 선택 | 표준 잔기가 존재하는 경우 |
ANISOU |
이방성(anisotropic) 온도 인자. | 선택 | |
TER |
단백질 chain 종결자. | 선택 | ATOM 레코드가 있는 경우 |
HETATM |
헤테로젠에 대한 원자 좌표 기록. | 선택 | 비표준 그룹이 존재할 경우 |
ENDMDL |
단일 좌표 항목 내 다중 구조에 대한 모델 종료 기록. | 선택 | MODEL 레코드가 있는 경우 |
CONECT |
원자 간 화학적 연결성(connectivity) 기록. | 선택 | 비표준 그룹이 존재하며 LINK 나 SSBOND 레코드가 존재하는 경우 |
MASTER |
장부 관리를 위한 제어 레코드. | 필수 | |
END |
파일의 마지막 레코드. | 필수 |
이러한 레코드 항목들을 아래와 같은 구성으로 분류할 수 있겠습니다.
구성 | 설명 | 포함 레코드 |
---|---|---|
타이틀 | 요약 설명 비고 | HEADER , OBSLTE , TITLE , SPLIT ,CAVEAT , COMPND , SOURCE ,KEYWDS , EXPDTA , NUMMDL , MDLTYP , AUTHOR , REVDAT , SPRSDE , JRNL |
비고 | 표준 레코드보다 더 자세한 항목 주석에 대한 다양한 설명 | REMARK 0-999 |
1차 구조 | 펩티드 및/또는 핵산염기 서열과 PDB 서열과 서열 데이터베이스에서 발견된 서열 간의 관계 | DBREF , SEQADV , SEQRES , MODRES |
헤테로젠 | 비표준 그룹에 대한 설명 | HET , HETNAM , HETSYN , FORMUL |
2차 구조 | 2차 구조에 대한 설명 | HELIX , SHEET |
연결성 비고 | 화학적 연결에 대한 비고 | SSBOND , LINK , CISPEP |
기타 특징 | Macromolecule 내 나타나는 특징 설명 | SITE |
결정학적 정보 | 결정학적 셀에 대한 설명 | CRYST1 |
좌표 변환 | 좌표 변환 연산자 | ORIGXn , SCALEn , MTRIXn |
좌표 | 원자 좌표 데이터 | MODEL , ATOM , ANISOU , TER , HETATM , ENDMDL |
연결성 | 원자 간 화학적 연결 정보 | CONECT |
장부 관리 | 정보 요약, 문서 끝 표시자 | MASTER , END |
보시다시피 PDB 파일에는 굉장히 다양한 정보를 담을 수 있는데요, 이번 포스팅에서는 단백질 구조의 3차원 좌표 정보를 파악할 수 있는 ATOM
레코드에 대해 더 깊이 있게 알아보도록 하겠습니다.
ATOM 레코드의 구성
ATOM 1 N CYS A 1 9.857 43.568 33.202 1.00 0.00 N ATOM 2 CA CYS A 1 10.543 43.203 31.997 1.00 0.00 C ATOM 3 C CYS A 1 9.486 42.711 30.987 1.00 0.00 C ATOM 4 O CYS A 1 8.315 42.872 31.294 1.00 0.00 O ATOM 5 CB CYS A 1 11.346 41.953 32.381 1.00 0.00 C ATOM 6 SG CYS A 1 10.592 40.654 33.565 1.00 0.00 S ATOM 7 N GLY A 2 9.977 42.345 29.888 1.00 0.00 N ATOM 8 CA GLY A 2 9.114 41.755 28.979 1.00 0.00 C ATOM 9 C GLY A 2 8.021 42.608 28.396 1.00 0.00 C ATOM 10 O GLY A 2 7.253 42.220 27.590 1.00 0.00 O ATOM 11 N VAL A 3 7.898 43.769 28.909 1.00 0.00 N ATOM 12 CA VAL A 3 6.912 44.729 28.418 1.00 0.00 C ATOM 13 C VAL A 3 7.467 45.819 27.530 1.00 0.00 C ATOM 14 O VAL A 3 7.746 46.798 27.846 1.00 0.00 O ATOM 15 CB VAL A 3 6.127 45.092 29.724 1.00 0.00 C ATOM 16 CG1 VAL A 3 5.614 46.445 29.544 1.00 0.00 C ATOM 17 CG2 VAL A 3 4.976 44.183 30.018 1.00 0.00 C ATOM 18 N PRO A 4 7.677 45.261 26.325 1.00 0.00 N ATOM 19 CA PRO A 4 8.343 45.967 25.133 1.00 0.00 C ATOM 20 C PRO A 4 7.628 47.314 24.750 1.00 0.00 C ATOM 21 O PRO A 4 6.365 47.490 24.646 1.00 0.00 O ATOM 22 CB PRO A 4 8.165 45.097 23.918 1.00 0.00 C ATOM 23 CG PRO A 4 7.797 43.728 24.507 1.00 0.00 C ATOM 24 CD PRO A 4 7.312 43.895 25.913 1.00 0.00 C ATOM 25 N ALA A 5 8.489 48.116 24.353 1.00 0.00 N ATOM 26 CA ALA A 5 7.977 49.569 24.074 1.00 0.00 C ATOM 27 C ALA A 5 7.294 49.568 22.675 1.00 0.00 C ATOM 28 O ALA A 5 6.400 50.143 22.581 1.00 0.00 O ATOM 29 CB ALA A 5 9.017 50.658 24.082 1.00 0.00 C |
ATOM
레코드는 표준 아미노산과 뉴클레오타이드의 원자 좌표를 나타내며, 각 원자의 점유도(Occupancy)와 온도 인자(Temperature factor)도 함께 표시합니다. 비폴리머 화학물질의 좌표는 HETATM
레코드 유형을 사용하며, 모든 ATOM
레코드에는 원소 기호가 반드시 포함되어야 하지만 전하는 선택적으로 표시할 수 있습니다.
각 열에 들어가는 정보는 아래와 같습니다.
열 번호 | 필드 | 정의 |
---|---|---|
1 - 6 | “ATOM “ |
|
7 - 11 | serial |
원자 일련번호 |
13 - 16 | name |
원자 이름 |
17 | altLoc |
대체 위치 표시자 |
18 - 20 | resName |
잔기 이름 |
22 | chainID |
사슬 식별자 |
23 - 26 | resSeq |
잔기 서열 번호 |
27 | iCode |
잔기 삽입을 위한 코드 |
31 - 38 | x |
직교 좌표계 X 값 (앙스트롬 단위) |
39 - 46 | y |
직교 좌표계 Y 값 (앙스트롬 단위) |
47 - 54 | z |
직교 좌표계 Z 값 (앙스트롬 단위) |
55 - 60 | occupancy |
점유도 (0.0~1.0 사이 실수값) |
61 - 66 | tempFactor |
온도 인자 |
77 - 78 | element |
원소 기호 |
79 - 80 | charge |
원자의 전하 |
ATOM 레코드의 특징
위 정보를 토대로 작성된 ATOM
레코드에는 몇 가지 특징들이 있습니다:
- 양성자화(Protonation)가 되어 있지 않은 경우도 있습니다.
- 단백질의
ATOM
레코드는 N-terminal에서 C-terminal 방향으로 나열됩니다. - 핵산 잔기는 5' 에서 3' 방향으로 나열됩니다.
- 원자 이름이 “C”처럼 한 글자인 경우 14열에서, “FE”처럼 두 글자인 경우 13열에서 시작합니다.
- 원자의 이름은 원자 유형으로 시작하여 명명됩니다. (예를 들어 C 알파 원자의 경우 “CA,” Tyrosine의
- 다당류(Polysaccharides)의 경우 특별히 정해진 순서가 없습니다.
- 사슬 식별자는 공백이 아닌 영문 혹은 숫자로만 표시합니다.
- 하나의 사슬에 대한
ATOM
레코드 목록은TER
레코드로 끝납니다. - 여러 모델이 포함된 항목의 경우, 각 모델은
MODEL
과ENDMDL
레코드로 구분됩니다. AltLoc
는 대체 구조를 표시하는 자리표시자입니다. 대체 구조는 전체 폴리머 사슬, 여러 잔기, 또는 하나의 잔기 내 일부 원자들에 존재할 수 있습니다. 한 원자가 여러 위치에 존재하는 경우, 각 위치마다 반드시 공백이 아닌 대체 위치 표시자를 사용해야 합니다. 같은 잔기 내에서도 특정 구조에 속한 모든 원자들은 동일한 대체 위치 표시자를 가집니다. 대체 구조는 원자 수준 또는 잔기 수준에서 표현할 수 있습니다.
ATOM 435 N SER A 69 78.391 18.901 31.786 1.00 8.05 N ATOM 436 CA ASER A 69 77.622 17.702 31.446 0.70 8.36 C ATOM 437 CA BSER A 69 77.646 17.698 31.413 0.30 8.16 C ATOM 438 C SER A 69 76.425 18.043 30.558 1.00 8.31 C ATOM 439 O SER A 69 76.220 17.431 29.497 1.00 8.35 O ATOM 440 CB ASER A 69 77.152 17.000 32.717 0.70 9.01 C ATOM 441 CB BSER A 69 77.274 16.853 32.636 0.30 8.36 C ATOM 442 OG ASER A 69 76.383 15.862 32.393 0.70 10.15 O ATOM 443 OG BSER A 69 76.364 17.530 33.477 0.30 8.59 O |
- 대체 위치를 가진 원자들의
ATOM
/HETATM
목록 정렬은 다음 규칙을 따릅니다: • 대체 위치를 가진 원자나 잔기가 몇 개 없는 간단한 경우, 좌표들을 연속적으로 나열합니다. • 무질서한 상태의 큰 헤테로젠 그룹의 경우, 각 구조 이성질체에 속한 원자들을 함께 나열합니다. - 삽입 코드(
iCode
)는 주로 알파벳을 사용하며, 두 잔기가 같은 번호를 가질 때 사용됩니다. 잔기의 고유성은 잔기 번호와 삽입 코드의 조합으로 결정됩니다. - 기탁자가 데이터를 제공하면 온도 인자로 등방성 B값(isotropic B-factor)을 사용합니다.
- 등방성 B값이나
ANISOU
레코드의 비등방성 온도 인자(anisotropic temperature factor)가 모두 없는 경우, 온도 인자는 기본값 0.0을 사용합니다. - 79-80열은 2+ 또는 1-와 같은 원자의 전하를 나타내는데, 대부분의 경우 이 부분은 비워둡니다.
마치며
이번 포스팅에서는 PDB 파일에 어떤 정보가 담겨있는지, 특히 폴리머의 3차원 구조 정보가 어떻게 표현되는지 살펴보았습니다. PDB 파일 형식은 지금까지 구조 결정 연구에 많이 사용되어 왔지만, 약물과 같은 헤테로젠이 결합되어 있는 구조 내 원자 간 연결성을 제대로 구현해주지 못하는 등 몇 가지 한계점을 지니고 있어 최근 RCSB에서는 PDB 파일 대신 CIF 파일 형식으로 넘어가고 있습니다.
그럼에도 불구하고, PDB 파일 형식으로 저장되어 있는 정보가 아직 많이 남아있는 만큼, PDB 파일 형식은 당분간 계속 사용되어질 것으로 보입니다. PDB 파일에 대해 더욱 궁금하신 분들께선 하이퍼랩에 채널톡으로 문의 주시면 감사하겠습니다. 포스팅을 마치도록 하겠습니다.
참고문헌
- Protein Data Bank Contents Guide: Atomic Coordinate Entry Format Description Ver. 3.30