AI 연구자가 AI를 공부하는 방법
AI 연구자가 성장하는 방법
역사상 인류의 기술 중에 AI만큼 급격히 발전하고 다양하게 적용되고 있는 기술은 드문 것 같습니다. 지난 3월 중순의 OpenAI에서 시연한 휴머노이드 Figure 01은 섬세한 움직임, 사람에 극도로 가까운 발화와 적절한 설명 능력으로 대중들을 놀라게 했죠.
이렇게 하룻밤 자고 나면 또 다른 놀라운 기술이 나타나는데, 각 분야에서 AI를 직접 개발하는 연구자들은 얼마나 분주할까요? 아니면 혹시 AI 연구자나 AI practitioner 입장에 있으면서도 당장의 업무들 때문에 동향 파악에 소홀히 하고 있진 않으신가요?
하이퍼랩에서는 이전에 아래와 같은 글을 통해, 신약개발 분야의 AI를 처음 공부해보고 싶은 분들이 시작하기 좋은 논문들을 소개한 적이 있습니다.
이번 글에서는 신약 개발 분야에서 AI 연구자로서 “계속해서 자라는 법”을 소개합니다. AI 실무를 맡고 있진 않지만 계속해서 기술 동향을 파악하고 싶은 분들, AI 연구자가 되기 위해 준비 중인 분들께도 도움이 되면 좋겠습니다.
신약개발을 위한 AI, 무엇이 다를까?
먼저 신약개발 분야의 AI 기술이 가지는 고유한 면들을 얘기해 보겠습니다.
분야별 AI 기술의 특징은 당연히 해당 분야의 특징에서 비롯되겠지요? 신약개발 분야 AI의 가장 큰 특징은 그 근간을 구성하는 화학정보학 (cheminformatics)과 생물정보학 (bioinformatics)에 있습니다.
화학정보학과 생물정보학이 중요한 이유
현재 AI의 발전에 가장 크게 기여를 하고 있는 기계학습 (machine learning) 방법에서, 가장 중요한 부분은 데이터입니다. 신약개발 분야에서 데이터를 전산화하고 가공, 분석하는 기술들은 화학정보학과 생물정보학에서 비롯됩니다. 그만큼 화학정보학과 생물정보학은 신약 개발처럼 화학·생명과학과 관련된 AI 적용 분야에서 지대한 중요성을 가지죠.
신약개발 분야의 AI 연구자라면 이미 화학정보학이나 생물정보학에는 익숙하실 텐데요, 해당 분야의 고유한 발전 동향을 계속해서 파악하는 것 또한 연구 역량을 늘려가는 데에 도움이 됩니다.
하나의 예로 화학정보학 연구에서 필수 불가결한 라이브러리인 RDKit의 공식 블로그를 팔로우 할 수 있습니다. 화학 데이터를 다룰 때 분자의 입체 화학과 같은 구조 정보를 올바르게 전달하는 것이 아주 중요하죠. RDKit 블로그에 올라오는 팁이나 실험 내용을 꾸준히 파악하면 비슷한 문제를 접할 때 실수를 줄이고, 업무 효율을 높일 수 있습니다.
도메인 지식 공부 - 문제를 알자
AI의 빠른 전파에는 기술에 대한 낮은 진입 장벽도 큰 기여를 했습니다. 이미 소프트웨어 개발자나 계산과학 연구자인 경우 단순한 딥러닝 모델이라면 큰 어려움 없이 다뤄볼 수 있습니다. 취직이나 직무 전환을 위해 프로그래밍을 기초부터 시작하는 이들도 원한다면 커리큘럼의 초반부터 AI를 함께 학습할 수 있습니다. AI란 기술의 이같은 높은 접근성과 또한 높은 범용성 덕분에 어느 정도의 AI 개발 경험을 가진 채 새로운 적용 분야에 진입하는 분들도 많습니다.
전문성과 도메인 지식
성공적인 AI를 개발하기 위한 요건으로 흔히 두 가지를 듭니다. 하나는 AI에 대한 기술적 전문성, 또 다른 하나는 AI가 적용되는 분야의 배경지식, 즉 도메인 지식입니다. 앞서 얘기한 AI의 낮은 진입 장벽은 AI가 다른 기술에 비해 개발되는 데 있어 도메인 지식에 적게 의존한다고 표현할 수 있습니다.
하지만 AI를 이용해 해결하려는 문제가 중요하면 중요할수록 오히려 도메인 지식의 중요성은 높아집니다. 특히 신약개발처럼 전문성이 높은 분야에선 AI 연구자가 실제로 쓸모있는 AI 모델을 개발하기 위해선 보다 높은 도메인 지식이 요구되는 것 같습니다. 도메인을 충분히 고려하지 못한 학계 성과와 현업의 간극이 가장 극적인 예로 약물동태 예측 AI, 합성가능성 (또는 역합성) 예측 AI 등이 있죠.
신약 개발 AI : 도메인 지식 공부를 참고하기 좋은 곳
때문에 저는 AI 연구자로서 커리어 계발을 계속할지라도 도메인 지식을 쌓는 데에 각별한 노력을 들여야 한다고 주장합니다. 신약개발 분야에서 도메인 지식을 쌓는 가장 좋은 방법은 신약개발 과정에 경험이 있는 분들과 함께 일하며 직접 지식을 전수받는 것이지만 그러한 환경이 충족되지 못할 수 있겠지요. 그런 경우엔 다음 같은 의약화학 저널들이나
- Journal of Medicinal Chemistry, ACS Publications.
- ACS Medicinal Chemistry Letters, ACS Publications.
혹은 다음 같은 좀 더 일반적인 신약개발 저널들의 논문을 주기적으로 살펴보는 방법이 있습니다.
현재 자신이 속한 그룹에서 진행 중인 신약개발 프로젝트가 있다면 관련 도메인 논문을 찾아 공부하는 것으로 시작할 수 있습니다. 예를 들어 프로젝트의 표적 단백질의 생물학적 중요성과 물질 발굴·개발에 대한 논문을 조사할 수 있겠지요.
AI 기술 공부 — 꾸준한 관심이 동력
신약개발 관련 분야에서의 AI 기술 동향을 파악하는 데에는 다양한 방법이 있을 텐데요, 제가 주로 쓰고 또한 추천하는 방법은 X (전 Twitter)와 RSS 리더가 있습니다.
1. X : 딥러닝 소식을 가장 빨리 받아보기 위한 플랫폼
SNS인 X는 용도에 따라 거친 메세지가 오가는 어지러운 장소일 수 있지만, 의외로 딥러닝 분야에서는 전세계 연구자들이 연구 성과를 선보이는 가장 활성화된 곳입니다. 특히 학회나 arXiv에 발표되는 논문들은 화학·생명과학 분야의 peer-reviewed 저널들처럼 RSS 리더로 필요한 주제만 모아 받기가 쉽지 않은데요, X에서는 연구자 네트워크로부터 주목할 만한 연구나 툴을 쉽게 추천받을 수 있습니다.
만약 X를 처음 시작한다면 어떤 연구자를 팔로우 해서 네트워크 (소위 “알고리즘”) 형성을 시작할지 막막할 수 있습니다. 그럴 땐 평소에 관심이 있던 연구자나 동료 연구자, 혹은 Google DeepMind와 같은 기관 계정을 검색하여 팔로우 하는 것이 좋은 방법입니다.
2. RSS 리더 — 관심 저널들을 직접 구독하기
SNS를 이용하는 방법은 접하는 소식이 확률적이고 나의 네트워크에 의존한다는 단점이 있습니다. 연구자가 관심가질 주제를 일관되게 다루는 저널들의 목록이 있다면 해당 저널들의 RSS 피드를 Feedly와 같은 RSS 리더를 이용해 한 곳에서 받아보는 것도 좋습니다.
AI 기술 동향을 팔로우 하는 것은 방법보다는 연구자의 꾸준한 관심이 중요한 것 같습니다. 저널 피드를 직접 받아보는 경우, 바로 위 스크린샷에서 보이는 것처럼 몇 주만 소홀히 해도 훑어보지 못한 논문이 수백 건에 다다를 수 있습니다. 확률적으로 그때그때 소식을 추천하는 X와 같은 경우도 이용 빈도가 줄수록 동향을 파악하기 어려워지죠. 커리어를 위한 자기계발의 일환으로 꾸준히 소식을 접하고 논문을 살펴보는 것, 그런 습관이 가장 중요하다고 생각합니다.
마지막으로 두 가지 가벼운 제안을 드리면서 글을 마치겠습니다.
Fail fast, fail often
위처럼 연구 동향을 눈과 머리로 파악하는 것만큼 중요한 것이 “직접 써보기”라고 생각합니다. AI의 경우 논문만 공개되기보다는 open science와 reproducibility를 도모하며 모델 활용을 위한 코드가 함께 공개되는 경우가 많습니다. 소식을 팔로우 하면서 자신이 당도하고 있는 문제에 해결책을 줄 것 같은 기술, 또는 대안이 될 것 같은 기술을 발견하면 곧바로 설치해서 테스트 해보는 것. 이러한 직접 써보기에 만약 어떤 심적(?) 장벽이 있다면 태도를 다시 잡고 쉽게 쉽게 시도해보는 습관을 들이시면 좋겠습니다.
행동하지 않으면, 아무 변화도 일어나지 않습니다.
함께 자라기
이미 AI 연구자로서 종사하고 계신 분이라면 함께 업무를 진행하는 동료가 있을 것입니다. 마치 그룹 스터디를 진행하는 것처럼 위 같은 계발 과정을 동료와 함께 하는 건 어떨까요?
소프트웨어 개발에는 페어 프로그래밍이라는 업무 문화가 있습니다. 두 개발자가 한 자리에서 같은 모니터를 바라보며 동일한 작업을 함께 수행하는 것이죠. 두 사람의 시너지로 작업을 빨리 끝낸다는 단순한 목적보다는 함께 성장한다는 더 깊은 의도를 가지는데요, AI 연구에도 한 번씩 비슷한 시간을 가져보는 건 어떨까요? 혹은 페어에서 더 나아가 마치 해커톤처럼, 팀 전체가 공동의 문제를 위해 한 시간 한 장소에서 토론하며 논문 조사, 데이터 수집, 모델링 등으로 역할을 나눠 동시에 진행해 보는 건 어떨까요?
연구자라면 위 같은 방식 대신, 익숙한 reading group을 운영하는 것도 좋은 방법입니다. 예를 들어 ICLR 2024와 같은 저명한 학회의 논문들이 발표되면 관심 목록을 선정하고, 주기적으로 돌아가며 발표·토론하는 방식이죠. 다만 AI 분야에서 논문 스터디를 진행할 땐 가능하면 실습까지 포함하는 것이 훨씬 효과가 좋습니다!
제가 말씀드린 생각과 방법들이 글을 읽으신 분들에게 큰 도움이 되길 바라며, 글을 마치겠습니다.