ChatGPT는 어떻게 연구자의 질문을 이해하고 답을 할 수 있을까?
AI agent란 무엇인가?
ChatGPT 사용해 보셨나요? 하이퍼랩 블로그에서도 ChatGPT, Gemini 등 여러 LLM을 다뤘습니다. 오늘은 단순한 형태의 질의에 답하는 Chatbot을 넘어 보다 복잡한 태스크를 수행할 수 있는 AI agent와 사용 예시에 대해서 설명드리겠습니다. AI agent는 사용자의 지시문을 이해하고 이를 달성하기 위한 계획을 세우고 실행하는 과정을 반복합니다.
놀랍게도 단순한 질문에 대한 답변을 생성하는 것이 아니라 문제를 해결하기 위한 계획을 수립합니다! AI agent에서 LLM은 아주 핵심적인 파트로, 사용자의 지시문 이해, 계획 수립, 실행, 실행 결과 분석 및 판단 등에 사용됩니다. 복잡한 글을 읽기 전에 Nova(https://hyperlab-nova.streamlit.app/)를 먼저 테스트해 보시면 이해도가 높아지실 겁니다.
Nova의 AI agent가 수행할 수 있는 태스크들
Nova는 이런 태스크들을 수행할 수 있습니다.
- KRAS에 대해 FDA 승인을 받은 약물이 있어?
- Sotorasib은 FDA 승인을 받은 약물이야?
- MARK4와 상호작용하는 단백질들은 뭐야?
- 분자의 독성을 줄이기 위해 어떤 전략들을 사용할 수 있어?
- Plerixafor의 임상시험 현황을 알려줘.
- KRAS G12D dimerization에 관한 논문들을 찾아줘.
- Vemurafenib에 관한 문헌 중 SAR 분석을 포함하는 것만 찾아줘.
Plerixafor의 임상시험 현황을 알려줘
와 같은 실제 신약 개발 질문에 답하는 과정을 토대로 AI agent가 어떻게 동작하는지 이해해 보겠습니다.
1단계: 사용자 지시문 분석을 통한 계획 수립 및 실행
이 질문이 AI agent에게 주어지면, AI agent는 이 질문을 바탕으로 다음으로 해야 할 action을 결정합니다. 사람으로 치면 구글 검색을 해야 할지, 동료에게 물어봐야 할지, 논문을 읽어야 할지 결정하는 것처럼 말이죠. 이를 위해 AI agent에게는 사용할 수 있는 도구들의 리스트, 각 도구들의 사용법, 결과의 형태 등이 텍스트 형태로 주어져 있습니다. 텍스트 형태이기 때문에 AI agent가 LLM을 이용해서 내용들을 이해할 수 있는 거죠.
예를 들어 AI agent는 임상시험에 관한 정보를 검색할 수 있는 도구와 논문하고 요약문을 받을 수 있는 도구와 이 도구의 실행 방법과 결과 형태들을 가지고 있습니다. 사용자 질문에 따라 두 가지 도구 중 어느 것을 사용해야 할지 결정하고 각 도구를 실행시킵니다.
두 가지 도구 모두 적합하지 않다면 스스로 답을 하거나 답을 할 수 없다고 답변할 수 있습니다. 모른다면 모른다고 할 수 있는 거죠. 예를 들어 Nova의 경우 위 질문에 대해 먼저 임상시험 정보 검색 도구를 실행시켜서 결과를 받아옵니다. 정보 검색에 사용할 키워드를 스스로 판단해서 입력합니다.
2단계: 실행결과 분석 및 다음 계획 수립
다음 단계에서 AI agent는 실행 결과를 해석합니다. 임상시험 정보 검색 도구를 이용하여 검색 결과를 받아왔다면, 이 방대한 검색 결과 중 사용자 지시문에 맞는 결과를 뽑아내야 합니다. 검색 결과에는 사용자 지시문에 필요 없는 내용들도 많기 때문이죠.
그리고 뽑아낸 결과가 사용자 질문에 답변을 생성하기 충분한지 판단합니다. Nova의 경우 추가적인 정보를 검색하기 위해 논문 검색 기능을 사용해야겠다고 판단하고 논문 검색 도구를 실행시킵니다. 논문 검색을 위한 키워드도 역시나 스스로 생성해 냅니다. 그리고 앞의 과정과 동일하게 논문 검색 결과를 받아서 필요한 정보가 있는지 판단합니다.
3단계: 목표 달성 판단 및 답변 생성
임상시험 및 논문 검색 결과를 바탕으로 AI agent는 사용자 질문에 대한 답변이 가능한지 판단합니다. Nova의 경우 두 개의 도구 실행 결과 지시문 수행에 필요한 정보를 모두 모았다고 판단했습니다. 마지막으로 이러한 정보들을 사용자에게 제공하기 위한 형태로 가공하여 최종 답변을 사용자에게 전달합니다.
이러한 AI agent의 능력은 무궁무진하게 확장될 수 있습니다. 사용자의 데이터 분석, 코드 작성 및 실행, 문서 요약, 데이터베이스 검색 등 다양한 도구들로 확장할 수 있습니다. 특히 신뢰할 수 있는 지식 소스를 상호 참조하여 답변하는 RAG (Retrieval-Augmented Generation)와 같은 기술과 결합한다면 보다 신뢰성 높은 결과를 제공할 수도 있습니다.
AI agent의 미래와 한계
물론 AI agent의 분명한 한계점도 존재합니다. 먼저 여전히 hallucination으로 알려진 거짓 정보나 문헌을 제공하기도 합니다. 잘못된 문헌을 제공하거나 틀린 코드를 작성해 주기도 합니다. 그리고 복잡한 추론이 필요한 태스크들은 여전히 잘하지 못합니다. 하지만 주목해야 할 점은 이러한 기술적 발전이 불과 지난 1, 2년 사이에 이루어졌다는 점입니다. LLM의 발전과 함께 AI agent의 기술 발전 속도는 매우 빠릅니다.
최근 공개된 OpenAI-o1은 우수한 고등학생을 대상으로 하는 AIME 수학 경시대회 문제에서 o1은 83.3%의 정답률을 보였습니다. (기존 최신 모델인 GPT-4o은 13.4% 정답률) 다른 평가에서는 o1이 박사 수준의 과학 문제를 78% 정확도로 답변했으며 이는 GPT-4o의 56.1%와 인간 전문가의 69.7%를 뛰어넘는 수치입니다. AI agent들의 이러한 빠른 발전 속도가 신약 개발 연구에 어떤 혁신을 가져올지 흥미로운 상상을 해보게 됩니다.