신테카바이오가 업계 최초로 자사의 AI(인공지능) 신약개발 플랫폼에 초거대 언어모델(LLM, Large Language Model) GPT 기술을 적용한 신약 후보물질 발굴에 나선다.
28일 신테카바이오는 AI 합성신약 후보물질 플랫폼 딥매처(DeepMatcher®)에 GPT를 적용하기 위한 기술검증(PoC, Proof of Concept)을 성공적으로 마쳤다고 밝혔다.
딥매처는 3단계 과정(선행 스크리닝→심층학습 포즈 생성→분자동역학 시뮬레이션)을 거쳐 신약 후보물질을 도출한다. GPT는 선행 스크리닝 과정에 적용돼 후보물질 발굴 성능을 더욱 높일 전망이다.
이번 PoC의 궁극적인 목적은 3D 단백질-리간드 상호작용을 언어로 변환해 GPT 언어모델로 학습했을 때 얻을 수 있는 장점을 확인하는 것이다.
이를 위해 신테카바이오는 5천만 개의 3차원 구조 상호작용 빅데이터를 언어로 변환하고, 미국 세레브라스(Cerebras)사의 웨이퍼 스케일(Wafer Scale) CS2 장비를 이용해 GPT를 만들었다.
이어 성능 비교를 위해 한국정보통신산업진흥원(NIPA) 고성능 AI 지원사업의 자원인 네이버 클라우드, Tesla V100, 80 TF와 7백만 개의 데이터로 GPT를 추가로 만들어 비교했다. 언어모델 학습 후에는 t-SNE(비선형적인 차원 축소 방법) 및 히트맵(heat map) 분석을 통해 검증을 수행했다.
검증 결과, 단백질 또는 리간드 중심의 클러스터 형성은 중요한 단백질-리간드의 상호작용을 이해하고 학습하는 모델의 성능을 확인시켜 줬다. 학습된 모델을 기반으로 방대한 수의 약물후보를 효과적으로 선행 스크리닝하고 새롭고 유의미한 상호작용을 생성할 수 있다는 결론을 도출했다.
신테카바이오는 현재 약 5000만 개에 달하는 3D단백질-화학 결합 정보 등 GPT 학습을 위한 방대한 양의 데이터를 보유하고 있다. GPT 적용을 통해 이러한 상호작용 결합 정보를 계속 축적할 계획이다.
신테카바이오 관계자는 “신약개발 부문에 AI를 적용하려면 AI가 학습할 수 있는 로직과 축적된 데이터가 가장 중요한데, 당사는 이미 데이터와 인프라, AI 플랫폼까지 준비된 상태”라며 “슈퍼컴센터 완공 후 슈퍼컴 인프라 확충까지 이뤄지면 그 시너지는 더욱 높아질 것”이라고 밝혔다.
이어 “GPT를 적용한 세계 최초 클라우드 기반 생성형 AI 신약 후보물질 발굴 플랫폼을 개발하는 것이 목표”라고 밝혔다.