천연물은 식물, 동물, 미생물, 그리고 그 외 자연계의 구성원으로부터 얻은 화합물, 물질 또는 혼합물을 의미합니다. 수천 년 동안 사람들은 천연물로 다양한 질병을 치료해 왔으며 현대 의학이 발달하기 전까지 천연물이 인류의 유일한 치료제였습니다.
세계보건기구(WHO)에 따르면 오늘날 세계 인구의 약 80%가 전통 약제를 사용하고 있습니다. 지난 50년 동안에도 천연물과 관련 파생물을 활용하여 신약을 개발해 왔지만, 생체이용률이 낮고 화학 합성 과정이 복잡해 이러한 물질을 대대적으로 사용하는 것은 굉장히 어려웠습니다.
하지만 고급 컴퓨팅, 더 나은 데이터 저장 시설, 정교한 자연어 처리 기법, 머신 러닝(ML) 기반 기능이 등장하면서 연구원들은 천연물 연구에 활용할 수 있는 강력한 도구를 손에 쥐게 되었습니다. 인공 지능(AI)이 새로운 기술을 실현시켜 주면서, 의학계는 계속해서 질병 치료를 목적으로 천연물을 적극 활용할 수 있습니다.
AI 기반 연구의 최근 발전 동향
CAS는 천연물 분야의 AI 관련 최신 간행물 동향(2010년 이후)을 확인하기 위해 전문가가 엄선한 최대 규모의 과학 정보 간행물 컬렉션인 CAS Content CollectionTM의 데이터를 살펴보았습니다. 전 세계 과학 간행물을 전체적으로 살펴보았을 때, 최근 AI가 신약 개발 속도를 높여주는 천연물과 함께 구조 예측, 데이터 통합과 같은 영역에서 크게 성장한 것을 알 수 있었습니다.
CAS의 분석 결과 2010년 이후 천연물 연구와 관련해 600,000개가 넘는 과학 간행물(학술지 논문 및 특허 출원 문서 포함)을 찾을 수 있었습니다. 이때 학술지 간행물의 비중이 가장 컸으며 지난 몇 년 동안은 상업적 제품보다 학술 연구에 대한 관심이 늘어 학술지 대비 특허 출원 수가 줄어들었습니다. AI를 이러한 연구 분야에 어떻게 활용할 수 있을까요? CAS는 AI, 머신 러닝 알고리즘, 신경망 기반 연구가 다음과 같은 천연물 연구의 다양한 영역에 영향을 미치고 있다는 사실을 알아냈습니다.
- 화합물/표적 식별: AI와 머신 러닝 알고리즘을 활용하면 분광 데이터를 분석하여 천연물에 존재하는 화합물을 식별하고 특성화할 수 있습니다. 그러면 생체활성 분자의 식별 및 분리 과정을 빠르게 진행할 수 있습니다. 예를 들어 자주 인용된 Nucleic Acids Research의 한 논문에 따르면 웹 서버 NRPSpredictor2는 세균 내 천연물 생합성 효소의 기질 특이성 예측 정확도를 개선하기 위해 머신 러닝 방법론을 사용합니다. 식물과 미생물은 생합성 유전자 클러스터(BGC)라는 유전자를 사용하여 이차대사물질에 해당하는 천연물을 만듭니다. 이러한 대사물질과 관련해 부호화가 진행되는 BCG를 예측하는 데 AI가 사용되고 있습니다.
- 신약 개발: AI와 머신 러닝 같은 AI의 하위 분야가 신약 개발 파이프라인의 다양한 단계에 적용되고 있습니다. 예를 들어 AI 모델을 사용해 천연물 데이터베이스의 가상 스크리닝을 진행하고 잠재적 신약 후보를 예측하고 약리학적 성질을 평가합니다. 심층 신경망(DNN)은 이러한 작업의 핵심 요소이며 AI 기반 생성형 모델은 신약 후보를 예측하고 실험 검증이 필요한 화합물을 추려 신약 개발 파이프라인의 작업 속도를 높일 수 있습니다.
- 생체활성 예측: 머신 러닝 모델은 정량적 구조-활성/성질 관계(QSA/PR) 모델이라 불리는 심층 신경망 기반 3D 약물작용발생단 매칭 접근법을 사용해 화학 구조에서 천연물의 생물학적 활성을 예측하고 순위를 매길 수 있습니다. 이러한 모델은 특정 치료 효과를 가지는 화합물을 식별하는 데 도움이 됩니다. 최근 진행한 연구 중에 머신 러닝 기반 방법을 사용해 아시네토박터 바우마니에 대한 항생제 관련 인실리코 예측을 수행하여 아시네토박터 바우마니 살균 효과가 있는 아바우신을 개발한 사례가 있습니다. 또 다른 연구에서는 세균, 천연물, 생성물 학습 데이터세트를 사용하는 AI 기반 접근법을 활용해 항생물질인 할리신을 발견했습니다.
- 추출 과정 최적화: AI는 천연물에서 얻는 생체활성 화합물의 산출량을 극대화하기 위한 추출 매개변수의 최적화에 도움이 될 수 있습니다. 그러면 신약 후보를 테스트하는 데 필요한 시간과 자원이 줄어듭니다.
- 데이터 통합 및 분석: AI를 활용하면 방대한 양의 유전체학, 단백질체학, 대사체학 연구 데이터를 통합하고 분석할 수 있습니다. 이 포괄적인 접근법을 통해 자연계 내 복잡한 상호 작용을 보다 잘 이해할 수 있습니다.
- 상승효과 예측: AI 도구는 여러 화합물 간의 시너지 효과가 있는 상호작용을 예측할 수 있어 연구원들이 천연물을 사용한 병용 요법을 개발할 때 도움이 됩니다. 이러한 기능은 특히 복합 질병을 치료하는 데 유용합니다.
- 독성 예측: AI 모델은 천연 화합물의 잠재적 독성을 예측하여 약이나 건강 보조 식품으로 개발되기 전에 이러한 물질의 안전성을 보장할 수 있습니다.
최근 몇 년 동안 AI와 천연물 연구에 대한 관심이 빠르게 증가하며 650개의 학술지와 특허 간행물이 발표되었으며, 학술지 대비 특허 비율의 증가는 상업화에 대한 관심도 커지고 있음을 나타냅니다. 간행물의 수가 상대적으로 적기는 하지만, 2010년부터 2022년까지 관련 간행물의 수는 꾸준히 증가하였으며 2020년부터는 급증하기 시작했습니다(그림 3). CAS의 조사 결과 이와 같은 간행물의 증가는 중국이 주도하고 미국과 인도가 그 뒤를 이었는데, 이 현상은 중국의 전통 의학에서 천연물을 널리 사용하는 것, 그리고 중국에서 중국의 AI 관련 기능을 개발하기 위한 차세대 인공 지능 개발 계획(2015년-2030년)을 발표한 것과 연관이 있습니다.
중국뿐만 아니라 브라질, 한국, 독일, 영국, 포르투갈, 폴란드를 비롯한 여러 나라에서 이 주제에 대해 연구하는 조직에 대한 전 세계적인 관심이 커지고 있습니다. 연구가 진행되고 있는 신약 개발 분야에서도 다양한 가능성을 살펴보고 있습니다.
신약 개발 분야에서 활용되는 AI
AI는 천연물의 식별, 분류, 활성 예측에 유용하게 활용할 수 있습니다. 식물은 알칼로이드와 플라보노이드를 비롯해 항바이러스성, 항암성, 항균성, 항진균성을 띠는 다양한 생체활성 이차대사물질의 공급원입니다. AI 기반 프로그램과 기술을 활용하면 이러한 성질에 대해 보다 빠르게 천연물을 검토 및 분석하고 데이터를 효율적으로 수집하여 생물학적 활성을 예측하고 신약 개발 속도를 높일 수 있습니다.
예를 들어 다양한 균류(버섯)의 항암성, 면역 조절성, 항신경변성, 항염증성, 항산화성을 조사한 사례가 있습니다. AI 및 ML 기반 알고리즘을 사용하면 새로운 버섯 종류를 분류하고 이미지 기반 인식 기능을 사용해 해당 버섯의 천연물을 식별하고 균류에서 천연물을 추출하는 작업을 최적화하기 위한 전략을 구축하고 다양한 버섯, 또는 다른 균류의 새로운 용도와 성질을 발견할 수 있습니다(그림 5).
AI와 천연물의 현재 동향
오늘날 천연물과 관련해 AI가 가장 널리 활용되는 부문은 바로 항종양성 치료제(그림 4A) 개발 부문으로 항바이러스성 치료제 개발과 항균성 치료제 개발 부문이 그 뒤를 잇고 있습니다. 진통제(통증 완화제)의 경우 활용도를 기준으로는 적은 비중(2%)을 차지하지만 2021년-2022년을 기준으로 관련 자료의 수가 5배나 증가했습니다(그림 4B). 그 외에 급격하게 성장한 부문으로는 항염증성 치료제 개발, 항당뇨성 치료제 개발, 항신경변성 치료제 개발, 항말라이아성 치료제 개발 부문이 있습니다. 흥미로운 점은 2021년과 2022년을 비교했을 때 항균성 치료제와 관련된 자료의 비율이 줄어들었다는 것인데, 이 분야에 대한 과학계의 관심이 줄어들었다는 것을 보여 줍니다.
CAS가 CAS Content Collection을 통해 물질 데이터 분석을 수행한 결과, 2010년-2022년에 천연물 연구 분야에서 AI를 활용한 이후로 약 5,000개의 물질이 학술지와 특허 간행물에 언급된 것으로 확인되었습니다(그림 6A). 물질의 등급에 대한 추가 조사를 진행한 결과 유기성 저분자와 무기성 저분자, 단백질/펩타이드 염기서열, 중합체, 원소, 염류가 가장 중요한 것으로 나타났습니다. 유기성/무기성 저분자로 분류된 물질의 수가 그다음 물질 등급인 단백질/펩타이드 염기서열, 원소보다 거의 60배나 더 많았습니다.
유기성/무기성 저분자 중에서는 AI의 활용과 함께 퀘르세틴이 가장 많이 언급되었습니다. 퀘르세틴은 생체활성 식물 플라바놀로 강력한 항산화성과 항염증성이 있습니다. 퀘르세틴은 암, AIDS, 고혈압, 당뇨를 치료할 수 있는 가능성이 높은 것으로 나타났습니다. 최근에는 퀘르세틴과 캠페롤(AI의 활용과 함께 많이 언급되는 또 다른 저분자)이 COVID-19 바이러스 치료에 긍정적인 영향을 미치는 것으로 확인되었습니다. AI는 식물에서 퀘르세틴을 추출하는 작업의 최적화를 돕기 위한 모델 설계와 새로운 퀘르세틴 유사체 설계, 항산화 및 항암 효과 테스트 모델 생성에 활용되고 있습니다.
단백질/펩타이드 염기서열을 좀 더 자세히 살펴보면 AI의 활용과 함께 특히 투여량 적정을 통해 최적의 투여 수준을 찾는 것과 관련된 설계 연구 부문에서 반코마이신이 가장 많이 언급되었습니다. 이와 유사하게 신장 이식 모델의 사이클로스포린 농도를 모델링하기 위해 ML 접근법을 사용합니다. 중합체 카테고리에서는 AI의 활용과 함께 키토산이 가장 많이 언급되었는데, AI 기반 합성에 초점을 맞춘 연구 그리고 항균 분야를 위한 키토산 나노입자의 테스트와 관련이 있습니다.
미래의 전망과 기회
지난 10년간 AI는 신약 개발 분야와 천연물 분야에서 혁신을 이루어냈습니다. AI는 천연물 정보의 디지털화를 위한 도구에서 시작하여 생체활성을 예측하는 ML 기반 알고리즘에 활용되었으며, 최근 연구에서는 과학자들이 게놈 마이닝과 천연물 기반 분자 설계에 신경망으로 활용하였습니다. 광범위한 의학 자료가 포함된 알고리즘을 기반으로 삼는 BioNLP 같은 AI의 다른 하위 분야를 사용해 과학 간행물에서 정보를 추출하고 새로운 생체활성 식물이나 천연물의 공급원을 식별할 수도 있습니다.
AI는 천연물 연구 분야에 큰 변화를 불러왔지만 여전히 몇 가지 과제들이 남아 있습니다. 그중 하나는 디리플리케이션(Dereplication)으로, 동일한 화합물이나 분자가 반복적으로 발견되는 현상을 의미합니다. 정교한 AI 기반 데이터베이스와 도구를 사용하면 이러한 문제가 줄어들 수 있습니다. 천연물의 또 다른 문제는 알려진 단백질 표적이 없는 상태로 발견되는 사례가 많다는 것입니다. 이 경우 표적을 예측하는 AI가 도움이 됩니다.
AI와 천연물 연구 분야의 통합은 아직 초기 단계에 있으며, 새로운 천연물을 식별 및 분류할 수 있도록 예측 모델을 완벽하게 학습시키는 것이 중요합니다. 이러한 연구가 계속되는 상황에서, 출판 동향은 앞으로 AI가 천연물 연구의 다양한 단계에 보다 광범위하게 영향을 미칠 것임을 보여 줍니다. 앞으로 천연물에서 새로운 약물 분자를 발견할 수 있는 기회가 점점 더 많아지면서 제약 파이프라인, 더 나아가 환자들이 큰 혜택을 보게 될 것입니다. 최근 CAS에서 브라질의 NuBBE 데이터베이스 확장을 도운 사례와 더 나은 데이터로 어떻게 AI 예측 정확도를 개선할 수 있는지 자세히 알아보십시오.