Monday 19th February 2018,
최윤섭의 Healthcare Innovation

딥러닝으로 신약을 개발할 수 있을까

Yoon Sup Choi January 16, 2018 AI, Digital Healthcare Comments
ai-drug

딥러닝 기술을 신약개발에 활용할 수 있을까요? 딥러닝 기술이 의료 분야에서 여러 목적으로 연구되고 있지만, 대부분은 의료 영상의 분석에 관한 것입니다. 신약 개발에 딥러닝을 이용하는 것은 아직 상대적으로 마이너한 분야라고 할 수 있습니다. 하지만 의료 영상 판독 분야 못지않게 큰 (혹은 더 큰) 시장이 있는 곳이 바로 제약사의 신약 개발 분야입니다.

제약사는 신약을 개발하기 위해서 연구와 임상시험에 막대한 자금과 10년 이상의 긴 시간을 투자합니다. 특히 최근 데이터를 보면 제약사들은 갈수록 더 많은 R&D 비용을 더 많이 투자하고 있지만, 새롭게 인허가받는 약의 수는 줄어들고 있습니다. 이는 결국 제약사의 수익성 하락을 뜻합니다. 때문에 제약사의 고민은 깊어질 수밖에 없습니다.

Screen Shot 2018-01-16 at 12.14.11 AM
제약사가 더 큰 비용을 R&D에 투입하고 있지만,
인허가받는 신약의 수는 줄어들고 있다 (출처)

그렇다면 제약사로서는 신약 개발 과정의 효율성을 높이고, 비용을 줄일 방법이 절실할 것입니다. 신약 개발 전체 과정에서 많은 시간과 돈이 투입되는 부분이 바로 신약 선도 후보물질, 즉 lead를 발굴하는 단계입니다. 만약 시뮬레이션이든, 인공지능이든, 좋은 신약 후보 물질을 발굴하기 위한 시간과 비용을 줄여줄 방법이 있다면 제약사로서는 크게 환영할만한 일입니다.

 

딥러닝 기반의 신약개발 스타트업, Atomwise

이번에는 이러한 신약 후보 물질의 발굴에 딥러닝, 그중에서도 CNN(Convolutional Neural Network)이 사용된 사례를 소개하려고 합니다 [1, 2]. 이는 실리콘밸리의 Atomwise라는 스타트업이 수행한 연구로, CNN을 기반으로 AtomNet 이라는 인공지능을 만들었습니다. 이는 딥러닝의 CNN을 신약 후보 물질 스크리닝에 활용한 최초의 논문입니다. 이미 2015년에 출판된 논문인데, 이후로 또 많은 발전이 있었을 것 같습니다.

최근 몇 년 동안 인공지능 기술을 신약 개발에 접목하는 스타트업 다수가 다국적 제약사와 계약을 맺으면서 화제가 된 바 있습니다[1, 2, 3]. 이러한 스타트업 중 대표적인 곳이 Atomwise입니다. 실리콘밸리의 엑셀러레이터 Y-Combinator 출신의 팀이기도 하며, 코슬라벤처스의 투자도 받은 이 회사는, 인공지능 신약개발 기술을 바탕으로 2015년 다국적 제약사 Merck와 말라리아 등의 신약 발굴을 위해 협업하고 있습니다.

atomwise
인공지능 스타트업과 다국적 제약사의 협력 (출처: Nature)

사실 컴퓨터를 이용해서 lead를 찾으려는 방법은 오래전부터 있었습니다. 저분자 화합물(small molecule)의 구조를 디자인하기도 하고, 단백질이나 리간드(ligand)의 구조를 기반으로 시뮬레이션을 하기도 했습니다. (필자의 대학원 시절 주요 연구 분야 중 하나가 이와 관련이 있습니다) 하지만 이러한 가상 스크리닝(virtual screening) 시뮬레이션은 정확도가 그리 높지 않아서 실제로 신약 개발 과정에 큰 공헌을 했던 경우는 드물었습니다.

하지만 최근에 딥러닝이 발전하면서, 과거와는 다른 방식으로 lead 를 찾기 위한 시도가 가능해졌습니다. 그중의 하나가 바로 이번에 소개할 CNN을 활용한 방법입니다. 제가 다른 글에서도 다루었다시피, CNN은 주로 영상이나 스피치 인식에 많이 활용되는 방법이지만, 이 연구에서는 특이하게도 단백질과 저분자 화합물의 결합을 예측하기 위해서 사용되었습니다.

 

딥러닝 기반의 선도 후보 물질 발굴

신약 개발의 개념을 여기에서 모두 설명하기는 어렵지만, 신약 표적과 신약 후보 물질의 ‘결합’을 밝히는 것은 신약 후보 물질 발굴의 가장 기본적인 단계입니다. 흔히 신약 표적과 후보물질의 관계를 자물쇠와 열쇠의 관계에 비유합니다.

표적 물질의 특정 부위에 후보물질이 서로 상보적인 구조를 가지고 강하게 결합하면 (즉, 자물쇠의 중요 부위에 열쇠가 딱 들어맞으면) 해당 후보 물질이 우리가 바라는 기능을 가지는지를 (자물쇠를 열 수 있을지를) 추가적으로 테스트해볼 수 있습니다. 하지만 표적에 후보 물질이 결합하지조차 않으면 (열쇠가 자물쇠 구멍에 들어가지조차 않으면) 그다음 실험은 할 필요조차 없게 됩니다. (실제로 이 과정은 매우 복잡하고 세부적인 종류도 다양하지만, 이 정도로 설명하고 넘어가도록 하겠습니다)

lock-key
신약 표적 물질과 신약 후보 물질의 결합은 자물쇠-열쇠의 결합에 비유되는데,
실제로는 아래와 같은 구조로 결합합니다.

Screen Shot 2018-01-16 at 12.51.23 AM

과거에는 단백질과 리간드가 결합할지 하지 않을지, 얼마나 강하게 결합할지를 알기 위해서 실제 두 물질 사이의 결합력을 복잡한 수식(에너지 함수, energy function)으로 계산하려고 했습니다. 이 수식을 풀기 위해서는 두 물질 사이의 분자 수준에서의 각종 화학 결합, 전기적, 화학적 특성 등을 계산해야 했습니다. 이는 계산 방법도 다양하고, 시간도 오래 걸리는 경우가 많았습니다.

그런데 AtomNet에서는 CNN을 이용해서 완전히 새로운 방식으로 이 문제에 접근합니다. 이미 결합하는 것이 실험적으로 증명된 단백질-리간드의 3차원 구조를 1 옹스트롬(0.1 나노미터) 단위로 아주 잘게 쪼개어서 벡터화한 다음 CNN에 그냥 무작정 학습시켜 버립니다. 이는 의료 영상 판독 분야에서 암에 대한 사전 지식이 전혀 없는 딥러닝에 암환자와 정상인의 병리 데이터를 엄청난 분량으로 학습시키면, 암환자와 정상인을 정확히 구분하는 원리와 비슷합니다.

즉, 수소 결합이 무엇인지, 인접한 분자 사이에 전기적 힘이 어떻게 작용하는지도 모르는 CNN이 실제 결합하는 단백질과 리간드의 구조를 바탕으로 화학적 결합의 원리를 스스로 배우는 것입니다. 이렇게 되면 완전히 새로운 단백질-리간드의 결합물이 주어졌을 때, 이 두 쌍이 실제로 결합할지, 혹은 결합하지 않을지를 판단할 수 있게 됩니다. 딥러닝을 학습시키기 위한 데이터로는 UCSF에서 만든 데이터베이스인 the Directory of Useful Decoys Enhanced (DUDE)가 사용되었습니다.

논문에서는 이미 실험적으로 증명된 독립적인 결과들에 대해서 이 AtomNet이 제대로 계산할 수 있는지 검증해보았습니다. 그 결과, 기존의 방식, 즉 화학 결합에 대한 배경 지식(domain knowledge)을 바탕으로 에너지 함수를 복잡하게 계산하는 방법식보다, 이렇게 딥러닝을 통해 CNN을 활용한 방식의 정확도가 훨씬 높다는 것을 증명했습니다. (과거의 방식으로 열심히 에너지 함수를 계산하여 나온 결과를 열심히 들여다보던 연구자의 한 사람으로 매우 당황스럽기까지 한 결과입니다)

Screen Shot 2018-01-16 at 1.00.37 AM
CNN 기반의 AtomNet은 기존의 방식보다
더 정확하게 단백질-리간드 결합을 계산했다 (출처)

특히, Atomwise의 홈페이지에는 자기들 기술은 연구용이 아니라, 이미 제약사에서 활용되고 있는 기술이며, 동물실험으로도 결과가 증명되고 있다고 주장하고 있습니다. 특히, 이 논문은 2015년에 출판되었으며, Merck와 계약을 맺은 것도 2015년입니다. 잘 알려져 있다시피 딥러닝은 학습 데이터의 양이 중요합니다. 하지만 이런 단백질-리간드의 결합에 대한 학습 데이터를 만들기 위해서는 실제로 실험을 일일이 해야 하기 때문에 데이터를 만들기 위해 엄청난 시간과 돈이 필요합니다. 제한된 자원을 가진 스타트업이 이 데이터를 직접 만들기란 쉽지 않습니다.

그런데 이렇게 실험적으로 증명되어 있는 단백질-리간드 결합 데이터를 이미 왕창 가지고 있는 곳이 바로 전통적인 제약사입니다. 논문에서는 학습데이터로 단백질은 단 72개만 가지고서 이런 좋은 결과를 내었는데요. 만약 이 회사가 Merck와 공동 연구를 하면서 내부에 있는 데이터를 학습할 수 있었다면, 현재의 정확성은 논문보다 크게 향상되었을 것입니다.

2015년 Merck와의 협력을 발표한 이후로, Atomwise가 제공한 신약 후보 물질들이 어떻게 개발되고 있는지는 아직 공개되지는 않았습니다. 사실 2-3년은 신약 후보 물질의 검증이 제대로 되기에는 짧은 시간이기는 합니다. 혹은 이러한 제약사와의 이러한 계약 관계가 지속되고 있으며, Merck가 독점적인 계약 관계를 유지한다는 것 자체가 기술이 유효하다는 간접적 증명이라고 볼 수도 있겠습니다. 아무튼 인공지능을 이용한 신약 개발에 대한 제약사의 니즈는 분명하고, 관련 기술의 발전도 계속되는 만큼, 이 분야도 앞으로 계속 관심을 갖고 지켜봐야 할 것 같습니다.

About The Author

IT와 헬스케어의 컨버젼스를 통해 사회적 가치를 창출하는 것을 화두로 삼고 있는 융합 생명과학자, 미래의료학자, 작가입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. Stanford University 방문연구원, 서울대학교 의과대학 암연구소 연구조교수, KT종합기술원 컨버전스연구소 팀장, 서울대병원 의생명연구소 연구조교수 등을 역임하였습니다. 현재 최윤섭 디지털 헬스케어 연구소의 소장이며, 국내 유일의 헬스케어 전문 스타트업 엑셀러레이터 디지털 헬스케어 파트너스 (DHP)의 대표 파트너를 맡고 있습니다. 성균관대학교 삼성융합의과학원 디지털헬스학과 초빙교수이자, VUNO, Zikto, Promisope, Souling, 트랜스링크 캐피털, HB 인베스트먼트, 녹십자 홀딩스의 자문이며, 매일경제신문의 필진입니다.

error: Content is protected !!