Thursday 14th December 2017,
최윤섭의 Healthcare Innovation

디지털 기술은 임상 연구를 어떻게 혁신하는가 (4) 검색어 분석을 통한 신약 부작용 발견

Yoon Sup Choi January 12, 2016 Big Data, Column, Digital Healthcare Comments
twitter main

지난 포스팅에 이어, 이번에도 디지털 기술을 활용하여 약물 부작용을 검출할 수 있는 새로운 방법에 대해서 다루려고 합니다. ‘디지털 기술은 임상 연구를 어떻게 혁신하는가’ 시리즈의 지난 포스팅은 아래의 링크에서 확인하실 수 있습니다.

  1. 임상 시험을 위한 인공 지능과 소셜 네트워크
  2. 원격 임상 시험
  3. SNS를 통한 신약 부작용 발견

트위터, 약물 부작용 데이터의 보고?

풍부한 약물 부작용 정보를 갖고 있는 또 다른 소셜 네트워크는 바로 트위터(twitter)다. 사람들은 140자의 짧은 트윗으로 자신의 일상이나 상태, 생각을 공유한다. 신변잡기를 이야기 하기도 하고, 정치적이거나, 직업과 관련된 전문적인 의견을 내놓기도 한다.

전세계에서 하루 5억 개 이상 쏟아지는 트윗은 그야말로 빅 데이터이다. 최근 한 연구에 따르면 트위터는 유전체, 유투브 등의 데이터와 함께 지구상에서 가장 큰 규모의 데이터를 자랑하기도 한다.

2014년 미국의 연구자들은 이러한 방대한 트위터 데이터 중에 약물 부작용에 관한 중요한 정보들이 포함되어 있다는 것을 밝혔으며, 이는 FDA가 보유한 기존의 신약 부작용 감시 체계를 보완하기 위해 도움을 줄 수 있다고 주장했다.

이들은 2012년 11월부터 2013년 3월까지 영어로 씌여진 트윗 중, 23가지 약물에 대해 언급한 총 690만 개의 트윗을 수집했다. 이 중 1% 남짓에 해당하는 61,000 여개의 트윗을 무작위로 선택하여 분석한 결과, 신약 부작용과 관련 있는 트윗 4,401 개를 골라낼 수 있었다.

이 트윗에서 부작용과 관련하여 가장 많이 언급된 약과 횟수는 아래와 같다.

  • 소염진통제 이부프로펜 (ibuprofen): 1,268개
  • 불면증 치료제 졸피뎀 (zolpidem): 554개
  • 해열 진통제 아세트아미노펜 (acetaminophen): 303개
  • 신경안정제 알프라졸람 (alprazolam): 332개
  • 진통제 트라마돌 (tramadol): 213개

반면 같은 기간 동안, 기존의 FDA의 약물 부작용 보고 시스템인 FAERS에 보고된 것은 1,400 개에 지나지 않았다. 총 트윗 중에 1% 남짓만 분석하였음에도 불구하고, 트위터로 진행한 분석에 기존 시스템 대비 3배가 넘는 부작용 보고를 발견한 것이다. 규제 기관과 제약회사의 입장에서는 귀중한 데이터가 아닐 수 없다.

예를 들어, 논문에는 다음과 같은 트윗이 언급되어 있다.

“Humira never really worked for me. Orencia was good. Xeljanz was the best but ate a hole in my stomach. (휴미라는 나한테 효과가 별로 없었다. 오렌시아는 좋았다. 젤잔즈가 효과는 가장 좋긴 했지만 내 위장에 구멍을 뚫어놨다)”

이 트윗에서 언급되는 휴미라, 오렌시아, 젤잔즈는 모두 류마티스 관절염 치료제이다. 이 환자는 글로벌 제약사 화이자의 젤잔즈의 부작용에 대해서 언급하고 있다. 실제로 이 약의 부작용 중의 하나로 위장관 천공 가능성이 경고되고 있다.

하지만 연구자들은 트위터 데이터를 이용해서 신약의 부작용을 발견하는 일이 결코 쉽지만은 않다고 강조하고 있다. 데이터의 규모는 너무 크며, 내용은 방대하고, 용어를 정리하기가 쉽지 않은 탓에 분석을 자동화는 것이 용이하지 않았기 때문이다. 이 연구에서 전체 트윗의 일부만을 선택하여 분석을 대부분 수작업으로 진행했던 것도 그러한 이유이다.

하지만 전세계에서 환자들이 자발적으로 업로드하는 데이터를 실시간으로 모니터링할 수 있는 곳은 소셜 미디어만한 곳이 없다. 트위터, 페이스북 등의 소셜 미디어 만으로 신약 부작용을 검증하기란 어렵겠지만, 기존의 모니터링 시스템과 결합하면 더 효율적으로 문제점을 포착하고 사회적 비용을 절감할 수 있는 길이 열릴 수 있다.

 

검색 엔진 분석을 통한 독감 예측

구글의 독감 예측 시스템, 구글 플루 트렌드 (Google Flu Trends)에 대해서 들어본 적이 있을 것이다. 구글 플루 트렌드는 빅데이터를 의료 분야에 활용을 시도한 대표적인 사례로 꼽힌다. 아이디어는 간단하다. 사람들이 독감에 걸리기 시작하면, 감기와 관련된 단어를 구글에 검색하게 된다. 따라서 구글에 검색되는 단어의 빈도와 추세를 보면 현재 어느 지역에서 독감이 발병하기 시작했는지 알 수 있다는 것이다.

구글은 2008년 네이쳐에 이 구글 플루 트렌드에 대해서 발표했다. 구글 검색 엔진에 입력된 검색어와 빈도 등을 조합하여 2003년부터 2007년까지 미국 질병관리본부(CDC)에서 매주 발표된 독감 발병과 일치하는 결과를 만들어내었다는 것이다. 더 나아가 구글은 이에 기반한 예측 모델까지 만들고 2007-8년 계절 독감의 추세를 예측했다. 그 결과 구글의 예측은 미국 질병관리본부의 감시 시스템의 결과보다 1-2주 정도 더 미리 독감 발병을 알아차렸다는 것이 구글의 주장이었다.


(참고로, 구글 플루 트렌드는 이후 우여곡절을 겪으며, 현재는 더 이상 서비스 되고 있지 않다. 결과의 정확성에 대한 논란과 비판이 있었고, 알고리즘에도 변화가 있었다. 결과적으로는 절반의 성공이라고 생각한다. 추후에 구글 플루 트렌드에 대해서는 따로 자세히 다뤄보도록 하겠다.)

 

검색 엔진 분석을 통한 약물 부작용 발견

이처럼 검색 엔진에 입력되는 검색어라는 빅데이터를 통해서 대중이 가지고 있는 생각과 그 속에 숨어 있는 신호를 발견할 수 있다. 이러한 분석법을 활용하면 알려지지 않았던 약물의 부작용을 새롭게 발견하는 것도 가능하다.

2013년에 마이크로소프트, 스탠퍼드 대학교, 콜럼비아 대학교의 연구진들은 구글, 마이크로소프트, 야후의 검색 엔진 데이터를 분석하면 약물의 부작용을 발견할 수도 있다는 연구 결과를 발표했다. 이 연구에서는 검색어 분석을 통해서, 우울증, 공황장애, 사회불안장애에 처방되는 항우울제 파록세틴(paroxetine)과 고콜레스테롤혈증 환자에 콜레스테롤 수치를 낮추기 위해 사용되는 프라바스타틴(pravastatin)을 함께 복용했을 때 발생하는 부작용에 대해서 연구했던 것이다.

이 항우울제와 콜레스테롤 치료제는 기존에 널리 사용되던 약이었다. 하지만 공교롭게도 이 두 가지 약을 함께 복용하게 되면 부작용으로 혈당이 비정상적으로 상승하게 되는 고혈당증(hyperglycemia)이 발생한다는 것이 2011년 보고되었다. 세계에서 가장 많이 사용되는 항우울제 중의 하나인 파록세틴은 이미 1992년에 FDA 승인을 받았으며, 프라바스틴 역시 2006년에 승인을 받았다는 것을 고려한다면, 이러한 부작용은 상당히 뒤늦게 밝혀진 것이었다.

2011년에 처음 밝혀진 이러한 부작용에 대해 연구진들은 과거 2010년의 검색 결과를 분석해서 사전에 이러한 부작용을 미리 알아낼 수 있었을 것인지에 대해서 살펴보았다. 이 부작용이 밝혀지기 이전에도 파록세틴과 프라바스틴을 함께 복용한 환자들은 부작용으로 고혈당증을 겪었을 것이며, 이러한 증상을 파악하기 위해 구글 등 검색 엔진으로 인터넷 검색을 해보았을 것이기 때문이다.

연구진들은 2010년에 구글, 마이크로소프트, 야후에서 검색한 600만명의 인터넷 유저들이 파록세틴, 프라바스타틴, 그리고 고혈당증과 관련된 검색을 빈도가 어떠한지를 살펴보았다. 밴 다이어그램으로 표현하면 아래와 같이 세 가지의 집합으로 표현할 수 있을 것이다.

분석 결과 2010년에 파록세틴과 프라바스타틴 두 약을 모두 검색해본 사람들 중에 고혈당증에 대해서 검색해본 사람들이, 두 약 중 하나만 검색해본 사람들 중에 고혈당증을 검색한 사람보다 더 많았다. 두 약을 모두 검색한 사람들 중 고혈당증 관련 검색을 해본 사람은 10% 정도였으나, 약 하나만 검색해본 사람들 중 고혈당증 검색을 해본 사람은 4-5% 정도에 그쳤던 것이다. (아래 그림 참조)

google search 2

뿐만 아니라, 연구자들은 사람들이 이 두 가지 약에 대해서 거의 동일한 시기에 검색해본다는 것도 알아내었다. 약 30%의 사람들은 같은 날에 이 두 약에 대해서 검색했으며, 40%는 같은 주에, 60%는 같은 달에 검색했던 것이다.

이러한 연구 결과는 인터넷 검색 기록이라는 빅 데이터 분석을 통해서 예상하지 못했던 약물 부작용을 조기에 발견할 수 있을 가능성을 보여준다. FDA 등의 기존 약물 부작용 감시 시스템이 포착하기 이전부터, 환자들이 실제로 부작용을 겪으며 인터넷을 찾아본 검색 기록에 그러한 정보가 반영되어 있기 때문이다.

더 나아가서, 마이크로소프트의 연구소장 에릭 호비츠 (Eric Horvitz) 는 “실험을 통해서 시중에 나와 있는 모든 약들의 조합에 대해 약물 간의 상호작용 (drug-drug interaction)으로 인한 부작용을 밝혀내는 것은 아주 어려울 것이다” 라고 언급했다. 모든 조합을 일일이 임상시험하기란 현실적으로 불가능할 것이기 때문이다. 하지만 파록세틴과 프라바스타틴의 사례처럼 특정 약 이름의 조합과 특정 부작용과 관계된 용어가 높은 빈도로 검색된다면 별도의 실험 없이도 새로운 부작용의 가능성을 발견할 수 있을 것이다. 이 또한 현재 규제 기관이 가진 부작용 감시 시스템에 새로운 가치를 더해줄 수 있을 것으로 생각한다.

(계속)

About The Author

IT와 헬스케어의 컨버젼스를 통해 사회적 가치를 창출하는 것을 화두로 삼고 있는 융합 생명과학자, 미래의료학자, 작가입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. Stanford University 방문연구원, 서울대학교 의과대학 암연구소 연구조교수, KT종합기술원 컨버전스연구소 팀장, 서울대병원 의생명연구소 연구조교수 등을 역임하였습니다. 현재 최윤섭 디지털 헬스케어 연구소의 소장이며, 국내 유일의 헬스케어 전문 스타트업 엑셀러레이터 디지털 헬스케어 파트너스 (DHP)의 대표 파트너를 맡고 있습니다. 성균관대학교 삼성융합의과학원 디지털헬스학과 초빙교수이자, VUNO, Zikto, Promisope, Souling, 트랜스링크 캐피털, HB 인베스트먼트, 녹십자 홀딩스의 자문이며, 매일경제신문의 필진입니다.

error: Content is protected !!