암 환자 1,000명 대상의 IBM Watson 진료 성적 공개

Yoon Sup Choi March 5, 2017 AI, Big Data, Digital Healthcare, Precision Medicine No Comments

최근 인도의 마니팔 병원(Manipal Hospital)은 1,000명의 암 환자에 대한 IBM Watson의 진료 성적을 공개했습니다. 지난 3년간 치료 받은 유방암, 대장암, 직장암, 폐암 등 4가지 암종의 환자 1,000명에 대해서 의사의 판단과 Watson의 판단이 얼마나 일치했는지를 본 것입니다.

최근 길병원과 부산대병원에도 도입되면서 국내에도 잘 알려진 왓슨 포 온콜로지(Watson for Oncology)는 뉴욕의 메모리얼 슬론 캐터링 암센터(MSKCC)와 IBM이 함께 개발한 암환자 진료 보조 인공지능입니다. 실제 환자를 대상으로 왓슨 포 온콜로지의 진료 성적이 공개된 것은 실질적으로 이번이 처음입니다.

Watson의 실력은 검증되었나

제가 여러 포스팅과 강의에서 강조드리고 있지만, 그 유명세에 비해서 IBM Watson의 암환자 진료 정확성은 검증되지 않았습니다. MSKCC 라는 세계 최대의 암 병원에서 훈련을 받았으니, 어느 정도의 정확성을 갖추고 있으리라고 짐작할 수 있지만, 일반적으로 새로운 의료기기나 신약이 나오면 받는 정확성, 임상적인 유효성이나 효과성을 공개하거나 검증받은 바는 없다고 봐야합니다. Watson의 암환자 진료에 관해서 내어 놓은 논문, 증례 보고 등이 거의 전무하다시피 하기 때문입니다.

물론 왓슨 포 온콜로지(Watson for Oncology)가 의료기기냐 아니냐 하는 것은 여전히 논쟁의 대상입니다. 만약 이것이 의료기기로 분류된다면 반드시 임상시험을 거쳐서 정확성, 유효성, 안전성 등을 증명하고, 인허가를 득한 후에 병원에서 사용될 수 있을 것입니다. 하지만 세계적으로 Watson for Oncology는 이런 인허가 없이, 태국 범룽랏, 인도 마니팔, 한국의 길병원과 부산대병원 포함한 여러 병원에서 일단 사용되기 시작했습니다.

국내 식약처 첨단의료기기과에서는 최근 의료 인공지능과 관련된 규제 가이드라인을 만들고 있으며, 현재 Watson for Oncology 는 의료기기가 아닌 것으로 분류되도록 방향이 잡힌 상태입니다. 2016년 12월에 발표된 “빅데이터 및 인공지능(AI) 기술이 적용된 의료기기의 허가·심사 가이드라인(안)“에 따르면, “전자의무기록, 의료영상, 생체신호를 이용하여 문헌을 검색하고 문헌의 내용(진단법, 치료법 등)을 요약하여 제시하는 소프트웨어”는 비의료기기의 예시로 되어 있습니다. 이것이 왓슨 포 온콜로지라고 볼 수 있습니다.

사실 이런 가이드라인을 만드는 것이 (드물게도) 한국이 거의 유일한 것으로 보이며, 다른 나라에는 아직 이런 원칙조차 갖춰지지 않고 있습니다. 저도 이 가이드라인을 만들기 위한 전문가 협의체에 속하여 매달 회의를 하고 있습니다만, 현실적으로 매우 어렵고 애매한 부분들이 많은 상황입니다.

2016년 12월 발표된 가이드라인(안)의 일부

사실 의료기기인지 아닌지의 여부를 떠나서라도, Watson은 환자의 진단에 직간접적으로 영향을 미칠 수 있기 때문에 저는 임상시험을 통해서 정확성 등을 검증하는 것이 옳다고 봅니다. 최근 조선일보가 보도한 바에 따르면, 길병원에서 지난 11월부터 진료한 100여명의 환자 중에서, 의사와 왓슨의 판단이 다를 경우에 환자들은 모두 의사보다 왓슨을 더 신뢰했다고 합니다.

환자들은 ‘제 4차 산업혁명’, ‘인공지능’ 등의 일종의 버즈 워드(buzz word) 때문에 아직 의학적으로 증명되어 있다고 보기 어려운 인공지능을 더 선호하기도 하는 것이지요. 왓슨이 의료기기인지 여부는 애매하다고 하지만, 의료기기 아니라고 결론이 난다고 하더라도 현실적으로 환자들의 이런 선호를 막기는 어렵다고 봅니다. 그렇기 때문에 왓슨의 정확성에 대한 최소한의 검증은 더욱 필요하다고 봅니다.

관련 포스팅: 길병원의 IBM Watson 도입에 거는 기대와 우려

지금까지 알려진 Watson의 실력

하지만, 국내 언론에서 왓슨 기사가 나올 때면 아래와 같은 문구가 자주 등장합니다.

“왓슨의 진단 일치율은 대장암 98%, 직장암 96%, 방광암 91%, 췌장암 94%, 신장암 91%, 난소암 95%, 자궁경부암 100% 등이다.”

국내 기사에는 거의 이 문구가 빠지지 않고 무분별하게 인용되고 있는데요. 이 수치는 어떻게 나온 것일까요. 이 연구는 2014년 ASCO에서 MSKCC가 Watson Oncology에 대해서 발표한 파일럿 연구의 초록을 인용한 것입니다. 하지만 해당 연구를 조금만 들여다보면 이 결과가 충분히 엄격한 조건에서 연구된 것이 아닌 것을 어렵지 않게 알 수 있습니다.

국내 언론에서도 많이 인용하는 MSKCC의 2014년 ASCO 발표 내용

바로 트레이닝 데이터와 테스트 데이터를 동일한 것으로 활용했다는 것입니다. 환자 A, B, C 의 사례들로 Watson을 가르친 이후에, 다시 A, B, C 환자를 정확하게 진단하는지를 테스트해서 나온 결과라는 것입니다. Watson이 실제 의료 현장에서 적용될 수 있는지 여부를 보여줄 수 있을 만큼 충분히 엄격한 연구라면, Watson의 트레이닝에 사용되지 않은 새로운 환자 사례에 적용시켜서 높은 정확도가 나오는지를 봐야 합니다.

다시 말해, 이 연구는 Watson 이 트레이닝 가능하다는 가능성 정도를 본 것일 뿐, 정확도를 설득력 있게 나타내어 준다고 이야기 하기는 매우 어렵습니다. 혹시 제 글을 보시는 기자님이 계시면 이 수치를 인용하지는 않아주시면 좋겠다고 말씀드리고 싶습니다.

제가 알고 있는 Watson의 암환자 진료 실력으로 참고할만한 유일한 사례는 역시 2014년 ASCO에서 발표된 MD앤더슨의 소규모 연구 결과입니다. 당시 MD앤더슨의 의사들은 400명의 백혈병 환자들의 사례를 학습하고, 표준 치료법을 권고하도록 학습 받은 Oncology Expert Advisor(OEA) 를 새로운 200명의 백혈병 환자에 대해서 테스트해보았습니다. 이 시스템의 정확도를 판별하기 위해서 MD앤더슨의 의사들이 내어놓은 치료법을 기준으로 OEA의 치료법이 얼마나 일치하는지를 보았습니다.

그 결과 OEA가 부정확한 치료법을 내어 놓은 경우 (false positive)는 2.9%에 지나지 않았고, 정확한 치료법 권고안이 낮은 점수를 받은 경우(false negative)는 0.4%에 지나지 않았다고 합니다. 그리고 전체적인 정확도 (overall accuracy)는 82.6% 였습니다. 이 발표를 내어 놓은 MD앤더슨의 코이치 타카하시(Koichi Takahashi) 박사는 Watson이 상당히 높은 정확도 (reasonably high accuracy)에 도달했다고 평가했습니다.

관련 포스팅: MD앤더슨과 MSK 암센터, IBM Watson의 진료 정확도를 공개하다

끝나버린 MD앤더슨과 IBM의 협력

하지만 이 결과는 이제 쓸모 없어졌습니다. 이 부분은 저도 좀 햇갈렸던 부분인데 MSKCC가 Watson을 이용해 개발한 Watson for Oncology와, MD앤더슨이 Watson을 이용해 개발한 Oncology Expert Advisor (OEA)는 비슷한 목적이지만 완전히 별개의 시스템입니다. 왓슨이란 IBM의 인지 컴퓨팅 기술을 기반으로 경쟁 관계에 있는 두 병원이 개별적인 비슷한 시스템을 개발한 것이지요.

그러던 2017년 2월, MD앤더슨과 IBM Watson이 지난 4년여간 이어오던 협력 관계가 끝났다고, 포브스 등 여러 언론들은 보고했습니다. [ref 1, 2] 이러한 협력이 더 이상 이어지지 못한 원인에는 몇가지 이유가 있는 것으로 보입니다.

무엇보다 너무 많은 비용이 들어갔다는 점이 가장 큰 이유라고 합니다. 최초의 계약에는 OEA를 백혈병 환자 중 저위험 군의 골수 이형성 증후군(lower-risk myelodysplastic syndrome (MDS)) 환자를 대상으로 개발하기 위해서 6개월간 $2.4m 의 고정된 금액을 투자하는 것이었습니다. 하지만 이 계약은 이후 12번이나 연장되었고, 금액은 $39.2m 으로 불어났습니다. 또한 OEA가 대상으로 하는 암종도 폐암과 5가지 추가적인 종류의 leukemia로 늘어났습니다. 결국 이 금액은 $62m으로까지 불어나게 됩니다.

2017년 1월 천 명의 직원을 해고할 정도로 경영난에 시달리고 있는 MD앤더슨으로서는 OEA의 개발에 들어가는 막대한 비용이 부담스러웠을 것으로 보입니다. 기사에는 새롭게 도입한 전자의무기록(EMR)과의 호환성 문제나 두 기관간의 계약 문제 등 다른 요인들도 추측되고 있습니다.

확실한 것은 이 계약의 중단은 Watson 자체의 기술적인 문제와는 상관 없다는 것. 그리고 우리가 흔히 암환자 진료에 사용된다고 통칭하는, MSKCC와 개발한 왓슨 포 온콜로지에는 영향을 미치지 않는다는 것입니다. 오히려 이번 계약 만료로 인해서 오래전부터 MD앤더슨과 경쟁관계에 있던 MSKCC의 시스템이 더 수혜를 볼 수도 있을 것 같기도 합니다.

아무튼 앞서 언급 MD앤더슨의 2014년 ASCO 발표에 나오는 OEA의 테스트 결과는 현재 우리가 주로 다루고 있는 왓슨 포 온콜로지의 정확성을 논하기 위해서 직접적으로 참고하기가 어려워졌습니다.

인도 마니팔 병원의 Watson

인도의 마니팔 병원은 지난 2015년 12월 인도에서는 최초로 왓슨 포 온콜로지를 도입했습니다. 아시아에서는 태국의 범룽랏 병원 이후로 두 번째로 알고 있습니다. 국내에서는 다소 생소한 이름이지만, 마니팔 병원은 연간 20만 명 이상의 암환자를 진료하는 대형 암센터입니다.

특히 인도에는 Watson과 같은 진료 보조 인공지능의 니즈가 크다고 할 수 있습니다. 2015년 도입 당시의 통계를 보면, 인도에는 100만 명의 암 환자가 있으며, 그 수는 빠르게 증가하여 2020년까지 5배가 될 것으로 예상되고 있습니다. 반면 암 환자의 진료에 필요한 종양내과 전문의는 턱없이 부족합니다. 환자 1,600명 당, 한 명의 종양내과 전문의가 있다고 합니다. 이는 미국의 경우 환자 100명 당, 종양내과 전문의 한 명의 비율을 생각하면 의사가 16배나 부족한 셈입니다.

그러던 지난 2016년 12월 초, 인도의 마니팔 병원은 지난 3년간 진료한 1,000명의 암환자를 대상으로 Watson for Oncology의 실력을 공개했습니다. 환자군은 각각 유방암(638명), 대장암(126명), 직장암(124명), 폐암(112명)으로 구성되어 있습니다.

왓슨 포 온콜로지를 도입한지 2년이 되었는데, ‘지난 3년 동안’ 진료한 환자라고 언급한 것을 보아, 과거 환자들에 대해서 후향적으로 연구한 것이 아닌가 합니다. 발표는 ‘2016 샌안토니오 유방암 심포지움(2016 San Antonio Breast Cancer Symposium)’과 싱가폴에서 열린 ‘ESMO Asia 2016 Congress‘ 등에서 이뤄졌습니다.

왓슨 포 온콜로지에 대해서 MSKCC와 독립적인 다른 병원이 이 정도로 대규모 환자를 대상으로, 진단 실적을 공개한 것은 이번이 처음입니다. 즉, 아래의 부분에서 최초이며 의미있다고 할 수 있습니다.

Watson for Oncology에 대해 (개발에 반영되지 않은 새로운 환자군에 대한) 테스트
MSKCC와 독립적인 다른 병원에 의한 테스트
1,000명이나 되는 대규모 환자군에 대한 테스트
여러 암종별로 테스트

암환자 1,000명 대상의 왓슨의 진료

이 연구에서 마니팔 병원의 연구진은 암환자 진료와 관련된 여러 전공의 전문의들이 모인 다학제 진료팀(Manipal multidisciplinary tumour board)의 판단과 Watson의 판단을 비교하였습니다. 왓슨은 특정 암환자의 진료기록을 분석하여 치료 권고안을 크게 3단계로 내어 놓습니다. 초록색은 추천하는 치료법(recommend, REC)이고, 주황색은 고려해볼 수 있는 치료법(for consideration, FC), 그리고 붉은색은 권고하지 않는 치료법(not recommended, NREC)입니다.

1,000명의 환자에 대해서 마니팔 병원의 다학제 진료팀이 제한 치료법을 기준으로, 왓슨 포 온콜로지가 제시한 치료법 중에 추천(REC), 고려(FC), 비추천(NREC)의 세 가지와 일치하는 비율은 아래와 같았습니다.

추천(REC)에 해당: 50%
고려(FC)에 해당: 28%
비추천(NREC)에 해당: 17%

즉, 추천과 고려에 해당하는 경우를 모두 합하면 약 80%에 달하는 치료법이 의사들의 치료법 결정과 일치했습니다. 이 수치는 앞서 언급한 MD앤더슨의 OEA의 진료 일치도와 거의 비슷한 수치입니다. 또한 추천, 고려, 비추천 모두에 속하지 않는 나머지 5%의 경우에는 의사들이 권고한 치료법을 Watson의 권고안 중에서 찾을 수 없었다고 합니다.

초록/주황/빨강으로 분류된 Watson for Oncology 의 치료법 권고안

더 나아가, 암종별로 볼 때에도 왓슨의 치료 권고안의 의사와 일치도는 현저하게 차이가 났습니다. 일치율이 가장 높았던 것은 직장암으로 85%가 일치했고, 가장 낮은 것은 폐암으로 17.8%에 불과했습니다. 유방암의 경우에는 세부 종류별로도 달랐는데요. 예후가 좋지 않은 것으로 알려진 삼중음성(triple-negative) 유방암의 경우에는 67.9%가 일치했고, 호르몬 수용체 양성, HER2 유전자 음성인 경우에는 35%로 일치도가 낮았습니다.

직장암: 85% 일치
폐암: 17.8% 일치
유방암
- 비전이성 유방암: 80% 일치
- 전이성 유방암: 45% 일치
- 삼중음성 유방암: 67.9% 일치
- 호르몬 수용체 양성, HER2 음성 유방암: 35%

이렇게 암종별로 의사의 판단과 왓슨의 판단의 일치도가 다른 이유 중의 하나는 얼마나 많은 치료 옵션들이 가능한지도 관련이 있는 것으로 보입니다. 예를 들어, 삼중음성 유방암의 경우에는 HER2만 음성인 경우에 비해서 가능한 치료 옵션이 적기 때문에 결과적으로 일치도는 올라갈 수밖에 없다는 것입니다. 직장암도 다른 암종에 비해서 상대적으로 치료 옵션이 적은 암이라고 합니다.

시사점

이번 마니팔 병원의 임상 연구 결과에서 우리는 많은 시사점을 얻을 수 있습니다. 가장 큰 시사점은 의사와 왓슨의 치료 권고안의 경우에 차이가 있는 경우가 적지 않다는 것입니다. 전체 환자군을 분석했을 때 20%가 넘는 경우에는 왓슨이 추천하지 않는 치료법이나, 왓슨의 옵션 중에 없는 치료법을 의사가 시행했다는 것을 알 수 있습니다.

더욱이 암종별로 구분했을 경우 이러한 치료 권고 일치율에 더욱 편차가 커집니다. 폐암의 경우에는 일치하는 경우가 약 18%에 그치며, 유방암의 경우, 전이성 유방암이나 HER2 음성 유방암의 경우에는 일치도가 상대적으로 더욱 낮다는 것을 알 수 있습니다.

이러한 결과는 왓슨 포 온콜로지의 정확성에 대한 의문과 임상 연구의 필요성을 더욱 증가시킨다고 할 수 있겠습니다. 길병원과 부산대병원에서도 사용하는 왓슨 포 온콜로지가 폐암이나 유방암 환자에게 활용될 경우에 의사와 왓슨의 판단이 달라질 가능성이 상대적으로 높을 것으로 보이는데, 누가 더 옳은 결정을 내렸는지 알 수 없기 때문입니다.

이러한 인공지능의 근본적인 한계점은 이번과 같이 후향적(retrospective) 연구를 통해 인간 의사와 인공지능 의사의 ‘일치율’ 정도를 볼 수밖에 없다는 것입니다. 즉, 진료기록이 있는 암 환자의 과거 데이터를 입력해서 과거 의사의 판단을 기준으로 비교해보는 것 정도만 가능합니다.

만약 누가 더 옳은 결정을 내렸는가? 인간 의사의 판단이 옳았나, 인공지능 의사의 판단이 옳았는지를 보기 위해서는 전향적(prospective) 연구를 해야합니다. 즉, 한 환자군은 인간 의사만 보고, 동일한 조건의 다른 환자군에 대해서는 인공지능 의사의 진료만을 시행해서 장기 치료 성과를 봐야 하는 것이지요. 하지만 이러한 연구는 환자군을 확보하기도 어렵거니와, 정확성이 담보되지 않은 인공지능의 치료법만 (인간 의사 관여 없이) 적용하는 것은 의학적으로나 윤리적으로도 불가할 것입니다.

새로운 이슈와 가이드라인의 필요성

디지털 혁신에 의한 인공지능은 의료계에 새로운 바람과 함께 여러 새로운 이슈를 제기하고 있습니다. 이런 인공지능의 영향이 의료에서 계속 커지고 있지만, 너무도 새로운 종류의 기술이고 새로운 방식으로 활용되고 있기 때문에 기존의 잣대로는 어떻게 규제하고 어떻게 활용할지가 애매한 부분이 많습니다.

저는 왓슨과 같은 인공지능의 활용에 대해서 의료계가 전향적인 자세를 가지고 주도적으로 나서야 한다고 봅니다. 왓슨이 의료기기냐 의료기기가 아니냐와는 또 별개로, 이를 진료 현장에서 어떻게 활용할지에 대한 기준도 필요합니다. 예를 들어, 길병원과 부산대병원은 동일한 왓슨 포 온콜로지를 도입했지만, 이를 현장에서 어떻게 활용할지는 서로 큰 차이가 있을 수 있으며, 의료의 질 관리가 필요합니다.

저는 결국 왓슨과 같은 시스템을 누가, 언제, 어떻게, 어느 정도로 활용할 것인지에 대한 진료 가이드라인이 필요할 것으로 봅니다. 이번 연구 결과에 따르면, 특히 암종별로 가이드라인이 달라야 할 것입니다. 예를 들어, 폐암과 직장암에 대한 활용 방식은 달라져야 하겠지요. 그리고 이런 가이드라인도 인공지능의 발전에 따라서 지속적으로 업데이트 되고 변화해야 하겠습니다.

모든 디지털 기술이 그러하듯 인공지능은 멈춰있지 않고, 지금 이 순간에도 계속 발전합니다. 그리고 그 발전 속도는 더욱 빨라지고 있지요. 이번 식약처 가이드라인 마련에서도 저희가 애를 먹는 부분이 이러한 부분입니다. 하지만 의료 적용을 위해서는 반드시 해결해야 할 문제이기도 합니다.

About The Author

Yoon Sup Choi

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』『의료 인공지능』『헬스케어 이노베이션』 등을 집필하였습니다.

Leave A Response

Click here to cancel reply.