인공지능은 의료를 어떻게 혁신할 것인가 (2) IBM Watson의 이상과 현실적 과제

Yoon Sup Choi June 13, 2017 AI, Big Data, Digital Healthcare, Precision Medicine No Comments

의료 인공지능의 세 가지 유형

그러면 이제 의료 인공지능에 대해서 본격적으로 논의해보도록 하자. 현재 다양한 의료 분야에서 여러 종류의 인공지능이 발전해왔으며, 앞으로도 새로운 인공지능과 연구 결과들은 지속적으로 등장하게 될 것이다. 향후 예상되는 모든 종류의 의료 인공지능을 포괄하여 분류한다는 것은 쉬운 일이 아닐 것이다. 다만 필자는 적어도 현재까지 연구되고 있는 대부분의 의료 인공지능을 다음과 같이 세 가지 정도의 유형으로 분류할 수 있다고 본다.

복잡한 의료 데이터를 분석하여 의학적 통찰력을 도출하는 인공지능
이미지로 나타낼 수 있는 의료 데이터를 분석 및 판독하는 인공지능
연속적인 의료 데이터를 모니터링하여 질병을 예측 및 예방하는 인공지능

첫 번째로 복잡한 의료 데이터를 분석하여 의학적인 통찰력을 도출하는 인공지능이다. 여기에서 ‘복잡한 의료 데이터’라고 한다면, 전자의무기록(EMR)이나 차트에 저장되어 있는 환자의 진료 기록이나, 환자의 진료비를 청구한 데이터, 유전체 데이터, 임상 시험 데이터 등의 의료 빅데이터를 포괄한다.

이러한 인공지능은 의료 빅데이터를 분석하여 ‘의학적 통찰력’을 도출한다. 예를 들어, 진료기록 등을 바탕으로 환자의 질병을 진료하거나 진단하거나 예측한다. 또한 유전체 데이터를 바탕으로 질병을 유발한 원인이 되는 유전적 요인을 정밀하게 찾아주고, 개별 환자에게 맞춤 처방을 내려줄 수도 있다. 특정 환자에게 가장 적합한 임상 연구가 어떤 것인지 매칭해주며, 동일한 질병의 환자라도 고위험군과 저위험군으로 분류하여 차별화된 관리를 받게 하거나, 더 나아가 사망률이나 재 입원률을 낮추고, 의료비를 절감하는 목적으로 사용할 수도 있다.

이러한 유형의 의료 인공지능 중에 가장 잘 알려진 것은 바로 IBM의 왓슨(Watson)이다. 왓슨은 현재 의료 분야에서 암환자 진료(Watson for Oncology), 유전체 분석(Watson Genomics), 임상시험 환자 매칭(Clinical Trial Matching) 등의 세 가지 서비스를 제공하고 있다. 이러한 세 가지 서비스 모두 ‘복잡한 의료 데이터’를 분석하여 ‘의학적 통찰력’을 도출한다는 첫 번째 유형에 해당함을 알 수 있다.

먼저 IBM 왓슨을 비롯한 첫 번째 유형의 의료 인공지능에 대해서 자세하게 살펴본 이후에, 두세 번째 유형에 대해서도 차례대로 논의해보도록 하겠다.

제퍼디, 위대한 도전

IBM의 인공지능 왓슨은 2011년 미국의 유서 깊은 퀴즈쇼 ‘제퍼디(Jeopardy!)’에서 막강한 인간 챔피언 두 명에게 압도적인 점수차로 승리를 거두면서 대중에게 화려하게 데뷔했다. 지금 의료계에서 활용되는 왓슨이 이 퀴즈쇼에서 사용된 왓슨과 동일하다고 보기는 어렵지만, 왓슨을 논하기 위해서는 이 제퍼디의 사례를 언급하지 않을 수 없다.

지금은 제퍼디의 결과로 인간 챔피언을 왓슨이 이겼다는 것이 잘 알려져 있기 때문에, ‘그런가 보다’ 하고 무감각하게 받아들여질 수 있다. 이미 과거에 IBM의 딥블루가 체스 그랜드마스터 게리 카스파로프도 이겼고, 알파고가 이세돌과 커제에게 승리를 거뒀다는 것을 알고 있기 때문에, 퀴즈쇼에서 이겼던 것도 일견 손쉬워보일 수도 있다. 하지만 그 배경을 보면 왓슨이 퀴즈쇼에서 인간 챔피언에 (그것도 제퍼디 역사상 가장 압도적인 챔피언들에게) 승리하는 과정은 결코 만만한 일이 아니었다. 제퍼디에서는 컴퓨터의 승산이 없다고 보아 IBM 내부에서조차 이 프로젝트에 대한 반대 의견이 컸을 정도였다.

IBM이 제퍼디에 도전장을 내밀게 되었던 계기로는 여러 설이 있다. 그중 한 가지는 IBM이 기술력을 과시하기 위해서 해왔던 ‘위대한 도전’의 연장선상에 있다는 것이다. 1990년대 IBM의 위대한 도전은 체스 세계 챔피언을 이기는 컴퓨터를 만드는 것이었고, 이는 딥블루와 게리 카스파로프의 대결로 이어졌다. 21세기 초기에는 세계에서 가장 빠른 컴퓨터인 블루진(Blue Gene)을 내놓기도 했다. 이러한 도전의 결과로 IBM이 첨단 컴퓨터 산업의 강자라는 지위를 공고히 할 수 있게 되었다.

그다음 ‘위대한 도전’으로 IBM의 경영진이 선택한 문제가 바로 제퍼디였다. 제퍼디는 1964년 3월에 출범하여, 70, 80년대에 중단되다가 다시 부활하기를 거듭하면서, 다시 1984년부터 지금까지 진행되고 있는 유서 깊은 퀴즈쇼다. 제퍼디에서 세 명의 출전자가 경쟁을 하면서 문제를 풀게 된다. 이 문제는 다양한 주제에 대한 텍스트 형식으로 출제된다. 즉, 기본적으로 문제를 풀기 위해서 인간의 언어를 이해하는 것이 필요하다는 것이다.

하지만 제퍼디에서 우승하기 위해서는 훨씬 복잡하고 다양한 변수들이 작용한다. 참가자의 지식뿐만 아니라, 버저를 누르는 반응속도, 정확성, 게임 전략 등이 관여하기 때문이다. 20분에 걸쳐서 총 5만 4,000달러가 걸린 60개 문제를 놓고 세 명이 경쟁을 벌이는 것이다. 어떤 문제는 쉽지만, 어떤 문제는 매우 어렵다. 때로는 평범한 사람은 풀기 어려운 말장난과 같은 문제가 출시되기도 한다.

예를 들어, 1994년 11월에 방영된 왕중왕전에서는 ‘가구’라는 카테고리에 500달러가 걸린 다음의 문제가 출제되었다. “골동품 진열을 위해 만든 가구로, 가느다란 버팀목으로 지지되는 몇 단의 선반으로 된 ‘이것’의 프랑스어 이름입니다”가 문제였는데 답은 ‘에타제르’였다. 왓슨이 제퍼디에서 실제로 풀었던 문제 중의 하나는 ‘미국 도시’의 카테고리에서 “이 도시의 가장 큰 공항은 제2차 세계대전 영웅의 이름을 따서 명명되었고, 두 번째로 큰 공항은 제2차 세계대전 중의 전투 이름을 땄습니다”였다. 정답은 시카고였다. (당시 큰 점수차로 앞서 나가던 왓슨은 이 문제에 캐나다의 도시인 ‘토론토’라고 대답해서 틀렸다.)

평균적으로 출연자들은 3-4초 정도 문제를 읽고 생각한 후 버저를 누른다. 만약 문제를 맞히면 문제에 걸린 상금을 따고, 틀리면 점수에서 해당 상금만큼 깎임과 동시에 다른 두 명의 출연자에게 기회가 주어진다. 즉, 제퍼디에서 좋은 성적을 올리기 위해서는 3초 내외로 빠르게 답을 떠올리고, 부저를 눌러야 할뿐만 아니라, 자신의 답이 어느 정도 정확한지까지 스스로 판단해야 한다. 즉, 자신의 점수, 상대방의 점수, 내가 떠올린 답이 정답일 가능성 등을 순식간에 판단해야 한다는 것이다.

여기에 네 개의 ‘와일드 카드’ 때문에 게임 전략은 더 복잡해진다. 제퍼디의 60개 문제 중의 세 개는 무작위로 ‘데일리 더블’이라는 문제다. 이 때 참가자는 문제의 카테고리만 보고 자신의 상금 일부 혹은 전체를 걸 수 있다. 틀리면 걸었던 돈을 잃고, 맞히면 그 두 배를 벌 수 있다. 이론적으로 한 명이 세 개의 데일리 더블을 모두 골라서 맞출 수 있으면 상금을 8배까지 불릴 수 있게 되는 것이다.

더 복잡한 것은 마지막 문제인 ‘파이널 제퍼디’이다. 이 때는 한 명이 아닌 세 명의 출연자 모두, 말이 아니라 글로 답을 써내게 된다. 이 때도 상금을 걸게 되는데, 현재 나와 상대방의 점수, 그리고 나와 상대방이 문제를 맞출 확률 등을 계산하면 경우의 수가 많아진다. 1분도 안 되는 시간 내에 참가자들은 여러 시나리오의 확률을 머리속으로 계산해야 한다.

Jeopardy!

제퍼디의 슈퍼스타

왓슨이 제퍼디에서 대결한 인간 챔피언들은 이러한 복잡한 퀴즈쇼에서 말 그대로 위대한 업적을 이룬 챔피언이었다. 특히 켄 제닝스(Ken Jennings)는 제퍼디가 배출한 슈퍼스타였다. 프로그램 초기에 제퍼디는 한 사람이 다섯 번 연속으로 우승할 수 없다는 규칙이 있었다. 만약 이런 룰이 없으면 한 명이 너무 오래 퀴즈쇼를 독식할 수 있기 때문이었다. 만약 그런 상황이 발생했을 때, 그 사람이 대중에게 호감을 주는 사람이라는 보장은 없었으므로 제작진으로서는 위험 부담이 있었다.

제작진은 2003년도 이르러서야 고민 끝에 이 제한을 풀었다. 그랬더니 2004년 6월에 처음 출연해서 ‘파이널 제퍼디’를 아슬아슬하게 통과한 호리호리한 인상의 컴퓨터 프로그래머가 계속해서 등장하며 이기고, 이기고, 또 이겼다. 7월이 되어 켄 제닝스가 38연승을 기록하자 제퍼디는 전년 동기 대비 시청률이 50% 상승하여 매일 1,500만 명의 이목을 집중시켰다. 그 달에 제퍼디는 ‘CSI 과학수사대’에 이어서 시청률 2위를 기록했다.

제퍼디의 슈퍼스타, 켄 제닝스

경쟁자에 따르면 켄 제닝스는 다른 챔피언과 여러 면에서 달랐다. 만물박사였을 뿐만 아니라, ‘버저 필’이라는 것이 있어서, 매우 정확한 타이밍에 부저를 누를 수 있었다. 제퍼디에서는 문제의 낭독이 끝나고 나면, ‘제퍼디’ 보드의 불이 켜지면서 버저를 눌러도 된다는 신호가 나온다. 너무 일찍 버저를 누르면 1/4 초 동안 버저가 차단되는 벌칙을 당해서 경쟁자들에게 기회가 돌아간다. 너무 늦게 눌러도 기회를 놓친다. 제닝스는 마법과 같은 ‘버저 리듬감’을 갖고 있었다. 또한 어떠한 상황에서도 초인적일 정도로 침착했다.

그는 2005년에 쓴 회고록 ‘브레이니악(Brainiac)’에서 이렇게 썼다. “이상한 느낌이다. 아직 답을 말할 수는 없지만 머리 뒤쪽에서 불빛이 반짝인다. 뭔가 연관이 나타나고, 머리가 그 연관을 확인하느라 정신없이 돌아가는 동안 손가락은 이미 버저를 누르고 있다.”

켄 제닝스는 이후 유래 없는 74연승을 거두며 317만 달러를 거둬들이며 2004년 11월까지 1년 반 동안 챔피언의 자리에 있었다. 그동안 절반 이상의 문제에서 버저 싸움을 이겼으며, 정답률은 92%를 기록했다. (이는 보통 챔피언보다 10% 이상 높은 결과였다.) 한마디로 켄 제닝스는 ‘만물박사’의 전형을 대표한다고 해도 과언이 아니었다. 이런 켄 제닝스를 보고 IBM이 도전의식을 느낀 것도 무리는 아니었을 것이다. 그런 의미에서 어떤 사람들은 사실 왓슨이 탄생하게 된 것은 제닝스 덕분이었다고 하기도 한다.

왓슨이 대결한 또 한 명의 챔피언은 브래드 러터(Brad Rutter)였다. 러터는 제퍼디의 5연승 제한 룰이 바뀌기 이전의 챔피언이었다. 그는 2005년 ‘최후의 왕중왕전’에서 켄 제닝스, 제롬 베레드와 함께 경쟁한 그는 3일에 걸친 시함에서 6만 2,000점으로, 3만 4,599점을 기록한 제닝스와 2만 600점을 기록한 베레드를 제치고 우승을 차지했다. 결국 브래드 러터는 왕중왕전에서 200만 달러를 따서, 총 340만 달러의 상금을 벌어들여 제퍼디 역사상 가장 많은 상금을 가져간 사람이 되었다.

켄 제닝스와 브래드 러터. 제퍼디가 탄생시킨 이 위대한 두 명의 챔피언이 바로 왓슨이 대결해야 했던 상대였다.

왓슨, 화려하게 데뷔하다

왓슨이 제퍼디의 출전이 결정되면서 4년에 걸친 IBM의 노력이 시작되었다. 이 개발팀을 이끌었던 데이비드 페루치를 비롯한 25명의 박사 연구진들이 역량을 결집했다. 개발 초창기에는 왓슨이 (당시 개발팀에는 ‘제퍼디 컴퓨터’라고 불렸다) 문제를 맞추는 것은 차치하고서, 답을 도출하는데 2시간이 걸렸다고 한다. 왓슨이 제퍼디의 문제를 풀기 위해서는 인간의 언어를 이해하고, 답을 도출하고, 답의 정확성을 계산하는 과정을 3-4초 내에 하는 것이 필요했다. 이를 목소리로 읽어내야 했으며, ‘데일리 더블’, ‘파이널 제퍼디’에서는 얼마의 돈을 걸 것인지도 계산해야 했다.

왓슨의 개발이 진행되면서, 2010년 가을의 제퍼디 왕중왕전에 출전할 사람들을 대상으로 총 60회의 연습 게임을 포함한 여러 번의 모의고사를 치렀다. 이 연습게임을 거치면서 왓슨의 강점과 약점을 점검하면서 계속 개선시켜나갔다. 연습게임 초기에 왓슨은 일반 참가자들을 대상으로 64% 의 승률을, 개선된 이후에는 왕중왕전 참가자들을 대상으로 67%의 승률을 올렸다.

사실 제퍼디의 준비 과정에서 크게 이슈가 되었던 것 중의 하나는 바로 왓슨이 버저를 누르는 방식과 속도에 관한 것이었다. 앞서 강조했듯이 제퍼디는 단순히 답을 알면 승리하는 것이 아니라, 부저를 빨리 눌러야만 답을 말할 기회를 얻을 수 있었다. 그리고 켄 제닝스와 브래드 러터는 부저를 누르는데 매우 뛰어난 감각을 가지고 있었다.

제퍼디 측에서는 왓슨이 전기적인 신호를 보내어서 부저를 누르면, 물리적으로 부저를 손으로 눌러야 하는 인간에게 너무 불리하다고 생각했다. 때문에 왓슨도 일종의 ‘손가락’에 해당하는 별도의 하드웨어를 만들어서, 물리적으로 부저를 누르도록 했다. 왓슨 측은 이것도 불만이었다. 인간 참가자는 문제의 낭독이 끝나고, ‘제퍼디’ 보드에 불이 들어오는 순간을 예측해서 미리 버저를 누를 수 있었다.

결국 왓슨은 ‘손가락’을 달았으며, 답을 찾았다고 생각하면 세 번 연이어 단추를 눌렀다. IBM 측의 계산에 따르면, 이 때문에 왓슨은 8 밀리 초가 더 걸리게 되었다. 나중에 켄 제닝스는 옆 연단에 있는 ‘왓슨의 손’이 세 번 연속 스타카토로 버저를 누를 때마다 “터미네이터 사운드 트렉을 듣는 기분이었다”고 술회하기도 했다.

인간 챔피언과 왓슨의 최종 결과

본 경기가 진행되기 전날과 당일에는 켄 제닝스와 브래드 러터, 왓슨이 총 세 번에 걸쳐서 연습 경기가 진행되었다. 이 연습에서 세 참가자는 사이좋게 한 번씩 승리했다. 그리고 본 게임에서는 왓슨이 2연속 경기에서 전반부와 후반부 모두를 석권하며 7만 7,147달러를 기록하여 우승하였고, 제닝스는 2만 4,000달러로 2위를, 러터가 2만 1,600달러로 근소하게 3위를 기록했다.

왓슨이 본 경기에서도 순탄하게 이긴 것 같지만, 꼭 그렇지도 않았다. 잘 알려지지 않았으나, 켄 제닝스는 마지막에 ‘인간적인 실수’로 기회를 날려먹었다. 게임 막바지에 제닝스는 2만 달러로 왓슨에 2,000달러 앞서 있었다. 이때 문제의 선택권은 제닝스가 가지고 있었는데, 데일리 더블을 고를 수 있으면 더 앞서 나갈 수 있었다. 제닝스의 이론에 따르면 제퍼디에서 데일리 더블이 같은 액수로 두 번 나오지 않는다. 제닝스는 첫 번째 데일리 더블이 1,600달러에서 나왔던 것으로 기억하고 있었기 때문에, 1,200달러 짜리의 문제를 선택했다.

그런데 알고 보니 제닝스는 거꾸로 기억하고 있었다. 결국 이 문제를 맞힌 왓슨이 1,600달러 문제를 골랐고, 이 문제가 결국 데일리 더블이었다. 데일리 더블이 선택되었다는 특유의 ‘스타워즈’ 총소리가 울려 퍼질 때 IBM 연구원들은 환호를 질렀다. 그 순간 켄 제닝스가 왓슨을 역전할 가능성이 없어졌기 때문이다. 단순한 기억력에 대해서라면 인간이 컴퓨터를 따라올 수 없다. 제닝스는 이후 몇 년을 두고 이 실수에 대해서 후회했다고 술회한 바 있다.

마지막 문제인 ‘파이널 제퍼디’ 문제에 답하면서, 켄 제닝스는 정답 아래에 심슨 가족의 대사를 인용하여 “새로운 컴퓨터 절대군주의 등장을 환영하는 바입니다 (I for one welcome our new computer overlords)”라고 썼다. 또한 그는 게임이 끝난 직후 ‘슬레이트(Slate)’에 기고한 글에서 다음과 같이 밝혔다.

“20세기에 새로운 조립 라인 로봇에 공장의 직업들이 사라졌듯이, 브래드와 나는 새로운 종류의 ‘사고하는’ 기계에 의해서 밀려난 최초의 지식근로자가 될 것입니다. ‘퀴즈쇼 참가자’는 아마도 왓슨에 의해서 밀려난 최초의 직업이라고 할 수 있겠지만, 나는 이것이 결코 마지막은 아닐 것이라고 확신합니다.”

켄 제닝스의 말은 얼마 지나지 않아서 옳았음이 드러났다. 왓슨의 도전은 제퍼디에서 끝나지 않았다. 왓슨이 그다음 도전 상대로 고른 것은 바로 뉴욕의 암 센터로 들어가서 의학을 학습하여 폐암을 치료하겠다는 것이었다.

(참고로 상기의 제퍼디에 참가하기 위한 왓슨의 개발 이야기는, 스티븐 베이커의 ‘왓슨 인간의 사고를 시작하다 (원제: Man vs Machine)’에서 자세하게 다뤄지고 있다. 별도의 참조 문헌이 없는 한 , 왓슨의 제퍼디 관련 부분은 이 책의 내용을 인용했음을 밝힌다. 왓슨의 초기 개발 이야기가 매우 상세하게 다뤄지고 있는 흥미로운 책이라 관심 있으신 분은 읽어볼 가치가 있을 것이다. 다만 제퍼디 우승 시점까지만 다루기 때문에, 의료 분야 진출에 대해서는 거의 다뤄지지 않는다.)

왓슨, 병원에 가다

제퍼디 이후 왓슨은 본격적으로 의료 분야에 진출하여 암 환자의 진료에 도전하겠다고 발표한다. 제퍼디 당시에는 알려지지 않았지만, 2011년 5월에 발표된 포브스 기사를 보면 이미 18개월 전부터 메릴랜드 대학의 엘리엇 시걸(Eliot Siegel) 박사팀과 협력하여 각종 의학 논문, 교과서 등의 연구 결과들, MD앤더슨이나 존스홉킨스 등에서 나온 질병 데이터를 학습하고 있다고 언급되어 있다. 앞서 언급한 ‘왓슨 인간의 사고를 시작하다’에도 자세하지는 않지만, 제퍼디를 준비하던 당시에도 의료 분야에도 접목될 수 있다는 가능성은 왓슨의 초기부터 언급되고 있었던 것 같다.

이후 2012년 3월 왓슨은 세계에서 가장 오래되었고, 가장 큰 사립병원인 뉴욕의 ‘메모리얼 슬론 캐터링 암센터(Memorial Sloan Kettering Cancer Center, 이하 MSKCC)’와 협업을 통해 암의 치료에 도전하겠다고 밝힌다. 실제 의사들이 어떻게 암 환자를 진료하고, 진단을 내리며, 치료에 대한 의사 결정을 학습하기 위한 것이었다. IBM과 MSKCC는 공동연구를 통해 처음에는 폐암을 시작으로 유방암 등 다른 암종으로 범위를 넓혀가겠다는 계획을 발표했다.

그렇게 개발이 시작된 것이 바로 ‘왓슨 포 온콜로지(Watson for Oncology)’이다. 2013년 2월에 IBM의 보도자료에 따르면, 당시까지 왓슨은 암과 관련된 60만 건의 의학적 근거, 42개의 의학 학술지와 임상 시험 데이터로부터 200만 페이지 분량의 자료를 학습했다고 나온다. 또한 MSKCC의 의사들이 1,500여 개의 실제 폐암 치료 사례와 25,000개의 치료 사례 시나리오, 의사들의 진료 기록, 검진 결과 등 ‘자연어’로 되어 있는 데이터를 학습시켰다고 나온다. 그 이후로 14,700 시간 동안 간호사들이 주의 깊게 수작업으로 왓슨의 학습에 대한 수정을 거쳤다고 한다.

사실 숫자만 보아서는 엄청나게 방대한 자료를 학습했다는 것 외에는 감이 잘 오지 않는 숫자이긴 하다. 3년 반 정도가 지난 2016년 9월 가천대 길병원에서 이 왓슨 포 온콜로지를 도입할 당시의 자료에 따르면, 300개 이상의 의학 학술지, 200개 이상의 의학 교과서, 1500만 페이지의 의료 정보를 학습했다고 언급되어 있어서, 학습한 데이터의 크기는 더 증가한 것을 알 수 있다.

길병원 도입 당시에도 왓슨 포 온콜로지는 폐암뿐만 아니라, 유방암, 대장암, 직장암, 위암에 적용 가능하도록 개발되었다. 더 나아가 2017년 6월 보도에 따르면, 왓슨 헬스 측은 연내로 왓슨 포 온콜로지를 총 12개 암종에 적용 가능하도록 발전시켜, 전 세계에서 발병하는 암의 80%를 커버할 수 있을 것이라고 밝혔다.

왓슨은 현재 세계적으로 여러 병원에 꾸준히 새롭게 도입되고 있다. 2017년 중반 기준으로 세계적으로 수십 개 정도의 병원에 채택된 것으로 보인다. 왓슨 포 온콜로지는 2014년 태국의 범룽랏 국제병원(Bumrungrad International Hospital)에 도입되었으며, 2015년 12월에는 인도의 마니팔 병원(Manipal Hospital)에, 2016년 8월에는 항저우 코그니티브케어(Hangzhou CognitiveCare)를 통해서 중국의 21개 병원에 도입되었다.

한국에는 2016년 9월에는 가천대학교 길병원의 도입을 시작으로, 2017년에는 부산대학교병원, 대전의 건양대학병원, 대구의 계명대 동산병원과 대구가톨릭병원에 연달아 도입되었다. 부산대학병원은 국내에서는 유일하게 왓슨 포 온콜로지 뿐만 아니라, 유전체 분석 관련 서비스인 왓슨 지노믹스도 도입했다.

관련 포스팅: 길병원의 IBM Watson 도입에 거는 기대와 우려

앞서 언급했듯이, 왓슨 포 온콜로지는 왓슨 지노믹스, 왓슨 임상시험 매칭과 함께 왓슨이 의료 분야에 적용되고 있는 세 서비스 중 하나이다. 이번에는 가장 많이 사용되고, 화제가 되고 있는 왓슨 포 온콜로지를 둘러싼 이슈를 중심으로 살펴보도록 하겠다. 다만 다른 두 서비스에 대해서는 다른 챕터에서 언급한 바 있으므로 아래를 참고하자.

왓슨 지노믹스 관련: 디지털 의료는 어떻게 구현되는가 (15) 인공지능
왓슨 임상 시험 매칭 관련: 디지털 기술은 임상 연구를 어떻게 혁신하는가 (1)

왓슨 포 온콜로지란 무엇인가

그렇다면 왓슨 포 온콜로지는 과연 어떤 기능을 가지고 있을까. 환자의 진료 기록과 의료 데이터를 바탕으로 가능한 치료법(treatment plan option)을 권고해주는 것이 왓슨 포 온콜로지의 기능이다. 예를 들어, 해당 암 환자의 진료 기록, 검사 기록, 유전 정보, 수술 가능 여부 등을 입력하면, 이를 기반으로 치료법을 권고해주는 것이다. 특정 종류의 항암제 혹은 항암제의 조합, 방사선 치료, 호르몬 치료 등을 권고해준다.

왓슨 포 온콜로지는 환자의 데이터를 입력해야 권고안을 도출할 수 있다

초록/주황/빨강으로 분류된 치료법 권고안

각 치료 권고안에 대한 근거 자료

중요한 것은 치료법을 초록색, 주황색, 빨간색의 3단계로 권고한다는 것이다. 초록색은 추천하는(recommended) 치료법, 주황색은 고려해볼 수 있는(for consideration) 치료법이며, 빨간색은 권고하지 않는 (not recommended) 치료법이다. 또한 각각의 권고된 치료법마다 근거 버튼이 달려 있다. 이것을 클릭하면, 왜 이러한 치료법을 권고하는지에 대해서 왓슨이 학습했던 관련 논문, 임상 연구 등의 결과, 가이드라인 등의 근거 자료들을 보여준다. 만약에 의사가 처음 보는 치료법이라고 할지라도, 이러한 근거 자료에 기반하여 해당 권고안이 과학적, 의학적으로 설득력이 있는지를 고민해볼 수 있다.

이러한 형식을 통해서 의사에게 결과를 알려준다는 것은 매우 중요하며, 이와 관련된 많은 이슈가 야기된다. 뒤에서 이와 관련된 논의를 반복하게 될 것이므로 꼭 기억하고 넘어가자.

엄밀히 말해 왓슨 포 온콜로지는 진단(diagnosis)을 해주는 것은 아니다. 치료법을 권고하여 의사의 진료를 보조하는 것이다. ‘진단’과 ‘진료’에는 큰 차이가 있다. 의심되는 조직이 암인지 아닌지를 진단하기 위해서는 의심 조직을 떼어 내어 조직검사를 해야 한다. (적어도 아직까지는) 왓슨 포 온콜로지에는 병리과에서 시행하는 병리 데이터의 분석을 통한 진단 기능은 포함되어 있지 않다. (참고로 조직 검사를 통해 암을 확진하는 것은 ‘의료 인공지능의 두 번째 유형’에서 자세히 다룰 것이다)

또한 진료와 진료를 보조하는 것에도 큰 차이가 있다. IBM 측의 발표를 들으면 항상 빠지지 않는 것이 바로 ‘왓슨은 의사를 대체하지 않는다. 의사의 역할을 강화(augment) 하는 것이 왓슨의 역할이다’는 것이다. IBM은 외부 발표에 대해서 전 세계적으로 동일한 가이드라인을 철저하게 지키는 것으로 알려져 있다. IBM의 관계자의 왓슨 관련 발표에는 한국에서든 미국에서든 이 표현이 반드시 들어간다. 이것으로 미루어보아, 의료계에서 IBM이 왓슨의 의사와의 관계 및 포지셔닝을 어떻게 하려는지를 유추해볼 수 있다.

왓슨 포 온콜로지의 특징

IBM이 주장하는 왓슨의 강점 중의 하나는 매일 같이 쏟아져 나오는 엄청난 분량의 암과 관련된 연구 논문들, 임상시험 결과들을 환자의 치료에 빠르게 반영할 수 있다는 것이다. IBM에 따르면 2015년 한 해동안 출판된 종양학 논문은 44,000개이다. 이는 매일 122개의 새로운 논문이 발표된다는 이야기다. 이는 10분에 한 편씩 논문을 읽는다고 가정해도, 주말 없이 매일 20시간 이상씩 읽어야만 따라갈 수 있는 양이다. 심지어 IBM의 자료에는 매일 29시간씩 논문을 읽어야만 따라갈 수 있다고 언급하고 있기도 하다 [ref 1, 2]. 즉, 인간의 능력으로 따라가기에는 이미 불가능한 수준의 연구 결과들이 쏟아진다는 것이다.

이렇게 최신 연구 결과를 치료법 선택에 빠르게 반영할 수 있다는 것이 IBM이 주장하는 왓슨의 강점이라고 할 수 있다. 하지만 이는 양날의 검과 같다. 뒤에서 자세히 논의하겠지만, (정확한 업데이트 주기는 알 수 없으나) 지속적으로 연구 결과를 업데이트하면서 진화한다는 왓슨의 특징은 이를 규제적으로 정의하거나, 정확성, 효과성, 임상적 유용성 등을 증명하는 데 있어서 적지 않은 근본적 문제를 야기한다.

한 가지 유의할 점은 왓슨의 학습이 결코 ‘자동으로’ 이뤄지지 않는다는 것이다. 왓슨이 제퍼디에서 활용한 자연어 처리 기술을 기반으로 하였기 때문에, 논문도 자동으로 읽고 스스로 판단하여 암 환자 진료의 근거로 삼을 것이라고 생각하기 쉽다. 하지만 실제로는 왓슨을 훈련시키는 과정에서 수작업 교정에 많은 시간을 사용한 것으로 알려져 있다.

기계학습의 기본적인 원칙은 ‘가비지-인, 가비지-아웃 (garbage-in, garbage-out)’이다. 즉, 좋지 않은 데이터로 학습시키면 좋지 않은 결과가 나온다. 훈련시킬 때의 데이터의 양과 질이, 결과적으로 인공지능의 성능을 좌우한다고 해도 과언이 아니다. 일례로 제퍼디를 준비할 당시에, 왓슨에게 구어체의 학습을 목표로 속어나 은어 등이 담긴 ‘The Urban Dicationary’를 학습시켰던 적이 있다. 그 결과 제퍼디 답지에 욕지거리가 포함되는 경우들이 있었기 때문에 결국 개발자들은 그 데이터를 삭제할 수밖에 없었다 [ref 1, 2]. 강한 인공지능이 구현되지 않는 이상, 아직까지 인공지능을 학습시킬 때 어떤 데이터가 좋은 데이터이며, 나쁜 데이터인지는 개발하는 사람이 판단할 수밖에 없다.

또 한 가지, 왓슨은 클라우드 형태로 서비스된다. 흔히 말하는 SaaS (Software as a service) 방식이다. 즉 병원 내에 물리적으로 서버를 들여놓는 것이 아니라, 의사가 왓슨 클라우드에 접속해서 데이터를 클라우드에 업로드하고 결과도 온라인으로 받아보게 된다. 왓슨의 사용료 역시 SaaS 모델에 기반하여, 건당 사용료를 받든 지, 정기적인 구독료를 내는 등의 몇 가지 지불 모델 중에 하나를 선택하는 것으로 알려져 있다. (개별 병원과 IBM의 계약은 비공개이므로 한국 병원들이 어떤 지불 모델을 택했는지 세부사항은 공개되어 있지 않다)

이러한 속성 때문에 특정 환자에 대한 왓슨의 판단을 받아보기 위해서는 그 환자의 데이터를 IBM의 클라우드로 전송해야 한다. 환자 개인의 동의를 받고, 개인 식별자가 포함된 정보는 아니지만, 이렇게 국내의 의료 데이터가 결과적으로 해외로 전송된다는 부분이 문제의 소지가 있다고 지적되기도 한다.

자. 그런데 이 왓슨 포 온콜로지를 어떻게 봐야 할까. 몇 가지 어려운 이슈들이 있다.

이슈 1. 왓슨은 의료기기일까

일단 왓슨 포 온콜로지가 과연 규제적으로 의료기기로 분류되어야 할지, 비의료기기로 분류되어야 할지의 이슈에 대해 살펴보자. 만약 왓슨 포 온콜로지와 같은 임상 의사결정 지원시스템(CDSS, Clinical Decision Support System)이 의료기기라면 정확성, 안전성 등을 검증받고 FDA나 식약처의 의료기기 인허가 과정을 거쳐야만 할 것이다. 만약 비의료기기로 분류된다면 인허가 과정이 필요 없다.

이는 매우 애매한 문제다. 필자는 강의에서 왓슨 포 온콜로지에 대해서 설명하고, 청중에게 이 시스템이 의료기기로 분류되어야 할지, 아니면 비의료기기로 분류되어야 할지 의견을 물어보곤 한다. 이 문제에 대해서 청중들의 답변은 항상 양쪽으로 갈리곤 한다. FDA와 식약처의 결정은 이미 내려졌지만, 답을 이야기하기 전에 독자들도 한 번 생각해보도록 하자.

사실 필자는 식약처 첨단의료기기과 전문가 협의체의 일원으로 이 문제를 함께 논의했다. 해당 협의체에서는 산업계, 학계, 의료계에서 전문가들이 모여서 이 문제에 대해 열띤 토론을 몇 달간 벌였다. 결론이 내려지기는 하였으나, 그 과정에서는 전문가들 사이에서도 이 부분에 대해서 의견이 상이했던 부분이 있다. 실제로 이 이슈에 대해서 미국 FDA와 식약처의 판단과 EU의 규제기관의 판단이 다르게 나왔다.

일반적으로 의료기기의 여부는 목적과 위해도라는 두 가지를 기준으로 정해진다. 왓슨 포 온콜로지의 목적은 진료나 진단, 치료를 직접 하지 않고, 의사를 보조하는 목적이다. 또한 내어놓은 결과를 직접 환자에게 적용하지 않고, 의사가 그 결과를 검토하고, 참고하여 의사가 치료법을 결정하게 되므로 위해도 역시 높지 않다고 볼 수 있다. 현재의 식약처나 FDA의 결정은 왓슨 포 온콜로지가 의료기기가 아니라는 것이다.

몇몇 기사에 따르면, 복지부 관계자는 “(의사들의 왓슨 활용은) 평소 의사들이 진단과 처방을 내림에 있어 관련 서적과 논문 등을 참고하는 것과 같은 성격으로 봐야 한다”며 “때문에 의료법상 왓슨을 사용하는 것은 문제가 없다는 생각”이라고 언급하기도 했다. 즉, 보다 발전된 의학교과서의 개념이라는 것이다.

이러한 내용이 2016년 12월에 발표된 “빅데이터 및 인공지능(AI) 기술이 적용된 의료기기의 허가·심사 가이드라인(안)“에 결국 반영되었다(이 가이드라인이 필자가 속한 식약처 전문가 협의체에서 내어놓은 것이다). 비의료기기의 예시에는 “전자의무기록, 의료영상, 생체신호를 이용하여 문헌을 검색하고 문헌의 내용(진단법, 치료법 등)을 요약하여 제시하는 소프트웨어”라는 것이 포함되어 있다. 이것이 결국 왓슨 포 온콜로지를 의미한다.

왓슨 규제의 근본적 어려움

그럼에도 불구하고, 나는 몇 가지 면에서 왓슨이 의료기기인지 여부를 판단하고 규제하기 위해서 근본적인 어려움과, 현실적인 문제가 있다는 것을 지적하고자 한다. 비의료기기로 분류하는 경우에도 몇 가지 중요한 문제가 있으며, 그렇다고 의료기기로 분류하더라도 관리가 어려운 부분이 있다는 것이다. 이는 아마도 왓슨 포 온콜로지와 같은 시스템이 지금까지의 임상 의사결정 지원시스템과도 다른 부분이 있기 때문이다.

일단 왓슨이 의료기기의 성격을 띤다고도 볼 수 있는 것이 바로 결과를 제시하는 양식 때문이다. 왓슨 포 온콜로지는 단순히 가능한 치료법을 권고하는 것에서 더 나아가, 치료법에 대한 우선 순위까지도 매겨준다. 앞서 언급했던 바와 같이 치료 권고안을 추천(초록색) – 고려(주황색) -비추천(빨간색)의 3단계로 점수를 매겨주기 때문이다. 다양한 치료법 중에서 이렇게 우선 순위를 매겨준다는 것은 그 자체로 의료적 의사결정이나, 의료 행위로 봐야 하지 않을까? 교과서는 개별 환자에 맞게 치료법의 우선 순위를 평가해주지는 않지만, 왓슨 포 온콜로지는 이 부분을 스스로 판단한다.

비록 최종적인 의사결정은 의사가 내린다고는 하지만, 왓슨 포 온콜로지의 권고안이 의사의 치료법 결정에 영향을 줄 가능성이 전혀 없다고 할 수 없을 것이다. (만약에 영향을 전혀 주지 않는다면 왓슨을 사용할 이유가 없을 것이다.) 그렇다면 왓슨이 제시하는 치료 권고안의 정확성이 중요하다고 할 수 있다. 그럴 가능성은 낮겠지만 극단적으로 가정하여, 왓슨 포 온콜로지가 모든 경우에 부정확한 치료 권고안을 준다면 환자에게 위해가 가지 않는다는 법은 없다. 이러한 것을 고려하면 왓슨에게는 분명히 의료기기적인 성격이 전혀 없다고는 하기 어려울 것이다.

하지만 설사 의료기기로 분류한다고 할지라도 이를 규제하고 관리하기가 매우 어렵고 까다롭다. 바로 왓슨 포 온콜로지가 끊임없이 변화하고 진화하기 때문이다. 앞서 언급했듯이 IBM이 주장하는 왓슨 포 온콜로지의 가장 큰 장점 중의 하나는 최신 연구 결과를 반영한다는 것이다. IBM의 보도자료에서 직접 밝혔듯이 하루에 100개 이상의 종양학 논문이 쏟아져 나오므로, 정확한 업데이트 주기는 알 수 없지만 최신 논문들을 최대한 빠르게 반영하려고 할 것이다.

그런데 이런 논문이 반영됨에 따라서, 왓슨 포 온콜로지는 계속해서 변화한다. 문제는 이렇게 논문 등의 근거 자료가 업데이트되면, 판단 근거가 달라지므로 동일한 환자를 대상으로 내어놓는 치료 권고안에도 변화가 생길 수도 있다는 것이다. 예를 들어, 어제와 오늘, 그리고 내일의 왓슨 포 온콜로지는 완전히 동일한 시스템이라고 보기 어려울 수 있다는 것이다.

연구 결과의 최신 반영 이외에 왓슨 포 온콜로지가 진화하는 또 하나의 경로가 있다. 바로 실제 이 시스템을 활용하는 의료진의 의사 결정을 반영하는 것이다. 예를 들어, 길병원에서 의료진이 왓슨 포 온콜로지를 사용하면서 여러 치료 권고안 중에 어떤 것을 선택했는지가 피드백 되게 된다. 클라우드 형식으로 사용하므로 왓슨이 의료진의 결정을 자연스럽게 알 수밖에 없는 것이다. 만약 왓슨 포 온콜로지가 제시한 치료 권고안 중에 ‘비추천’을 의료진이 선택했다면, 왓슨의 입장에서는 그 결정에 대해서 더 알아보고 필요한 경우 왓슨의 판단에 그러한 결정을 반영하는 것도 필요할 것이다.

그런데 그 결정을 누가 어떤 기준으로 판단하여, 얼마나 자주 반영할까? 예를 들어, 왓슨이 내어놓은 결과가 더 타당했음에도, 실력이 없는 의사가 ‘고려’나 ‘비추천’을 고를 수 있고, 단순 실수로 혹은 IBM을 음해하기 위해 의도적으로 ‘비추천’을 골랐을 수도 있다 (환자의 안전을 담보하는 의료기기를 규제하기 위해서는 만약의 경우라도 고려할 수밖에 없다). 즉, 의료진의 판단이 타당하며 왓슨에 다시 반영할 가치가 있는지를 누군가는 평가해야 한다는 것이다. (이 부분에 대해서 필자가 왓슨 헬스의 최고 의료 책임자 (Chief Health Officer)인 큐 리(Kyu Rhee) 박사님, 최고 의료 부책임자 (Deputy Chief Health Officer)인 앤드류 노든 박사등을 직접 만나서 이야기해본 결과, MSKCC와 IBM의 팀이 이 부분을 결정한다고 한다.)

중요한 것은 위와 같이 새로운 연구 결과의 반영이든, 실제로 왓슨을 사용하는 의료진의 의사 결정의 반영이든, 왓슨이 끊임없이 변화한다는 것이다. 그런데 만약에 왓슨 포 온콜로지가 의료기기로 분류되었을 경우, 기존의 의료기기 관리 기준에 따른다면 내부 알고리즘이나 작동 원리에 변화가 있다면 변경 인허가를 새롭게 받아야 한다. 만약에 기존의 인허가받은 혈압계라고 하더라도 변경된 방식으로 새롭게 혈압을 측정한다고 할 경우, 인허가를 새롭게 받지 않을 수 없다.

그렇다면 왓슨 포 온콜로지의 경우에도 연구 결과가 반영되거나, 의료진의 의사 결정이 반영될 때마다 정확성을 새롭게 검증하고, 매번 의료기기 인허가를 다시 받아야 할까? 예를 들어, 매일 업데이트된다면, 매일 변경 인허가를 새롭게 받아야 하는가? 만약 이렇게 기존의 의료기기의 규제와 관리에 대한 잣대를 그대로 들이대면, 왓슨 포 온콜로지와 같은 시스템은 의료기기로서는 아예 사용이 불가능할 수도 있다. 그렇기 때문에 왓슨을 의료기기로 관리하는 것에도 근본적인 어려움이 있다는 것이다.

미국에서도 왓슨 포 온콜로지를 특정하지는 않았으나, 이러한 유형의 시스템은 의료기기의 범위에 포함되지 않는 것으로 보고 있다. 2016년 12월에 발표된 21세기 치유법(21st Century Cures Act)에는 아래와 같은 소프트웨어는 의료기기에서 제외한다고 명시하고 있다. (SEC. 3060. “CLARIFYING MEDICAL SOFTWARE REGULATION.”)

환자의 의료 정보 또는 임상 연구 결과나 가이드라인 등의 의료 정보를 표시, 분석, 출력하는 소프트웨어
질병 예방, 진단, 치료에 관해 의료 전문가에게 권고 사항을 지원하거나 제공하는 소프트웨어로
의료전문가가 그러한 권고의 근거를 독립적으로 검토할 수 있도록 제작된 소프트웨어.

다만, 의료 영상이나 체외 진단 기기로부터 나온 신호, 신호 획득 시스템으로부터 나온 신호나 패턴 등을 획득, 처리, 분석하기 위한 경우에는 의료기기로 분류한다고 결정하였다. 다만, 위의 사항에 해당하는 비의료용 소프트웨어라고 할지라도 다음에 관한 새로운 사실이 발견될 경우 FDA 관할 하에 둘 수 있음을 명시하고 있다.

소프트웨어가 의도한대로 작동하지 않아 환자에게 위해를 끼칠 가능성이 있는 경우
소프트웨어가 의료 전문가의 임상적 판단을 보장하지 않는 경우
의료 전문가가 정보 또는 치료 권고의 근거를 검토할 수 있는 합리적 기회가 부여되지 않는 경우
본래 제조자가 의도한 사용자와 사용 환경이 아닌 경우

이슈 2. 왓슨은 과연 얼마나 정확한가

혹시 왓슨 포 온콜로지가 내어 놓는 치료 권고안이 얼마나 정확한지 알고 있는 독자가 있는가? 그 정확성에 대해서 알고 있는 사람은 아직 아무도 없을 것이다. 왜냐하면 왓슨 포 온콜로지의 정확성과 효용성을 검증하기 위한 정식 임상 연구가 진행된 적이 없고, 이것이 의료계에서 인정하는 학술지에 논문으로 발표된 적도 전무하기 때문이다. 다만 암과 관련된 학회에서 초록의 형태로 병원별로 왓슨을 사용한 결과가 몇몇 발표된 정도다. 그나마 이런 ‘사용 결과’의 경우에도 수백 명 이상의 환자 대상의 결과가 발표되기 시작한 것은 왓슨 포 온콜로지가 여러 병원에 도입된 이후인 2016년 12월 정도부터였다. 이 연구의 결과들은 우리가 고민해야 할 여러 이슈들을 던져준다.

필자가 여러 칼럼이나 강의 등에서 강조한 바 있지만, 그 유명세에 비해서 IBM 왓슨 포 온콜로지의 암 환자 진료의 정확성은 아직 증명된 바 없다. MSKCC라는 세계 최고의 암 병원에서 함께 개발했으니, 어느 정도의 정확성은 갖추고 있으리라고 추측을 해볼 수는 있다. 하지만 일반적으로 새로운 의료 기기나 신약이 출시되는 경우 검증받는 수준으로 정확성, 임상적 유효성, 효과성을 공개하거나 증명된 경우는 거의 없다. 또한 대규모 임상 연구의 결과가 아니라고 하더라도, 왓슨 포 온콜로지를 통해서 실제로 치료한 개별 환자의 증례 보고(case report)도 전무하다.

비록 FDA와 식약처는 왓슨 포 온콜로지가 의료기기에 해당하지 않는다고 판단하였지만, 그럼에도 불구하고 필자는 어떤 식으로든 왓슨 포 온콜로지의 정확성, 효과성에 대한 의학적인 검증이 필요하다고 본다. 앞서 강조하였다시피 아무리 이 시스템에서 도출된 치료 권고안을 의사가 한 번 더 검토한다고 할지라도, 결과가 부정확할 경우 환자에게 미치는 위해도가 전혀 없다고 할 수 없기 때문이다.

뿐만 아니라, ‘인공지능이 암 환자를 진료한다’는 주장에 이끌려 많은 환자들이 왓슨을 도입한 병원을 찾고 있는 것이 현실이기도 하기 때문이다. 2017년 1월 조선일보가 보도한 바에 따르면, 길병원에서 2016년 11월부터 진료한 100여 명의 환자 중에서, 의사와 왓슨의 판단이 다를 경우에 환자들은 모두 의사보다 왓슨을 더 신뢰했다고 한다.

필자는 이러한 환자의 판단이 당연히 합리적이지 않으며, 근거가 없음을 지적하고 싶다. 정확도가 검증되지 않은 왓슨을 의사보다 더 신뢰하는 환자가 있다는 것은 결국 ‘4차 산업혁명’과 같은 일종의 버즈워드(buzz word)의 영향 때문이라고 밖에 볼 수 없는 것이다. 하지만 현실적으로 이러한 환자들의 선호를 막기는 쉽지 않은 부분이 있다. 그렇기 때문에 왓슨의 정확성에 대한 최소한의 검증은 필수적이라고 본다.

우리는 왓슨 포 온콜리지가 정확하다면 얼마나 정확한지, 정확하지 않다면 얼마나 정확하지 않은지를 알아야 한다. 또한 이러한 시스템이 의료적으로 효용이 있는지, 있으면 얼마나 있는지에 대해 파악하는 것이 필요하다. 이러한 근거가 있어야만 비로소 우리가 왓슨을 진료실에서 어떻게 활용하는 것이 좋을지에 대한 원칙을 세울 수 있기 때문이다. 지금은 병원에서 왓슨을 어떤 방식으로 진료 프로세스에 녹여낼지에 대한 원칙도 없고, 근거가 없기 때문에 그 원칙을 세울 수도 없는 상황이다.

왓슨의 정확성에 대한 오해

그런데 국내 언론에서도 자주 인용되는, 왓슨의 정확성에 대한 아래와 같은 문구가 있다.

“왓슨의 진단 일치율은 대장암 98%, 직장암 96%, 방광암 91%, 췌장암 94%, 신장암 91%, 난소암 95%, 자궁경부암 100% 등이다.”

국내의 왓슨 기사를 보면 하나같이 이 문구가 거의 빠지지 않고 무분별하게 인용되고 있다. 심지어는 왓슨을 사용하는 국내 의료진의 발표에서도 이 연구 결과가 인용된 적도 있다. 하지만 필자는 이 결과를 인용하여 왓슨의 정확도를 논하는 것이 부적절하다고 본다. 해당 연구를 조금만 더 들여다보면 이 연구가 충분히 엄격한 조건에서 진행된 것이 아니라는 점이 드러나기 때문이다.

국내 언론에서도 많이 인용하는 MSKCC의 2014년 ASCO 발표 내용

이 연구는 2014년 미국 임상 종양학회(ASCO)에서 MSKCC가 발표한 초록을 인용한 것이다. 그런데 이 파일럿 연구에는 큰 약점이 있다. 이 초록의 결과에는 다음과 같이 언급되어 있다.

“같은 학습데이터를 반복 테스트하여 도출된 정확도가 암종에 따라서 (처음 테스트했을 때의) 5%에서 100%까지 높아졌다. (Average precision, retesting with the same training data, has improved from 5% to nearly 100% depending on the cancer type.)”

설명이 좀 명확하지는 않지만, 왓슨을 학습시켰던 데이터와 테스트하였던 데이터를 동일한 것을 반복해서 사용했다는 것을 의미하는 것으로 보인다. 즉, 환자 A, B, C 의 사례들로 왓슨을 가르친 이후에, 다시 A, B, C 환자를 정확하게 진단하는지를 테스트해서 나온 결과라는 것이다. 일반적으로 기계학습 연구에서는 학습 데이터(training dataset), 검증 데이터 (validation dataset), 테스트 데이터(test dataset)을 엄격하게 구분한다. 학습시킬 때 사용하지 않은 새로운 데이터로 테스트해야만 해당 인공지능의 실력을 검증할 수 있기 때문이다.

따라서 이 연구는 왓슨이 암 환자에 대해서 학습 가능하다는 가능성 정도를 본 것일 뿐, 왓슨의 정확도를 설득력 있게 보여준다고 하기는 어렵다. 왓슨이 실제 의료 현장에서 적용될 수 있을지 여부를 이야기 수 있을 만큼 충분히 엄격한 연구라면, 왓슨의 학습에 사용되지 않은 완전히 새로운 환자 사례에 적용시켜야 한다. 이러한 이유에서 필자는 강의 등에서 이 연구 결과를 인용하지 않는다. 신문 기사를 볼 때에 예의 “대장암 98%, 직장암 96% …”라는 문구가 나오면, “이 기자님은 조사를 충분히 하지 않으셨구나”하고 생각하게 된다.

MD앤더슨의 연구 결과 (ASCO 2014)

필자가 알기로 2016년 말까지 왓슨의 실력을 알 수 있는 믿을만한 연구 결과는 세계 최대의 암센터인 MD엔더슨의 연구진이 2014년 ASCO (미국 임상 종양 학회)에서 발표한 초록에 실린 것이 유일했다. 당시에 MD앤더슨의 연구진들이 소규모 백혈병 환자들에 대해서 왓슨을 개발하고, 테스트한 결과를 발표한 것이다.

참고로 MSKCC와 전통적인 라이벌인 MD앤더슨은 각자 별도로 IBM과 공동연구를 진행하면서 암 환자를 진료하기 위한 인공지능을 따로 개발해나갔다. MSKCC가 왓슨을 이용하여 폐암 환자의 진료를 최초 목표로 개발을 시작한 시스템은 앞서 계속 언급해온 왓슨 포 온콜로지이다. 현재 암 환자 진료에 대해서 IBM이 사업을 진행하는 것은 모두 이 브랜드라고 보면 된다.

반면 MD앤더슨은 IBM과 OEA(Oncology Expert Advisor)라는 완전히 별개의 암 진료 인공지능의 개발을 진행한 것이다. OEA는 백혈병 환자의 진료를 출발점으로 삼았다. IBM은 ‘우리는 이미 미래에 살고 있다’며 2013년 10월에 이 협력에 대해서 발표한 바 있다.

2014년 미국 임상 종양 학회에서 MD앤더슨이 발표한 초록에서는 OEA가 내어놓은 치료법이 내부 의사들의 판단과 얼마나 일치하는지를 살펴보았다. 400명의 백혈병 환자의 사례를 학습시켜서 개발한 OEA에, 새로운 200명의 백혈병 환자들에 대해서 의사의 결정과 비교해본 것이다.

그 결과 OEA의 추천 치료법이 의사와 일치하지 않는 경우가 2.9%, 의사가 선택한 치료법을 OEA가 추천하지 않은 경우가 0.4% 정도였다. 의사들과의 전반적인 일치도는 82.6% 정도였으며, 이에 대해서 ‘합리적으로 높은 정확도’라고 평가했다. 사실 이 결과는 발표의 초록에는 포함되어 있으나, 어떤 이유에서인지 코이치 타카하시(Koichi Takahashi) 박사의 실제 강의에서는 또 포함되지 않았다.

하지만, 사실 이 결과는 이제 참고하는 것이 무의미하다. 앞서 이야기했듯이 현재 여러 나라의 병원에 도입되고 있는 MSKCC가 개발한 왓슨 포 온콜로지와 이 MD앤더슨의 OEA는 완전히 별개의 시스템이기 때문이다. 특히, 2017년 2월 MD앤더슨과 IBM Watson이 지난 4년여간 이어오던 협력 관계가 끝났다고, 포브스 등 여러 언론들은 보고했다. [ref 1, 2] 이렇게 공동 연구가 끝난 이유에는 여러 추측이 있지만, 이 기사들에 따르면 기술적인 문제라기보다는 비용이나 두 기관 사이의 계약상의 문제로 보고 있다.

아무튼 2016년 말까지 왓슨의 실력에 대해서 그나마 유일한 연구 데이터였던 이 OEA의 연구 결과는 우리가 지금 논의하고 있는 왓슨 포 온콜로지의 정확성을 증명하기 위해 직접적으로 참고하기는 어려워졌다.

인도 마니팔 병원의 왓슨

그러던 지난 2016년 12월, 인도의 마니팔 병원에서 왓슨 포 온콜로지의 정확성을 평가하기 위해서 우리가 참고할만한 최초의 결과를 발표하였다. 과거 3년간 치료받은 유방암, 대장암, 직장암, 폐암 등 4가지 암종의 환자 1,000명에 대해서 의사의 판단과 왓슨 포 온코로지의 판단이 얼마나 일치했는지를 본 것이다. 다양한 암종의 대규모 환자를 대상으로, MSKCC가 아닌 독립적인 병원이 왓슨 포 온콜로지의 진료 성적을 공개한 것은 실질적으로 이 연구가 처음이라고 해도 좋을 것이다.

(참고로 ASCO 2015에서 MSKCC의 의료진이 발표한 초록이 몇 가지 있다. 다만 모두 특정 암에 편중되어 있고, 환자의 수가 충분하지 않거나, 가상의 환자를 대상으로 한 것이기 때문에 자세히 다루지는 않겠다. [ref 1, 2, 3, 4])

인도의 마니팔 병원은 지난 2015년 12월 인도에서는 최초로 왓슨 포 온콜로지를 도입했다. 아시아에서는 태국의 범룽랏 병원 이후로 두 번째다. 국내에서는 다소 생소한 이름이지만, 마니팔 병원은 뱅갈로르를 중심으로 16개의 병원의 네트워크로 이루어진, 총 5,000 병상을 갖추고 연간 20만 명 이상의 암환자를 진료하는 대형 암센터이다.

특히 인도에는 왓슨 포 온콜로지와 같은 진료 보조 인공지능의 니즈가 크다고 할 수 있다. 2015년 도입 당시의 통계를 보면, 인도에는 100만 명의 암 환자가 있으며, 그 수는 빠르게 증가하여 2020년까지 5배가 될 것으로 예상되고 있다. 반면 암 환자의 진료에 필요한 종양내과 전문의는 환자 1,600명 당, 한 명으로 턱없이 부족하다. 이는 미국의 경우 환자 100명 당, 종양내과 전문의 한 명의 비율을 생각하면 의사가 16배나 부족한 셈이다.

이런 상황 때문인지 마니팔 병원에서는 흥미롭게도 왓슨 포 온콜로지의 진료를 원격으로도 서비스하고 있다. 환자가 자신의 진료 기록, 각종 검사 기록 등을 웹페이지에 업로드하면 PDF 파일의 형식으로 마니팔 병원 의사들의 소견과 함께 왓슨 포 온콜로지의 결과를 받아볼 수 있다. 이 서비스의 가격은 9,500루피로, 달러로 환산하면 140불 정도다. IBM의 대변인은 이 서비스가 왓슨에서 직접적으로 나오는 것은 아닌 것으로 보아, 마니팔 병원이 주관하여 왓슨을 이용하여 서비스한다는 것을 알 수 있다.

그러던 지난 2016년 12월 초, 이 병원은 지난 3년간 진료한 1,000명의 암 환자를 대상으로 왓슨 포 온콜로지의 실력을 공개했다. 대상 환자는 네 가지 암종으로, 각각 유방암(638명), 대장암(126명), 직장암(124명), 폐암(112명)으로 구성되어 있다. 왓슨 포 온콜로지를 도입한 지 당시 1년이 지났으며, 연구에서는 ‘지난 3년 동안’ 진료한 환자라고 언급한 것을 보아, 과거 환자들에 대해서 후향적(retrospective)으로 연구한 것으로 볼 수 있겠다. 발표는 ‘2016 샌안토니오 유방암 심포지움(2016 San Antonio Breast Cancer Symposium)’과 싱가폴에서 열린 ‘ESMO Asia 2016 Congress‘ 등에서 이뤄졌다.

앞서 강조했듯이, 왓슨 포 온콜로지에 대해서 MSKCC와 독립적인 다른 병원이 대규모 환자를 대상으로, 진단 실적을 공개한 것은 이번이 처음이다. 더 구체적으로는 아래와 같은 부분에서 최초이며, 의학적으로도 의미가 있다고 할 수 있다.

개발에 반영되지 않은 새로운 환자에 대한 테스트
MSKCC와 독립적인 다른 병원에 의한 테스트
1,000명의 대규모 환자군에 대한 테스트
유방암, 대장암, 직장암, 폐암 등 여러 암종에 대한 테스트

인도 암 환자 1,000명 대상 왓슨의 실력

이 연구에서 마니팔 병원의 암환자 진료와 관련된 여러 진료과의 전문의들이 모인 다학제 진료팀(Manipal multidisciplinary tumour board)의 판단과 왓슨 포 온콜로지의 판단을 비교하였다. 앞서 설명했듯이, 왓슨 포 온콜로지는 치료 권고안을 추천-고려-비추천의 3단계로 내어놓는다는 점을 다시 떠올려보자.

1,000명의 환자에 대해서 마니팔 병원의 다학제 진료팀이 제한 치료법을 기준으로, 왓슨 포 온콜로지가 제시한 치료법 중에 추천, 고려, 비추천의 세 단계의 권고안과 일치하는 비율은 아래와 같았다.

‘추천’과 일치: 50%
‘고려’와 일치: 28%
‘비추천’과 일치: 17%

즉, 추천과 고려에 해당하는 경우를 모두 합하면 약 80%에 달하는 치료 권고안이 의사들의 결정과 일치했다. 이 수치는 앞서 언급한 MD앤더슨의 OEA의 진료 일치도와 거의 비슷한 수치라고 할 수 있다. 또한 추천, 고려, 비추천 모두에 속하지 않는 나머지 5%의 경우에는 의사들이 결정한 치료법을 왓슨 포 온콜로지의 권고안 중에서는 찾을 수 없었다.

초록/주황/빨강으로 분류된 Watson for Oncology 의 치료법 권고안

그런데 문제는 암종별로 왓슨의 치료 권고안과 의사가 결정한 치료의 일치도에 현저한 차이가 드러났다는 것이다. (이 경우에는 ‘추천’ 항목과의 일치율을 본 것이다) 일치율이 가장 높았던 것은 직장암으로 85%가 일치했고, 가장 낮은 것은 폐암으로 17.8%에 불과했다. 더 나아가, 유방암의 경우에는 세부 종류별로도 달랐다. 호르몬 수용체와 HER2 유전자가 모두 음성으로 나오는, 예후가 좋지 않은 것으로 알려진 삼중음성(triple-negative) 유방암의 경우에는 67.9%가 일치했고, HER2 유전자만 음성인 경우에는 35%로 일치도가 낮았다. 또한 비전이성 유방암은 80% 일치하였으나, 전이성 유방암은 45% 밖에 일치하지 않았다.

직장암: 85% 일치
폐암: 17.8% 일치
유방암
- 비전이성 유방암: 80% 일치 / 전이성 유방암: 45% 일치
- 삼중음성 유방암: 67.9% 일치 / 호르몬 수용체 양성, HER2 음성 유방암: 35%

자. 이 결과를 우리는 어떻게 받아들여야 할까. 이 연구의 결과만 놓고 볼 때, 왓슨이 내어놓는 치료 권고안의 의사 대비 정확성이 암종별로 상당히 들쭉날쭉하다는 것이 된다. 특정 암종에 대해서는 80% 이상의 비교적 높은 일치도를 보이지만, 특정 암종이나, 세부 암종에 따라서는 또 50% 에도 미치지 못하는 일치율을 보인다. 심지어 폐암에 대한 치료법 일치율은 20%에도 미치지 못했다. 과연 왓슨의 실력이 정말로 이러하다면, 우리가 이것을 믿을 수 있을까? 혹시 어쩌면 비교대상으로 삼은 의사의 결정이 틀리고 왓슨의 결정이 맞는 것 아닐까? 우리는 이 결과를 어떻게 치료법 결정에 참고하는 것이 좋을까?

ASCO 2017에 보고된 왓슨의 실력

마니팔 병원의 발표 이후, 약 반년 뒤인 2017년 6월에도 비슷한 연구 결과들이 발표되었다. 2017년 6월 초에 시카고에서 열린 미국 임상 종양 학회(ASCO) 2017에서 태국의 범룽랏 병원, 인도의 마니팔 병원, 한국의 가천대 길병원 등 세 병원이 각각 왓슨 포 온콜로지의 치료 권고안과 해당 병원 의료진의 결정이 얼마나 일치했는지에 대해서 초록의 형태로 발표한 것이다.

이 세 병원의 연구 결과들은 세부적으로는 차이가 있지만, 큰 그림에서 보면 우리가 얻을 수 있는 결론은 크게 다르지 않다고 하겠다. 이 결과들을 간략히 살펴보면 아래와 같다. (김치원 원장님의 블로그 포스팅에서도 이 부분들이 자세하게 정리되어 있습니다.)

태국 범룽랏 병원의 경우 2015-2016년에 치료받은 폐암, 유방암, 위암 등 세 암종의 환자 211명을 대상으로 살펴보았다. 이 중에 92명은 과거에 치료했던 환자의 기록을 왓슨 포 온콜로지와 비교해본 후향적 연구였고, 나머지 119명은 새롭게 진료받은 환자의 기록을 왓슨 포 온콜로지가 분석하여 의사와 비교해본 전향적 연구였다. 추천과 고려와의 일치를 기준으로 전체 환자군에 대한 일치도는 83% 였으며, 암종별로 보면 폐암 91%, 유방암 76%, 위암 78% 였다. 후향적으로 분석한 환자와 전향적으로 분석한 그룹의 결과는 비슷했다.

인도 마니팔 병원에서도 상기에 언급한 2016년 12월 발표된 결과에서, 유방암을 제외하고 폐암 112명, 대장암 126명, 직장암 124명에 대한 결과를 다시 발표했다. 암종별로 일치율을 보았을 때 (역시 추천과 고려를 모두 기준으로 하여) 폐암 96.4%, 대장암 81%, 직장암 92.7% 였다. 그런데 세부적인 결과가 약간 다른 부분이 있다. ‘추천’만을 기준으로 한다면 폐암의 일치율은 작년 발표의 17.8%에서 24%로 증가하였다.

2017 ASCO annual Meeting, J Clin Oncol 35, 2017 (suppl; abstr 8527)

또한 이번 발표에는 세 암종에 대해서 원발 조직에 국한(localized)되었을 때와 전이되었을 때의 병기별로 구분한 결과도 발표되었다. 병기에 따라서도 일치율에 다소 차이가 나는 것을 알 수 있는데, 폐암의 경우에는 전이암일 때, 대장암과 직장암은 원발 조직에 국한되었을 때 일치율이 더 높다.

폐암: 국한 88.9%, 전이성 97.9%
대장암: 국한 85.5%, 전이성 76.6%
직장암: 국한 96.8%, 전이성 80.6%

마지막 세 번째 발표는 한국의 길병원에서 치료받은 2-4기 대장암 환자 340명과 항암치료를 받지 않은 진행성 위암 환자 185명을 대상으로 후향적 연구를 한 것이다. 대장암 환자 전체에서는 73%의 일치율을 보였다. 그중에서 보조 항암 치료를 받은 환자 250명의 경우에는 85%의 일치율을, 전이성 대장암 환자 90명의 경우 40%가 일치했다. 또한 위암 환자의 경우에는 49%에서 일치했다.

이러한 결과를 보면 아래와 같은 네 가지 정도의 결론을 잠정적으로 내려볼 수 있다.

왓슨 포 온콜로지와 의사의 일치율은 암종별로 다르다.
왓슨 포 온콜로지와 의사의 일치율은 같은 암종에서도 병기별로 다르다.
왓슨 포 온콜로지와 의사의 일치율은 같은 암종에 대해서도 병원별, 혹은 국가별로 다르다.
왓슨 포 온콜로지와 의사의 일치율은 시간에 따라서 달라질 가능성이 있다.

왜 왓슨의 실력이 다를까 (1) 가이드라인 및 인종적 차이

자. 이런 결과를 우리는 어떻게 이해하고 어떻게 받아들여야 할까. 일단 왓슨과 의사의 일치율이 암종별로, 병기별로, 병원별로, 국가별로 왜 다른지에 대해서 먼저 이야기해보자.

필자는 이러한 일치율의 차이에 대해서 왓슨 헬스의 최고 의료 책임자이자 내과전문의인 큐리 박사님, 부책임자이자 신경 종양 전문의인 앤드류 노든 박사를 포함한, IBM 소속의 의사들 몇 명과도 이야기를 나눠보았다. 그들이 공통적으로 꼽는 일치율의 차이는 왓슨 포 온콜로지가 미국이라는 특정한 나라의 환경에서 MSKCC라는 특정 병원을 기준으로 개발된 시스템이기 때문이다. 그렇기 때문에 아래와 같은 요소들에 국가별로 차이를 드러낼 수 있다.

해당 국가 진료 가이드라인 준수 여부
암환자 인종별 차이의 고려 여부
권고한 약이나 치료법의 국가별 인허가 여부
보험 급여 기준 및 심사 기준 준수 여부

한국을 포함한 각 나라에서는 암 환자에 대한 진료 가이드라인이 존재한다. 전 세계적으로는 NCCN (전미 종합 암 네트워크)에서 발간하고 수시로 업데이트하는 치료 가이드라인이 권위를 가지고 있지만, 한국을 포함한 개별 국가에서는 자국의 상황에 맞게 변경되어 있는 가이드라인을 따르기도 한다. 이에 따라 항암제의 종류와 사용, 수술의 필요 여부, 수술의 세부적인 방식 등이 달라지기도 한다.

비호지킨 림프종에 대한 2014년 NCCN 가이드라인의 일부

또한 인종별 차이도 무시할 수 없다. 미국인에 맞게 개발된 왓슨 포 온콜로지는 다른 국가, 특히 아시아인 환자를 대상으로 인종적 특수성을 고려하지 못하는 것으로 알려져 있다. 이러한 요인도 앞서 언급한 태국, 인도, 한국 병원의 일치율 차이의 요인이 될 수 있다. 암은 유전적 요인에 의해서 발병하는데, 인종별로 발병 원인 유전자의 구성이나 유전자 발현의 정도가 다를 수 있다. 이런 요인 때문에 항암제에 대한 반응이나 부작용이 달라지는 경우가 있다. 즉, 어떤 경우에는 같은 항암제를 사용하더라도 치료 효과가 달라질 수 있다는 것이다.

예를 들어, 아스트라제네카의 폐암 치료제 이레사는 아시아인과 비아시아인의 반응이 다른 대표적인 약제 중의 하나다. 2003년 발표된 이레사의 연구에서는 서양인에 비해 일본인에 더 큰 효과를 보인다는 것이 증명되었으며 [ref 1, 2], 성균관의대 연구진이 비소세포폐암(NSCLC)에 대해서 폐암 종양이 50% 이상 감소하는 환자의 비율이 서양인에 비해 한국인이 두 배 높다는 것을 증명한 바 있다. 또한 세브란스 연구팀은 항암제 파클리탁셀이 아시아인 위암 환자의 경우 감수성이 38%에 불과하지만, 비아시아인 환자에게는 75%나 된다는 연구 결과를 2009년 발표한 바 있다 [ref 1, 2].

최근 발표에 따르면 이러한 인종적 차이는 실제로 왓슨과 국내 의료진의 결정의 차이를 만들어낸다. ASCO 2017에서 길병원 발표에서 위암 환자의 낮은 일치율에 대해서 두 가지 가능성이 제시되고 있다. 그 중 하나가 항암제 S-1(tegafur, gimeracil and oteracil)+cisplatin 의 조합이 한국에서는 일상적으로 사용되지만, 미국에서는 그렇지 않기 때문이라는 것이다. 일본에서 개발된 S-1이라는 항암제는 임상 연구 결과 일본과 한국의 환자에게는 우수한 결과를 보여준 바 있다. 하지만 서양인에게는 설사와 같은 부작용이 흔해서 잘 쓰지 않는 것으로 알려져 있다.

또한 국가별로 인허가받은 약제의 차이가 있을 수 있다. 미국에서는 FDA의 승인을 받아서 환자들에게 판매되는 약이지만, 한국에서는 여러 이유로 식약처의 허가를 받지 못해 사용이 불가한 약제일 수 있기 때문이다. 또한 반대로 한국에서 승인받은 약이, 미국에서는 아직 허가를 받지 않았을 수도 있다. 앞서 언급한 항암제 S-1의 경우, 일본과 한국, 유럽의 여러 국가에서도 인허가 받았다. 하지만 아직 미국의 FDA에서는 허가를 받지 않았다 [ref].

왜 왓슨의 실력이 다를까 (2) 보험제도의 차이

더 크게 지적되는 문제는 건강 보험 제도의 차이 때문이다. 한국은 전 세계에서도 드물게 전 국민에게 국민건강보험을 보장해주는 시스템을 가지고 있다. 이는 전 세계가 부러워하는 보험 체계이기도 하지만, 문제가 없는 것은 아니다. 바로 의사의 진료와 처방이 심평원(건강보험심사평가원)의 급여 기준에 맞춰야 하기 때문이다.

우리나라의 의료 기관은 (비급여 진료를 제외하면) 진료비의 일부는 환자에게 받고, 나머지는 심평원에 청구하는 구조를 가지고 있다. 심평원은 의료기관이 청구한 내용을 요양급여 기준에 부합하는지 심사하여, 적합할 경우 청구액을 의료기관에 지급하고, 부합하지 않는다고 판단하면 지불을 거부하거나 삭감하기도 한다. 즉, 의료 서비스를 제공한 후 청구한 진료비를 의료 기관이 되돌려 받는 후불제 구조이기 때문에 의료진은 심평원의 급여 기준에 맞춰서 진료를 할 수밖에 없다.

의료계에서는 심평원의 급여 기준과 심사 기준이 모호하다고 지적하는 목소리가 많다. 의사들은 심평원의 산정 기준에 따라서 의료 수가를 청구했다가도 삭감당하는 경우가 많다는 것이다. 일각에서는 의료진이 의학적인 판단보다는 심평원의 급여 기준에 맞춰서 치료하도록 강요당하는 세태를 꼬집어 ‘심평의학‘이라는 자조적 용어를 만들어내기도 한다.

문제는 왓슨 포 온콜로지가 당연히 심평원의 급여기준과는 상관 없는 치료법을 권고안으로 제시한다는 것이다. 왓슨이 정말로 하루에 수백 편씩 쏟아지는 최신 연구에 발맞춰서 최적의 치료법을 제시해준다고 하더라도, 이 치료에 대한 보험 급여를 적용받지 못하거나 심평원에서 삭감해버린다면 국내에서는 이 권고안을 채택하기가 어려워질 것이다.

이러한 차이는 왓슨 포 온콜로지의 판단과 국내 의료진의 판단의 차이를 만들어내는 실제 요인이 된다. ASCO 2017에서 길병원의 의료진이 발표한 연구 결과에는 위암에서의 일치도가 낮은 요인에 대해 (앞서 설명한 S-1의 국가별 차이 이외에도) 왓슨이 권유하는 항암제 Trastzumab/FOLFOX 가 한국에서는 국민 건강 보험 수가를 받지 못하기 때문에 택하기가 어렵다는 점을 명시적으로 언급하고 있다.

왜 왓슨의 실력이 다를까 (3) 치료 옵션 다양성의 차이

또한 암종별로 일치도가 다른 이유 중의 하나는 암의 종류에 따라서 얼마나 다양한 치료 옵션들이 존재하는지에 차이도 있기 때문으로 보인다. 다양한 치료 옵션이 존재할수록 아무래도 양측의 판단이 확률적으로 일치하기 어렵기 때문이다.

예를 들어, 마니팔 병원의 발표에서 삼중음성 유방암의 경우(일치율 67.9%)에는 HER2 음성 유방암(일치율 35%)에 비해서 가능한 치료 옵션 자체가 적기 때문에 결과적으로 일치도는 올라갈 수밖에 없다는 것이다. 왓슨의 추천과 일치율이 85%로 높게 나온 직장암의 경우에도 상대적으로 다른 암에 비해 치료 옵션의 다양성이 매우 제한적인 편이다.

왜 왓슨의 실력이 다를까 (4) 가이드라인의 변화와 왓슨의 진화

왓슨과 의료진의 일치율이 낮은 또 다른 이유는 바로 가이드라인과 왓슨이 시간이 흐름에 따라서 계속 바뀌어간다는 것이다. 새로운 연구 결과가 발표되고, 새로운 치료법이 개발되면 그에 맞춰서 표준 진료 가이드라인과 왓슨 포 온콜로지의 결정도 계속 바뀌어갈 수 있다. 또한 앞서 언급했듯이, 왓슨 포 온콜로지를 활용하는 의료진의 결과가 클라우드 형태로 서비스되는 왓슨으로 다시 피드백되므로, 이를 반영해서도 왓슨은 계속해서 진화한다.

‘과거’에 진료했던 환자의 기록을 바탕으로, ‘오늘’의 왓슨 포 온콜로지를 실행하여 그 결과를 비교하는 후향적 연구의 경우 이러한 차이가 크게 드러날 수밖에 없다. 앞서 언급한 대부분의 연구가 수년 전에 진료한 환자의 치료 방법과 현시점의 왓슨 포 온콜로지에서 나온 결과를 비교한 것이다.

이러한 요인은 마니팔 병원이 2016년 12월 샌안토니오 유방암 심포지움에서 발표한 자료에서도 확인할 수 있다. 이 발표에는 638명의 유방암 환자 사례를 두 가지 시점에서 분석하고 있다. 하나는 지난 3년간 환자를 진료했던 과거 시점(T1)에서 실제 치료법과 오늘날 왓슨 포 온콜로지의 판단을 비교한 것이다. 다른 하나는 연구가 진행된 2016년 시점(T2)에서 과거의 진료기록을 재검토하여 의사들이 판단한 것과 왓슨의 결과를 비교한 것이다.

이렇게 과거의 진료 가이드라인 등에 맞춘 의료진의 판단보다 현재의 의료진의 판단이 왓슨과 더 높은 비율로 일치한다. 왓슨 포 온콜로지의 ‘추천’ 만을 기준으로 했을 때에는 46%에서 60%로 증가하였고, ‘추천’과 ‘고려’를 모두 기준으로 하면 과거의 73%에서 90%까지 일치율이 증가하는 것을 볼 수 있다. T1과 T2 시점의 일치율 차이는 그 기간 동안 바뀌었던 가이드라인 때문이라고 설명할 수 있다.

그런데 시간이 흐름에 따라서 가이드라인, 신규 논문, 새로운 치료법 등을 반영하여 계속 진화한다는 왓슨의 속성은 또 다른 문제를 만들어낸다. 아래에서 더 자세히 이야기하겠지만, 필자는 왓슨의 정확성과 의학적 효용 등을 증명하기 위해서 임상 시험이 필요하다고 본다. 하지만 이렇게 지속적으로 변화한다는 왓슨은 과거 특정 시점에서 진행한 임상연구의 결과가 현재 혹은 미래에 적용되지 않을 수 있다는 점을 뜻한다.

이슈 3. 왓슨의 정확성과 의학적 효용을 어떻게 증명할까

앞서 논의한 내용을 정리해보자면 왓슨 포 온콜로지의 정확성과 의학적 효용이 아직 완전히 증명되지 않았음을 알 수 있다. 기존에 발표된 연구들은 모두 왓슨 포 온콜로지와 특정 국가의 특정 병원의 의료진의 판단과 얼마나 일치하는지를 분석한 정도이다.

이러한 연구가 가지는 결정적 한계점은 왓슨과 의사의 ‘일치율’을 보는 것이 왓슨 포 온콜로지의 정확성과 효용성을 평가하기 위해서 적절한 지표가 되기 어렵다는 것이다. 의사의 판단과 일치한다고 해서 왓슨의 치료법이 정확하다고 할 수 없다. 반대로 의사의 판단과 불일치한다고 해서 왓슨의 권고안이 부정확하다고 할 수는 없는 일이다. 의사의 판단이 최선의 판단일 수도 있지만, 최선이 아닐 수도, 아니면 틀릴 수도 있기 때문이다.

만약 ‘일치율’을 높이는 것이 왓슨의 실력에 대한 유일한 지표나 개발 목표가 된다면, 결국 인간 의사와 완전히 동일한 판단을 하는 시스템이 (구현 가능성의 여부는 차치하고서라도) 왓슨의 최종적인 모습이 될 것이다. 즉, ‘일치율’만을 기준으로 한다면 의사와 동일한 수준의 인공지능을 구현할 수는 있겠지만, 의사보다 더 나은 인공 지능을 개발할 수는 없다.

우리가 인공지능에게 기대하는 것은 한 단계 더 높은 수준이다. 즉, 인간 의사의 부족한 점을 보완해줄 수 있고, 가능하면 때로는 더 나은 치료법을 찾아줄 수도 있는 인공지능이다. 만약 왓슨의 판단이 (예를 들어 MSKCC의) 의료진의 결정과 100% 일치율을 달성했다면, 그리고 그것을 증명했다면, 과연 그 시스템은 유용할까? 의사가 부족하거나, 종양내과 전문의가 부족한 환경에서는 매우 유용할 수 있다.

하지만 평균적인, 혹은 평균 실력 이상의 종양내과 전문의를 충분히 갖춘 병원에서 이는 그리 큰 가치를 제공하지 못할 가능성이 높다. 의사가 실수하는지 정도를 체크하는 정도의 기능은 될 수 있다. 하지만 그 이상은 기대하기 어려울 것이다. IBM도 이 정도 목적의 달성을 위해 그렇게 막대한 투자를 하지는 않았을 것이다.

이 부분에 대해서 앤드류 노든 박사는 ASCO 2017에서 발표된, 일치율이 80-90%라는 왓슨 포 온콜로지의 퍼포먼스에 대해서 만족감을 표시했다. “이러한 수치는 우리가 원하는 정도다. 만약 일치율이 100%라면 모든 경우에 의사와 완전히 동일한 권고안을 준다는 것이므로 아무런 가치가 없다고 주장할 수 있다. 만약 훨씬 낮거나 0%의 일치율을 보인다면, 그것 또한 문제가 될 것이다”

즉, 현재 의사와 너무 다르지도 않고, 너무 동일하지도 않은 권고안을 주기 때문에, 왓슨 포 온콜로지가 의료진에게 가치가 있을 가능성이 있다는 것이다. 그럼에도 불구하고, 앞서 필자가 누차 강조했듯이 우리는 아직 그러한 가능성에 대한 확실한 근거를 보지 못했다. 특히 우리는 아직까지 왓슨 포 온콜로지의 정확성이나 의학적으로 환자나 의료진이 어떤 효용을 얻는지에 대해서 알지 못한다. 예를 들어, 아래와 같은 질문에 대해서 아직 답할 수 있는 근거가 마련되지 않았다.

왓슨 포 온콜로지의 권고안은 얼마나 정확한가?
왓슨 포 온콜로지가 환자의 생존기간의 연장에 유의미한 도움을 주는가?
왓슨 포 온콜로지가 환자의 치료 효과를 개선시키는가?
왓슨 포 온콜로지가 의료비 절감 혹은 증가에 어떤 영향을 주는가?
왓슨 포 온콜로지가 의료진의 진료 효율성을 높이는가?
왓슨 포 온콜로지에 보험을 적용할 수 있는가?

그렇다면 이러한 질문에 답을 얻기 위해서는 무엇이 필요할까? 현대의 근거 중심 의학(evidence-based medicine)에서는 결국 근거가 필요하다. 근거를 마련하기 위해서 가장 좋은 방법은 역시 임상 시험이다. 나는 결국 왓슨이 정확성이나 의학적인 효용을 검증하기 위해서는 임상 시험을 거쳐야 할 것이라고 생각한다.

임상 시험이 필요하다. 하지만…

왓슨 포 온콜로지의 정확성과 의학적 효용을 증명하기 위해서 어떤 방식으로든 임상 연구가 필요할 것이라는 점은 많은 의료 전문가들이 동의한다. 필자가 왓슨 헬스 소속의 의사들 몇 명을 만나서 이 부분을 논의했을 때도 대체로 이 점에 대해서 동감했다. 2017년 3월 필자가 앤드류 노든 박사와 토론할 때, 노든 박사도 어떤 방식으로든 임상연구가 필요할 것이라는 점에 동의했다. 하지만 왓슨에 대한 임상 시험을 진행한다고 하더라도 몇 가지 근본적인 문제가 있다는 점에 대해서도 역시 동의했다.

무엇보다 왓슨 포 온콜로지의 의학적 효용을 증명하기 위해서 무엇을 기준으로 할 것인지가 애매하다. 임상 시험을 디자인하기 위해서는 정확성, 의학적 효용, 안전성 등을 판단할 명확한 기준이 필요하다. 신약 개발 시에 임상시험을 진행하면 소위 일차 목적(primary outcome)과 이차 목적(secondary outcome)을 정의해야 한다. 예를 들어, 항암제에 대한 임상시험을 계획할 경우, 생존율(Survival Rate), 전체 생존 기간 (OS, Overall Survival), 반응률(RR, Response Rate), 무진행 생존 기간(PFS, Progressive-free Survival), 독성(toxicity) 등의 지표를 해당 약의 효능을 평가하기 위한 기준으로 삼기도 한다.

그런데 왓슨 포 온콜로지에 대해서 임상시험을 하려고 하면 무엇을 기준으로 해야 할까? 솔직히 말하면 필자도 명확한 답을 가지고 있지 않다. 이점에 대해서는 아직 IBM도 별반 다를 것이 없는 것 같다. 왓슨 헬스의 발표자료를 보면, 임상 시험 결과를 어떻게 평가할지에 대해서, 일치율(concordance), 의사 결정에 주는 영향(decision impact), 가이드라인 준수율(guideline adherence), 비용(cost), 시간 절감(time savings)와 함께 종양의 반응(tumor response), 생존율(survival) 등이 명시되어 있다. 이 중에서는 마지막에 언급되어 있는 종양의 반응과 생존율 정도가 의학적인 효용을 평가하기 위해서 그나마 유의미해 보인다.

왓슨 포 온콜로지의 임상시험의 필요성에 대해서 주장하는 김에 한 단계 더 들어가보자. 임상 시험을 어떤 식으로 디자인해야 할까? 엄격한 요건을 갖춘 임상시험이라면, 실험군과 대조군을 갖춰야 하며, 이중 맹검(double blind) 및 무작위(randomized)라는 조건 하에 전향적(prospective)하게 진행되어야 한다.

전향적이라는 것은 모든 조건을 갖춰놓은 이후에 환자를 모집하여 현시점으로부터 대상자를 추적 관찰하는 것이다. (반대로 후향적 연구는 현시점에서 과거의 기록을 대상으로 조사하는 것이다) 실험군은 왓슨을 적용하여 치료하는 환자군이고, 대조군은 왓슨을 사용하지 않고 왓슨의 효과와 비교하기 위한 기준이 되는 환자군을 의미한다. 무작위는 환자를 말 그대로 무작위로 실험군과 환자군에 배정하는 것을 말하며, 이중 맹검은 치료받는 환자와 치료하는 의료진 양측 모두가 이 환자가 실험군과 대조군 어느 그룹에 속했는지를 모르게 한다는 것이다.

이러한 조건에 맞춰서 대조군과 실험군을 아래와 같이 임상 시험을 진행한다고 가정해보자. 대조군은 종양내과 전문의 한 명이나, 혹은 특정 병원, 혹은 복수의 병원에 있는 종양내과 전문의들이 진료하는 그룹이다. 실험군은 의사가 전혀 관여하지 않고 왓슨 포 온콜리지의 ‘추천’ 항목에 의해서만 치료하는 그룹이다. 암 환자를 각각 1만 명씩 전향적으로 모집하여 무작위로 양쪽 그룹에 배정한다. 이 경우에는 이중맹검은 어려울 것이니(의사는 환자가 어느 군에 속했는지 알 수밖에 없다), 환자만이라도 자신이 어느 그룹에 속했는지를 모르는 ‘단일 맹검(single blind)’ 방식으로 해야 하겠다. 일차, 이차 목표는 5년 간의 생존율(OS)와 무진행 생존기간(PFS)으로 하도록 하자.

자. 이런 디자인의 임상 시험이 가능할까?

한 눈에도 이러한 임상 시험은 몇 가지 심각한 문제가 있는 것이 명백하다.

첫 번째로 무엇보다 아직 정확성이나 효용이 검증되지 않은 왓슨 포 온콜로지만으로 실험군의 환자를 진료하는 것에는 의학적으로나 윤리적인 문제가 있다. 신약 임상 시험의 경우에는 전임상이나 임상 1상에서 후보 물질의 독성 등 최소한의 안전성을 동물과 사람에서 검증한 후에, 2상에서 약효를 시험한다. 하지만 왓슨의 경우에는 그렇게 최소한의 안전성을 보장하기 위한 단계를 거치기 어려우므로, 일단 실험군의 환자를 전적으로 왓슨에게 맡기는 것은 적절하지 않다.

두 번째로 대조군에서 의사들의 실력이 매우 다양(heterogeneous)할 수 있다는 것이다. 개별 종양내과 의사를 비교하는 것은 당연히 의미가 없을 뿐만 아니라, 특정 병원의 종양내과 의사 전체, 혹은 여러 병원의 의사를 대상으로 한다고 해도 이 의사들 중에 실력, 경험, 치료 방침 등에 차이가 있을 수 있다. 이런 조건에서 나온 임상 결과를 다른 병원의 의사들이 참고하기는 어려울 가능성이 있다. 따라서 어떤 식으로든 ‘기존의 의료계 최선의 치료법’을 대표할 수 있는 보편적, 일반적인 기준을 마련해야 할 것이다.

세 번째로 왓슨이 계속 진화한다는 점이다. 이 문제 때문에 5년에 걸친 임상시험을 마무리하고, 그 결과를 몇 개월 혹은 몇 년 동안 정리하여 논문으로 발표하는 시점이 되면, 이미 논문 출판 시점의 왓슨은 임상 시험 당시의 왓슨이 아니게 된다. 즉, 과거에 수행한 임상 시험의 결과가 실제 환자에게 적용하는 현시점의 왓슨의 실력에 근거가 되기 어려운 것이다. 뿐만 아니라, 5년이라는 임상시험 기간 중에도 왓슨은 계속 바뀐다. 임상시험 시작 첫날의 왓슨과 마지막 날의 왓슨은 다를 것이며, 얼마나 다를 것인지의 정도의 예측도 어렵다.

임상 시험으로 왓슨을 검증하려면

그러면 어떻게 해야 할까? 부끄럽게도 필자도 답이 없다. 이와 관련해서 몇 분의 선생님들과 논의해보았으나, ‘어려운 문제’라는 것에만 동의했을 뿐, 역시 서로가 만족할만한 결론을 내리지는 못했다. 완벽하지는 않으나 다음과 같은 임상 시험 디자인이 필자가 구상할 수 있는 그나마 최선의 결과물인 것 같다. (혹시 더 좋은 아이디어가 있으신 분은 필자에게 알려주시면 출처를 명기하고 반영하여 업데이트 하겠습니다. yoonsup.choi@gmail.com 입니다.)

일단 실험군과 대조군을 의사 vs 왓슨의 구도보다는 의사 vs 의사+왓슨으로 구성하는 것이 좋다고 본다. 양쪽 모두 의사가 기본적인 진료를 하기 때문에, 앞서 언급했던 실험군 환자에게 왓슨 포 온콜로지만으로 진료할 때의 윤리적인 문제나 안전성의 문제를 최소화할 수 있다. 또한 왓슨 포 온콜로지가 실제 진료 현장에서 사용될 때는 의사를 보조하는 방식으로 사용될 것이므로 이러한 디자인이 진료에 참고하기에 더 적절하다고 생각한다. 다만 이 경우에는 왓슨의 의견을 어떤 경우에 어떻게 반영할 것인지에 대한 원칙도 정해져야 하겠다.

또한 실험군과 대조군에서 의사가 개입할 때 개별 의사나, 특정 병원의 의사가 각자 알아서 진료하는 것보다는 NCCN 가이드라인과 같은 표준화된 기준을 마련하는 것이 좋다고 본다. 사실 NCCN 가이드라인도 방대한 종류의 치료법을 담고 있고, 치료법을 뒷받침하는 근거 수준도 다양해서 ‘기존의 치료법’을 대표할 수 있는 일반적 기준이 될지에 대해서는 고민의 여지가 있다. 다만, 엄격한 임상시험을 위해서는 어떤 방식으로든 다수의 의사들이 공통된 기준을 바탕으로 진료하는 조건은 마련해놓아야 할 것이다.

하지만 이러한 수정된 디자인의 임상 연구에도 여전히 해결되지 않는 문제가 있다. 바로 앞서 지적한 왓슨이 계속 진화한다는 것이다. 실험군과 대조군을 조정하고, NCCN 가이드라인을 기반으로 하더라도, 역동적으로 변화하는 왓슨의 근본적인 속성은 임상 시험을 진행하고, 여기에서 나온 근거를 바탕으로 진료를 하기 위해 본질적인 한계를 부여한다.

마지막으로 이러한 임상시험이 과연 현실적으로 수행 가능할지에 대해서도 생각해보자. 이런 대규모 임상 연구는 많은 연구비가 들어가며, 왓슨 포 온콜로지를 수천, 수만 명의 환자에게 적용하기 위해서는 결국 사용료가 발생한다. 그러므로 이 임상 연구를 진행한다면 그 주체는 IBM이 아닐 수 없다.

하지만 과연 IBM은 이런 임상시험을 진행하기를 원할까? 아마도 답은 ‘아니오’일 것이다. IBM은 영리 기업으로 왓슨이라는 인지 컴퓨팅 브랜드를 바탕으로 비즈니스를 하고 있다. 이미 막대한 자본과 인력을 투입하여 왓슨을 개발했으며, 현재 IBM 전사가 왓슨에 사활을 걸고 있다고 해도 과언이 아니다. 그 왓슨의 비즈니스 중에서 가장 큰 비중을 차지하는 것이 바로 왓슨 포 온콜로지다.

IBM의 입장에서는 이런 임상 시험을 진행하는 것이 너무 리스크가 크다. 만약에 이런 임상 시험 결과 왓슨 포 온콜로지의 정확성과 효용이 유의미하다는 것을 입증할 수 있다면 좋을 것이다. 하지만 반대로, 만에 하나 왓슨이 통계적으로 유의미한 수준의 의학적 효용이 없다고 나온다면 왓슨 포 온콜로지 사업 전체가 위험에 빠질 것이다. 즉, 확실하게 효과가 없는 것으로 증명되기보다는, 효과 유무를 증명하지 않은 채 불명확한 상태로 있는 것이 IBM 입장에서는 더 유리할지도 모른다.

ASCO 2017에서 앤드류 노든 박사는 왓슨 포 온콜로지가 환자의 치료 효과에 미치는 영향에 대해서 연구를 계획하고 있다고 언급한 바 있다. 하지만 필자가 보기에 IBM이 왓슨 포 온콜로지 사업 전체의 운명을 걸고 이러한 임상 연구를 진행할 가능성은 그리 높지 않을 것 같다.

왜 길병원은 왓슨을 도입했나

그러면 이제 국내로 눈을 돌려보자. 한국에 지금까지 왓슨 포 온콜로지를 도입한 병원은 앞서 언급했듯이, 인천의 가천대 길병원, 부산대학교병원, 대전의 건양대학병원, 대구의 계명대 동산병원과 대구가톨릭병원 등 5개 병원이다. 이 병원들은 왓슨 포 온콜로지를 왜 도입했을까? 그리고 암환자의 진료에 왓슨을 어떻게 활용하고 있으며, 의료진과 환자들의 반응은 어떠할까.

사실 한국 IBM은 2015년 정도부터 수도권을 포함한 국내 대형 병원들에 왓슨을 도입시키기 위해 많은 미팅을 하고 협의하는 등의 노력을 한 것으로 알려져 있다. 언론을 통해서 외부에 알려진 바는 많지 않았지만, 실제로는 상당히 많은 병원과 미팅을 했고, 일부에는 필자도 동석했다. 비록 최종적으로 성사되지는 않았지만, 왓슨의 도입이나 공동 연구에 대해서 매우 구체적인 진전이 있었덩 병원도 있었다.

2015년 7월 서울대병원 왓슨 세미나 (필자 촬영)

하지만 결국 길병원이 2016년 9월에 국내 최초 도입 발표를 하기까지는 적지 않은 시간이 걸렸다. 또한 도입한 병원들의 목록을 보면 한국에서 가장 많은 암환자를 진료하는 서울의 소위 빅 5 병원에는 아직 왓슨 포 온콜로지가 도입되지 않았다. 이렇게 수도권 병원은 왓슨을 도입하지 않고, 인천, 대전, 대구, 부산 등의 지방 거점 병원들이 왓슨을 도입했다는 사실에서 우리는 몇 가지를 추측해볼 수 있다.

사실 가천대학교 길병원은 필자를 비롯한 전문가들이 국내에서 처음으로 왓슨을 도입할 가능성이 높은 후보 중의 하나였다. 필자는 국내 병원이 왓슨을 도입하려면 두 가지 조건이 충족되어야 한다고 보았다.

첫 번째는 적지 않은 자금을 투입하여 왓슨을 도입함으로써, 투자 대비 수익(ROI)을 올릴 수 있는 병원이어야 한다. 이러한 면에서 소위 수도권 빅 5 종합병원은 왓슨을 도입할 동인이 크지 않다. 구체적인 금액은 공식적으로는 공개되어 있지 않지만, 필자가 파악한 몇몇 병원에 따르면 왓슨을 도입하는데 적지 않은 비용이 들어간다. 병원의 입장에서는 이런 큰 비용의 투자에 대해서는 적정 규모 이상의 효과를 바랄 수밖에 없다. 병원이 기대할 수 있는 효과로는 환자의 치료 효과 개선이라는 측면뿐만 아니라, 진료 효율성의 개선, 병원 매출이나 이익률 상승, 신규 환자의 유입 증가, 기존 환자의 유출 감소, 병원의 이미지 제고 등 병원 차원의 효과를 포함한다.

수도권의 대형병원의 경우 이미 감당하기 어려울 정도의 암환자들이 전국에서 자발적으로 모여들고 있으며, 현재 치료 결과에도 큰 부족함이 없으며, 언론에도 자주 오르내리는 ‘명의’ 들을 다수 보유하고 있으므로, 왓슨의 도입에 대한 투자 대비 기대 수익률이 상대적으로 낮을 수밖에 없다. 한마디로 왓슨을 도입하지 않아도 현재의 상태를 유지하는데 문제가 없고, 왓슨을 도입한다고 해서 더 나아질 것도 없다는 것이다. 더구나 대학병원들 중 상당수는 적자 상태이거나, 겨우 적자를 모면할 정도로 이익률이 높지 않다. 2015년 국립대학병원 중에서 흑자를 낸 곳은 부산대치과병원과 경상대병원 2곳밖에 없었다.

하지만 소위 빅 5 병원에 아슬아슬하게 속하지 못하면서, 이들과 경쟁하는 대형병원의 경우에는 왓슨과 같은 혁신적인, 혹은 혁신적이라고 주장할 수 있는 솔루션의 도입에 대한 동기가 상대적으로 크다고 할 수 있다. 빅 5 병원이 가지고 있지 못한 차별점을 만들고, 이를 통한 치료 효과의 개선이라는 의료적 효용뿐만 아니라, 대외적 이미지 개선이나 뉴스를 만들어내 수 있는 의료 외적인 효용을 꾀할 수도 있기 때문이다.

두 번째 조건은 의사 결정 체계다. 많은 대형병원들은 국가나 재단, 혹은 기업이 직간접적으로 관여하고 있기 때문에 과감한 투자나 의사결정을 내리기가 어렵다. 이런 조직의 경우 병원장도 몇년마다 교체되기 때문에 의사결정에 힘이 실리기 어렵고, 교수들마다 저마다 주장이 있다. 소위 사공이 많은 것은 빅 5병원 대부분 그러하다. 하지만 강력한 리더십을 가진 의사결정권자가 있는 일부 병원의 경우에는 왓슨의 도입과 같은 과감한 결정을 내리기가 비교적 용이하다.

길병원은 이런 두 가지 조건을 만족하는 몇 안 되는 병원 중의 하나이다. 1,400 병상으로 국내 5위 규모의 종합병원인 길병원은, 2014년 기준으로 의료 수익은 수도권 대형 병원들 중 8위에 올라 있다. 의료 이익률은 7%으로 상위 10개 병원들 중에 2위권이지만, 전체 의료 수익은 Big 5와 비교했을 때는 1위 서울아산병원의 1/4 규모, 5위 서울성모병원의 절반 규모로 이 경쟁 병원들 대비 과감한 시도에 대한 동인이 충분했을 것이다. 또한 가천대학교와 길병원의 이길여 총장이라는 강력한 리더십의 존재는 왓슨의 도입에도 영향을 미쳤을 것으로 추측해볼 수 있다.

2014년 수도권 15개 대형병원의 경영 성과

왓슨은 정말 마케팅용일까

현재 왓슨을 도입한 병원에서는 저마다의 방식으로 암환자의 진료에 왓슨을 활용하는 것으로 알려져 있다. 길병원의 경우에는 왓슨을 활용하는 다학제 진료실을 별도로 만들어 놓고 진료한다. 여러 진료과의 의료진이 좌우로 앉고, 가운데 화면에 환자의 검사 결과와 왓슨을 함께 띄워놓고 15-20분을 진료하는 방식이다. 왓슨 뿐만 아니라, 다양한 진료과의 의사들이 직접 설명해주므로 환자들의 만족도가 매우 높다고 한다. 더구나 환자가 비용을 부담하지도 않으니 더 좋아할 수밖에 없다.

혹자는 국내 병원이 왓슨을 도입한 이유를 단순히 ‘마케팅용’이라고 치부하기도 한다. 실제로 길병원이 왓슨을 도입한 이후, 환자들이 수도권 병원에서 길병원으로 전원을 가거나, 예전 같으면 빅 5로 왔을 지방 환자들이 길병원으로 오는 사례가 늘고 있다고 전해진다.

사실 이런 부분이 앞서 언급한, 병원이 왓슨을 도입할 첫 번째 동기다. 바로 지방 거점 병원들에서 환자의 유입을 증가시키고, 수도권으로 환자의 유출을 막기 위한 목적이다. 한국에서는 암환자의 수도권 병원 쏠림 현상이 심하다. 암에 걸리면 지방 병원보다는 시간과 돈을 좀 더 쓰더라도 유명 병원의 소위 ‘명의’에게 진료 받으려는 환자가 적지 않다. 지방 거점 병원으로서는 이런 환자들의 유출을 막는 것이 큰 숙제일 수밖에 없다. 대전의 건양대학병원에서 왓슨을 도입할 때 “지역 환자들은 수도권의 여러 병원을 찾아다닐 필요가 없어질 것”이라고 언급한 최양준 건양대병원장의 코멘트는 이런 고민을 반영한다고 할 수 있다.

참고로 원래 왓슨이 만들어진 목적 중의 하나가 의료의 민주화(democratization)을 위해서라고 IBM은 주장한다. 의료 전달 체계가 한국과 다른 미국에서는 1차 병원에서 시작하여, 2차 병원 등등을 차례대로 거쳐 마지막에 MD앤더슨이나 MSKCC와 같은 상급종합병원으로 가게 된다. 즉, 1, 2차 병원에 해당하는 지역 병원(community hospital)에서는 암환자를 진료하는 인프라나 경험이 MSKCC에 비해 부족할 수밖에 없다. 이런 지역 병원에서 왓슨 포 온콜로지를 도입하면, 환자가 뉴욕의 MSKCC를 가지 않고서 지역 병원에서도 비슷한 수준의 진료를 받을 수 있을 것으로 기대하는 것이다. 이를 ‘의료의 민주화’라고 지칭한다. 하지만 1, 2차 병원의 추천을 받지 않아도 바로 서울대병원과 같은 상급종합병원으로 갈 수 있는 한국에서는 이런 왓슨이 조금 다른 목적으로 사용된다고 평가할 수 있다.

또한 의료계에서는 왓슨 포 온콜로지를 구글과 같이 단순히 치료법을 검색하는 역할에 그친다는 의견도 있다. 실제 왓슨을 현장에서 활용해본 의사들 중에도 이런 의견을 내는 분들이 있다. 이런 의견에 대해서는 과연 구글이 우리에게 의미가 없는 존재인지를 반문해볼 수도 있다. 세상의 모든 지식을 머리 속에 담고 있고, 새롭게 도출되는 지식도 모두 학습하고 있다면 구글이 의미 없는 존재일 수 있다. 하지만 인간은 그렇지 못하기 때문에 구글이 의미 있는 검색 엔진이 되는 것이다. 혹은 백과사전을 뒤져서 찾았을 지식을 구글은 몇 초만에 찾을 수 있게 해준다는 장점도 있다. 이는 의료 지식에도 그대로 적용될 수 있는 부분이다. 하지만 검색엔진의 검색 결과가 너무 부정확하거나, 사용자의 기대와 크게 차이가 난다면 가치가 없었을 것이다.

왓슨 헬스는 ‘의료의 45.1%가 근거에 기반하지 않은 것’이라고 주장한다.

필자가 이야기하고 싶은 것은 아직 근거가 부족하다는 것이다. 현재의 왓슨이 얼마나 효과적인지, 정말로 단순히 마케팅 용도에 그치는지, 단순 검색에 불과해서 치료 개선에 영향이 미미한지의 여부를 따질 수 있는 근거가 없다는 것이다. IBM은 왓슨 포 온콜로지의 필요성 및 장점을 강조하기 위해서 현대 의학의 45% 이상의 의료 행위가 근거 없이 행해지고 있다고 비판한다. 하지만 그러한 왓슨 자체가 정확성과 효용성을 입증할 수 있는 근거가 없다는 것은 아이러니한 일이 아닐 수 없다.

때문에 병원이 왓슨을 단순히 마케팅용으로 도입했다고 폄훼하는 것도 필자는 무리가 있다고 생각한다. 반대로 왓슨이 실제로 환자의 치료에 도움이 된다고 주장할 수도 없다. 요는 양쪽의 주장의 타당성을 판단할 근거가 아직 충분하지 않다는 것이다. 의학은 과학이며, 과학적 주장은 논리와 데이터, 근거로 뒷받침되어야 한다. 하지만 아직까지 그 근거가 부족하다.

왓슨을 도입한 병원을 비판할 수 있다면, 이는 아직까지 과학적으로 정확성이 명확히 입증되지 않은 솔루션을 도입했다는 부분 정도일 것이다. 또한 환자들이 ‘왓슨이 진료한다’는 이유로 해당 병원을 찾아가는 것도 (지푸라기라도 잡고 싶은 심정을 이해하지 못하는 바는 아니지만) 합리적이지는 않다는 점도 다시 강조해야 하겠다.

여담이지만, 왓슨을 도입한 일선 병원들의 의료진과 개인적으로 이야기를 나눠보면 공개적으로 드러내기 어려운 왓슨의 장점도 있다고 전해진다. 왓슨 포 온콜로지 덕분에 최소한 국제적인 진료 기준에 맞춰서 환자를 치료할 수 있다는 것이다. 국내에도 일부 의사들은 공공연하게 NCCN 가이드라인도 잘 지키지 않는 경우가 있다는 이야기가 들린다. 최신 연구 결과에 대한 공부가 부족했을 수도 있고, 자신이 지금까지 쌓아온 진료 노하우가 표준 가이드라인보다 더 우수했다고 생각했을 수도 있다. 만약 예를 들어서, 높은 지위에 있는 노교수가 가이드라인을 지키지 않는 치료를 고집하더라도 지위가 낮은 젊은 교수는 이에 문제를 제기하기가 어렵다.

하지만 왓슨을 근거로 한다면, 최소한 표준 가이드라인에 맞게 진료하도록 유도할 수는 있다는 것이다. 이러한 경우, 왓슨 포 온콜로지가 원래 의도했던 바는 아니라고 하더라도, 환자 치료 효과 증진에 긍정적인 작용을 할 수도 있다.

왓슨, 원칙과 근거가 필요하다

거듭 강조했듯이 현재의 왓슨 포 온콜로지를 평가하기 위해서는 아직 근거가 부족하다. 근거가 부족하다 보니, 현재 진료 현장에서 환자에게 왓슨을 어떤 원칙에 기반하여 적용할지가 불명확하다. 예를 들어, 아래와 같은 부분에 대해서 의료계에서 합의된 원칙이 현재 전무하다.

어떤 환자의 경우에 왓슨 포 온콜로지의 의견을 물을 것인가
왓슨 포 온콜로지를 (암종별로, 세부 암종별로) 얼마나 신뢰할 것인가
왓슨 포 온콜로지의 결과를 환자에게도 공개해야 하는가? 혹은 의료진만 확인할 것인가
왓슨 포 온콜로지의 판단과 의료진의 판단이 다른 경우에는 어떻게 할 것인가
왓슨의 의견을 반영한 치료의 결과가 좋지 않았다면, 그 책임의 일부라도 왓슨에게 물을 수 있나

왓슨을 진료 현장에 적용할 때, 위와 같은 세부적인 사항을 어떻게 결정하는지에 따라, 의료의 질과 치료 효과, 진료 효율성 등등이 달라질 수 있다. 결국 문제는 원칙이 없다는 것이다. 원칙이 없기 때문에 현재 국내만 하더라도 왓슨을 도입한 병원들이 저마다의 개별적인 원칙을 만들어서 사용하고 있는 실정이다.

이는 결국 의료 인공지능이라는 새로운 종류의 솔루션이 진료에 영향을 줄 수 있음에도 불구하고 이를 어떻게 활용할지에 대한 의료계의 고민이 충분하지 못했다는 것을 의미한다. 들리는 소식에 따르면, 현재 왓슨 포 온콜로지를 도입한 국내 5개 병원에서 공동 협의체를 만들어, 이를 의료 현장에서 어떻게 활용할지에 대해서 논의할 계획이 있다고도 한다. 결국 왓슨과 같은 인공지능 진료 보조 시스템을 활용하기 위한 표준 가이드라인이나 원칙을 합의하는 것이 필요하게 될 것이다. 그런 기준이 정해졌을 때야 의료의 질 관리도 가능하다.

지금까지 의료 인공지능의 첫 번째 유형인, “복잡한 의료 데이터를 분석하여 의학적 통찰력을 도출하는 인공지능”의 대표적인 사례로 왓슨 포 온콜로지를 살펴보았다. 의료 인공지능이 의료 현장에 적용되는 것은 아직 초창기에 불과하지만, 앞으로 그 사례는 더욱 많아질 것이며, 파급 효과도 커질 것이다.

인공지능은 의료에 접목되는 완전히 새로운 방식의 수단이라고도 할 수 있지만, 그것이 목표로 하는 바는 기존의 의료가 추구해온 바와 다르지 않다. 질병을 더 효과적, 효율적으로 진단하고, 치료하고, 예방하고, 예측하며, 치료 과정의 부작용을 줄이는 것. 더 나아가 의료비를 낮추고 의료진과 병원에도 도움이 될 수 있으면 좋을 것이다. 이를 위해서는 인공지능이라는 완전히 새로운 방식이라고 하더라도 의학에 접목되기 위해서는 근거와 원칙이 필요하다는 대전제는 동일하다.

About The Author

Yoon Sup Choi

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』『의료 인공지능』『헬스케어 이노베이션』 등을 집필하였습니다.

Leave A Response

Click here to cancel reply.