인공지능이 의료 사고를 낸다면

Yoon Sup Choi January 18, 2018 AI, Big Data, Digital Healthcare No Comments

만약 인공지능을 이용해서 진료하다가 의료 사고가 발생한다면 누가 책임을 져야 할까? 이번에는 의료 인공지능을 활용하는 과정에서 과실이 발생하거나, 치료 효과가 좋지 않은 등 부정적 효과가 발생할 경우에 대해서 논의해보려고 한다. 의료는 인간의 생명과 건강을 다루는 분야이기 때문에 안전성을 유지하는 것이 매우 중요하다. 하지만 인공지능은 절대 완벽하지 않을뿐더러, 의사도 인간인 이상 완벽한 존재라고 할 수는 없다. 그렇기 때문에 의료 인공지능에 어떠한 한계와 문제점이 있는지를 이해하고, 이러한 이슈를 어떻게 극복할 것인지 고민이 필요하다.

책임은 누구에게 있는가

먼저 책임은 누구에게 있는지를 살펴보자. 인공지능을 활용한 의료 행위에는 여러 주체가 직간접적으로 관여한다. 의사가 있고, 의료 인공지능을 개발한 개발사, 치료를 받는 환자, 진료 환경을 제공한 병원, 의료 인공지능을 심사하고 허가해준 규제기관, 그리고 의료 행위에 대한 재정적 보상 제공하거나 제재를 가하는 보험사(한국의 경우에는 국민건강보험) 등이 관여할 수 있다.

의사가 인공지능을 활용하여 진료한 결과의 책임은 일차적으로 의사에게 있을 것이다. 앞서 논의한 바와 같이 의사는 의료 행위에서 의학적 최종 의사 결정권자의 역할을 한다. 아무리 우수한 인공지능이라고 할지라도 오류의 가능성을 배제할 수는 없으므로, 현재의 의료와 규제 패러다임 하에서는 인공지능의 판단을 ‘참고’하여 최종적인 의료적 결정을 내리는 주체는 바로 인간 의사가 된다. 따라서 인공지능을 활용한 진료 결과에도 크든 작든 의사의 책임이 없을 수는 없다는 것에 반론을 제기할 사람은 적을 것이다.

하지만 조금만 더 세부적으로 들여다보면, 이 문제는 상당히 복잡하게 얽혀 있다. 의료 인공지능의 종류도 다양하며, 사용되는 방법과 환경도 다양하기 때문이다. 특히, 의료 인공지능의 의료기기 해당하는지, 사용 과정에서 의사의 독립적 판단을 보장하는지, 인공지능이 결과를 어떠한 방식으로 제시하는지, 그리고 판단 과정이 얼마나 투명한지가 책임 소재 판단의 변수가 될 수 있다. 이러한 변수에 따라서 의사뿐만 아니라, 인공지능의 개발사나 환자의 책임이 커질 가능성도 있다.

1. 의료기기 vs. 비의료기기

먼저 인공지능의 의료기기 해당 여부가 변수가 된다. 국내 식약처나 FDA는 환자에게 미치는 위해도 등 여러 기준에 따라, 인공지능이 의료기기에 해당하는지와, 의료기기의 등급까지 규정하고 있다. 만약 의료기기에 해당한다면 임상 연구를 통해서 정확성과 안전성을 검증한 이후에 시장에 출시할 수 있다. 또한, 의료기기 등급이 더 높을수록 더 철저한 검증이 필요하다.

반면, 의료기기가 아니라면 규제기관의 인허가나 임상적인 검증 없이도 시장에 출시할 수 있다. 이 경우 인공지능을 시장에 출시하기 전에 어느 정도로 검증할 것인지는 제조사의 결정에 달려 있다. 예를 들어, 왓슨 포 온콜로지는 (한국과 미국에서) 의료기기가 아니기 때문에, 별다른 검증 없이 병원에 판매하는 것이 법적으로 문제는 없다.

하지만 의료기기가 아니라고 하더라도, 만약 충분히 검증되지 않은 상태로 출시하여 결론에 오류가 있다면, 제조사에게 상당한 책임이 있을 것이다. 다만 비의료 기기의 경우, 인공지능의 사용 목적이나 사용 과정에서 환자에게 미치는 위험이 크지 않거나, 상쇄되기 때문에 큰 문제가 발생할 여지는 적을 것으로 예상한다.

2. 의사의 독립적인 판단이 보장되는가

2017년 12월 미국 FDA는 인공지능의 의료기기 해당 여부를 결정하는 기준 중 하나로, 사용 과정에서 의료진의 독립적인 판단이 보장되는지를 들었다. 인공지능의 결론을 의사가 독립적으로 판단할 수 있으면 위험성이 현저히 줄어들기 때문이다. 이론적으로 인공지능을 사용하지 않을 때와 비교해서 최소한 위험도가 높아지지는 않는다. (앞서 언급하였듯이, 이는 인공지능으로 인한 의료진의 탈숙련화 현상이 없다는 것을 전제로 한다) 예를 들어, 엑스레이 유방 촬영술 데이터의 인공지능 분석 결과를 영상의학과 전문의가 판독하는 경우를 생각해보자.

반대로 의료진의 독립적인 판단이 보장되지 않는 상황은 몇 가지가 있을 수 있다. 예를 들어, 응급실이나 중환자실에서 환자의 활력 징후에 따라서 ‘실시간’으로 인공지능이 환자의 산소 공급, 약물 주입 등을 결정하는 시스템이 있다면 의료진의 판단이 독립적으로 보장되지 않는다. 또한 병원 밖에서 일반 사용자에게 웨어러블에 내장된 인공지능이 부정맥을 진단하고, 저혈당 쇼크를 예측한다면 이 또한 의사가 관여할 수 없는 상황이다. 의사의 독립적 판단이 보장되지 않는 상황이라면 당연히 의료진의 책임이 적어질 것이다.

한 가지 덧붙이자면, 의사의 독립적인 판단이 보장되는 경우라고 할지라도, 실제로 치료법을 결정하고 이를 환자에게 행하기 위해서는 환자 본인이나 보호자의 동의도 필요하다. 그런데 왓슨 포 온콜로지의 결과를 의사가 받아들이기 어려운 상황에서, 환자가 왓슨의 결정을 더 선호하여 이를 고집하는 경우를 가정해보자. 만약 왓슨의 결정을 선호한다는 환자의 고집대로 의료 행위가 이루어졌으나, 환자의 건강에 부정적 결과가 발생했다면 누구에게 법적으로 책임이 있을까.

인하대 법학전문대학원 장연화 교수는 2017년 6월에 발표한 ‘왓슨의 진단 조력에 대한 현행법상 형사책임에 관한 소고‘ 논문에서, 현행법상 왓슨의 법적인 인격이 인정되지 않고 있으며, 의사와 왓슨 사이의 분업이 이뤄졌다고 해도 이는 지휘·감독 관계의 수직적 분업인 만큼 최종적으로 의사가 형사 책임을 부담해야 한다고 주장했다. 특히, 왓슨과 의사의 판단이 다른 경우에 왓슨의 결정이 낳을 수 있는 부작용이나, 왓슨과 자신의 결정이 다른 점을 충분히 설명하고 진료를 했는지가 법적 쟁점이 될 것이라고도 주장했다. 이러한 법적 이슈에 대한 논의는 앞으로 더 활발해질 것이다.

3. 결과를 얼마나 확정적으로 제시하는가

의료 인공지능이 사용자에게 결과를 보여주는 방식에 따라서도 책임 소재가 달라질 수 있다. 특히, 결과를 얼마나 확정적으로 제시하는지가 중요할 것이다. 과거의 왓슨 포 온콜로지의 데모 영상을 보면 ‘최적의’ 치료법을 권고하기 위해서 각 치료 권고안에 100점 만점의 정량적인 점수를 매겨준다. 하지만 실제로 출시된 왓슨 포 온콜로지는 권고(recommended)-고려(for consideration)-비추천(not recommended)의 3단계로 권고안을 분류해준다. 이를 흔히 ‘신호등 체계’라고 부르기도 한다. 초록-주황-빨강의 몇 가지 색으로 구분된 등급으로 보여주기 때문이다.

정량적 점수로 권고안의 우선순위를 제시하는 왓슨 포 온콜로지 과거 데모

초록/주황/빨강의 등급으로 분류된 왓슨 포 온콜로지의 치료법 권고안

이렇게 100점 만점에 점수를 정량적으로 매겨주는 것이, 소위 신호등 체계보다 ‘더 확정적으로’ 결과를 보여준다. 전자에는 여러 권고안 중에 1등이 하나일 가능성이 높지만, 후자는 ‘추천’ 등급에 여러 개의 치료 권고안이 있을 가능성이 높다. 즉, 전자의 경우에는 인공지능이 최적의 답 하나를 골라주지만, 후자는 인공지능이 권고한 여러 치료법 중에 무엇을 고를지는 의사의 몫으로 남는다. 따라서 두 경우에 제조사와 의료인의 책임은 상당히 달라진다고 할 수 있다.

이는 의료 영상 분석에서도 마찬가지다. 엑스레이나 CT, 혹은 병리 데이터를 분석하는 인공지능의 경우, 이상 소견이 의심되는 부위를 화살표나, 색깔, 윤곽선 등으로 표시해주는 인공지능과 질병의 유무, 진단명, 중증도까지 판단을 내려주는 인공지능은 서로 구분되어야 한다. 후자가 더욱 확정적으로 결과를 알려주며, 분석에 오류가 있을 경우 환자에게 미치는 위해도는 더욱 높다. 따라서 두 경우에 의료인의 책임 소재도 다르게 판단될 가능성이 높다.

실제로 이 두 가지 종류의 의료 영상 분석 인공지능은 규제기관의 인허가 과정에서도 별도의 품목으로 관리된다. 식약처에서 발표한 “빅데이터 및 인공지능(AI) 기술이 적용된 의료기기의 허가·심사 가이드라인”에 따르면 전자는 ‘의료 영상 검출 보조 소프트웨어’로 정의되어 2등급 의료기기로, 후자는 ‘의료 영상 진단 보조 소프트웨어’로 분류되어 3등급 의료기기에 해당한다. 국내에서 3등급 의료기기는 2등급 의료기기보다 더 엄격한 인허가 과정을 거친다.

결과를 얼마나 확정적으로 보여주는지에 따라 식약처는 별도의 품목으로 관리한다

4. 판단 과정이 투명한가 vs. 블랙박스인가

의료 인공지능이 결과를 제시하였을 때, 그 결과가 어떠한 과정을 거쳐서 도출된 것인지, 왜 그러한 결과를 내어놓았는지를 사용자가 알 수 있는지도 매우 중요하다. 이러한 부분을 인공지능의 ‘해석력(interpretability)’ 또는 ‘설명력(explainability)’이라고 한다. 이러한 특징은 여러 인공지능의 적용 분야 중에서도 특히 의료 분야에서 강조되고 있다 [1, 2, 3, 4, 5].

만약 인공지능이 분석한 결과, 의사도 이해하기 어려운 결론이 나왔다면 어떻게 대처해야 할까. 인공지능이 단순한 오류를 저질렀다고 결론짓고 무시해버리면 되는 것일까, 아니면 의사도 놓쳐버린 중요한 무엇인가를 인공지능이 포착한 것일까. 이 문제를 해결할 수 있는 가장 좋은 방법은 인공지능이 왜 그런 결론을 내리게 되었는지 과정과 이유가 투명하게 공개하도록 하는 것이다. 즉, 결론에 대한 해석과 설명 가능한 인공지능이라면 가장 좋을 것이다.

하지만 기계학습 기반의 많은 인공지능은 해석력과 설명력이 낮은 경우가 많다. 특히, 딥러닝은 기본적으로 블랙박스와 다름없다. 이는 매우 중요한 이슈이기 때문에 곧바로 별도로 더 깊게 논의하도록 하고, 여기에서는 설명력이 상대적으로 높은 사례만 간단히 언급하고 넘어가도록 하자.

대표적으로 왓슨 포 온콜로지는 판단 과정이 상대적으로 투명하며, 결과에 대한 설명력도 가진다. 내부적으로 어떠한 과정을 거치는지 알기 매우 어려운 딥러닝과는 달리, 왓슨 포 온콜로지는 판단 결과에 대한 ‘근거’를 제시하기 때문이다. 왓슨도 계산하는 모든 과정을 사용자가 이해할 수 있도록 공개하지는 않지만, 적어도 왜 그런 판단을 내렸는지에 대한 근거를 준다. 각 권고안에 달린 근거 버튼을 누르면, 해당 권고안에 대한 진료 가이드라인, 논문, 임상 시험 결과 등을 보여주기 때문에 판단 과정에 대한 힌트라도 의료진이 얻을 수 있다. 만약 왓슨이 제시한 근거가 적절하지 않다고 생각하면 의료진은 왓슨의 권고를 받아들이지 않을 수 있다.

왓슨 포 온콜로지의 경우 권고안에 대한 근거 자료를 보여주기 때문에
딥러닝에 비하면 상대적으로 설명력이 높다

하지만 딥러닝의 경우 문제가 달라진다. 딥러닝은 기본적으로 블랙박스이며, 계산 과정도 매우 복잡할 뿐만 아니라, 사람과는 다른 방식으로 문제에 접근하기 때문이다.

묘수인가, 떡수인가?

딥러닝의 장점은 양질의 데이터가 많은 경우, 해당 문제에 대한 배경 지식이 없어도 훈련시킬 수 있다는 것이며, 그 성능은 과거의 다른 기계학습 방법보다 현저하게 개선된다는 것이다. 하지만 딥러닝은 그 계산 과정이 일종의 블랙박스와 같아서 투명하지 않기 때문에, 그 인공지능을 만든 사람도 그 원리를 파악하기가 쉽지 않다는 문제가 있다.

알파고의 사례를 보면 딥러닝의 이러한 특성을 쉽게 이해할 수 있다. 알파고는 몇천 년 동안 인간이 쌓아온 바둑에 대한 실력을 단기간에 능가했지만, 특정한 한 수가 구체적으로 어떤 계산 과정을 거쳐서 도출된 것인지를 완전히 파악하기는 매우 어렵다. 페이스북에서 인공지능 연구를 이끌고 있는 얀 리쿤 박사는 딥러닝을 수백만 개의 손잡이가 달린 블랙박스에 비유한다. 방대한 데이터를 하나씩 학습할 때마다 모든 손잡이를 조금씩 조절하게 되는데, 개별적인 손잡이가 왜 그렇게 정해졌는지를 이해하기는 쉽지 않다. (얀 리쿤 박사의 설명은 이는 오차 역전파 알고리즘을 통해 심층 인공 신경망의 은닉층에 있는 수많은 뉴런의 연결에 대한 가중치를 조금씩 조절해나가는 과정을 비유한 것이다)

또한, 딥러닝이 결론을 도출한 과정을 파악할 수 있다고 하더라도, 그 과정이 가지는 ‘의미’를 인간이 이해하는 것은 또 다른 어려운 문제이다. 알파고의 경우에도, 딥러닝 네트워크를 모두 뜯어보면서 수백만 개의 노드에 흩어져 있는 매개변수들의 값을 파악하는 것이 이론적으로는 가능할 것이다. 하지만 그렇게 한다고 하더라도 알파고가 두었던 각 수의 의미를 정확하게 파악하기란 거의 불가능에 가깝다. 이는 인간 뇌를 구성하는 뉴런과 뉴런 사이에 전달되는 전기적 신호를 물리적으로 모두 측정한다고 해도, 그 사람의 생각을 읽을 수는 없는 것과 비슷하다.

딥러닝의 이러한 특징 때문에 우리는 알파고와 이세돌 9단의 대결에서 큰 충격을 받았다. 해설자조차도 알파고가 두었던 많은 수를 처음에는 악수로 생각했으나, 나중에는 이러한 수들이 엄청난 묘수로 드러난 것이다. 우리가 받은 충격은 결국 알파고의 설명력이 낮기 때문이었다. 설명력이 낮기 때문에 그 수를 왜 두었는지 완벽히 이해하는 것도 불가능하고, 이해하기 위해서는 결과만 놓고 과정을 인간이 유추해보는 방법밖에 없다.

의료 인공지능의 블랙박스 문제

그런데 재미로 두는 바둑이 아니라, 사람의 목숨이 달린 의료에서는 이런 블랙박스 문제가 심각해진다. 예를 들어, 딥러닝 기반의 인공지능이 유방 엑스레이 사진을 보고 특정 부분이 암이라고 높은 정확도로 판단할 수는 있지만, 그것을 왜 암이라고 판단했는지는 알려주지 않기 때문이다. 인공지능이 그 부분의 형태, 색깔, 위치, 크기, 혹은 또 다른 이유로 그렇게 판독 결과를 내어놓았는지를 파악하기는 매우 어렵다.

대부분의 경우, 딥러닝 기반의 인공지능이 내어놓은 결과를 의사들이 본인의 전문성을 바탕으로 해석할 수 있을 것이다. 그런데 만약 딥러닝이라는 블랙박스에서 특이적이고 예외적인 판독 결과가 나왔고, 의사도 왜 이런 결과가 나왔는지 이해하지 못하는 경우는 어떻게 해야 할까. 정확도가 99.99%에 달하고 FDA 인허가를 받은 인공지능도 오류가 전혀 없으리라고 장담할 수는 없다.

그렇다면 이 결과를 인공지능의 실수라고 간주하고 무시해야 할까. 혹시 딥러닝이 인간이 파악하지 못하는 방식으로 환자의 특성을 이해했거나, 인간이 인지하기 어려울 정도로 미세한 전조증상을 포착한 것은 아닐까. 그렇다면 추가 검사를 더 해봐야 할까. 이러한 딜레마적인 상황은 결국 딥러닝이 블랙박스이기 때문에 발생하는 문제이다. 이 때문에 설명력을 높이는 것은 의료 인공지능에서 매우 중요한 숙제이다.

특히, 설명력을 높이는 것은 진료 현장에서 인공지능이 활용되기 위해서뿐만 아니라, 의료 인공지능을 개발하는 과정에서도 중요하다. 우수한 의료 인공지능을 개발하기 위해서는 단순히 성능이 좋은 것이 아니라, 정확도가 높으면 왜 높은지, 오류가 나오면 왜 오류가 나오는지를 이해할 필요가 있기 때문이다. 특히, 딥러닝이 블랙박스라는 것을 자칫 간과하는 경우, 답을 잘 찾아내기는 하지만 잘못된 과정을 거치기 때문에 가치가 없는 인공지능이 만들어질 수도 있다.

이와 관련하여, 서울아산병원의 서준범 교수님, 김남국 교수님 연구팀에서는 직접 경험한 흥미로운 사례를 드시곤 한다. 연구팀에서 흉부 엑스레이 데이터를 학습시켜 심장비대(cardiomegaly)를 높은 정확도로 인식하는 딥러닝을 만들었다. 심장비대란 말 그대로 심장의 크기가 커진 상태가 특징이므로, 따라서 연구팀은 당연히 딥러닝도 심장의 크기를 바탕으로 심장비대를 파악할 것으로 기대하였다. 하지만 분석 결과, 딥러닝은 정작 심장의 크기를 보는 것이 아니라 환자의 엑스레이에 특징적으로 드러나는 수술 자국을 보고 판단한다는 것을 알게 되었다는 것이다. 이러한 인공지능은 결과적으로는 정답을 잘 맞힌다고 할지라도, 의학적인 가치는 없을 것이다.

블랙박스 해석하기

이처럼 의료 인공지능을 개발하고, 임상 현장에서 환자에게 적용하기 위해서 설명력과 해석력을 높이는 것은 중요하다. 특히 이미지를 분석하는 딥러닝에 대해서 ‘해석 가능한 인공지능’을 만들기 위한 연구가 최근 활발하다 [1, 2, 3, 4, 5, 6].

이러한 연구들은 대부분, 주어진 이미지를 딥러닝이 분류하거나 판독하기 위해서 어느 부분이 중요했는지를 시각화하여 분석 과정을 파악하는 것이 목적이다. 예를 들어서, 개구리나, 상어, 고양이 등의 사진을 입력했을 때, 이를 각각 개구리, 상어, 고양이로 분류하기 위해서 전체 사진 중에 특히 어느 부분이 그러한 판단에 영향을 주었는지를 보는 것이다.

사실 이러한 분석은 딥러닝이 특정 부분이나 특정 픽셀을 왜 중요하게 판단했는지, 그것을 왜 개구리라고 생각했는지 이유는 알려주지는 않는다. 하지만 적어도 딥러닝의 판단 과정을 우리가 유추해볼 수 있도록 해주며, 또한 의도한 대로 인공지능이 디자인되었는지도 판단 가능해진다. 앞서 설명한, 서울아산병원의 심장비대를 진단하는 인공지능의 사례도 이러한 분석을 통해 딥러닝이 심장이 아닌 수술자국을 본다는 것을 파악할 수 있었다.

딥러닝이 이미지의 어느 부위를 판단에 중요하게 고려했는지를 다양한 방법으로 분석할 수 있다 [ref]

이러한 영상을 분석하는 딥러닝의 판단 근거를 시각화하는 방법도 계속 발전하고 있으며, 세부적으로 들어가면 다양한 방법들이 있다. 가장 단순한 방법은 입력되는 사진의 일부분을 일부러 가려서, 예측 결과가 어떻게 변화하는지, 얼마나 변화하는지를 보는 것이다 [ref]. 이 방법은 만약에 가려지는 부분이 딥러닝이 판단에 중요하게 여기는 부분이라면, 가렸을 경우와 가리지 않았을 경우에 예측 결과가 크게 달라질 것이라는 점을 가정으로 한다.

예를 들어, 고양이 사진을 입력했을 때, 딥러닝이 고양이라고 정확히 판별했다고 치자. 만약 고양이를 가리고 입력했을 때, 딥러닝의 판단 결과가 같다면 무엇인가 잘못된 것이다. 실제로는 이 방법은 고양이 전체를 모두 가리는 방식이 아니라, 사진의 아주 작은 영역을 차례대로 가려가면서 (‘슬라이딩 윈도우’ 방법이라고 한다), 이미지의 중요 부분을 파악한다.

매사추세츠 종합병원에서 2017년 발표한 골연령 판독 인공지능 연구에서 이러한 방법을 통해 인공지능의 판단 과정을 파악했다. 연구진은 딥러닝을 기반으로 손의 엑스레이 사진을 찍어서 뼈의 나이를 판독하는 인공지능을 개발하였고, 입력하는 엑스레이 사진의 일부분을 차례대로 가려가는 방식으로 어느 부분이 판단에 영향을 주었는지를 시각화해보았다. 그 결과 각 성장 단계에서 기존에 엑스레이 골연령 판독에 중요하다고 알려진 부위와 개발한 딥러닝이 중요하게 여기는 부위가 상당히 일치한다는 것을 알 수 있었다.

엑스레이 골연령 판독 딥러닝이 어느 부위를 중요하게 판단하는지를 시각화 [ref]

이렇게 입력한 데이터를 시각화하는 방식으로 딥러닝의 블랙박스를 해독하려는 시도는 다양하다. 공간적 정보를 가지는 특징 지도(feature map)를 가중합(weighted sum)하거나, 입력한 영상의 각화소 변화에 따른 출력값의 민감도를 측정하는 방법 등이 있다. 이러한 각각의 방식은 분석 속도, 분석에 필요한 계산 비용, 시각화된 주요 영역이 얼마나 세밀한지, 얼마나 직관적으로 해석할 수 있는지 등에 대해서 장단점이 서로 다르다.

딥러닝의 설명력을 높이고 블랙박스 문제를 해결하는 것은 워낙 중요한 문제이기 때문에, 앞으로 더 많은 연구가 진행될 것이다. 사실, 여기에서 소개한 시각화 방법은 주로 이미지 분석에만 활용 가능한 것이다. 그러므로 앞서 설명한 세 가지 유형의 의료 인공지능 중에서도 영상을 분석하는 딥러닝 이외에, 진료기록이나 유전정보 등의 의료 빅데이터를 분석해서 통찰력을 얻거나, 심전도나 혈당 등의 생체 신호를 모니터링하는 또 다른 유형의 인공지능의 설명력을 높이기 위한 연구도 필요할 것이다.

블랙박스의 의료 활용

그렇다면 인공지능의 블랙박스 문제를 완벽하게 해결하기 전에는 의료 인공지능을 진료 현장에서 활용하는 것이 불가능할까? 그렇지는 않다고 생각한다. 인공지능 자체의 기술적인 한계를 인정하면서도, 이를 극복하면서 인공지능의 효용을 극대화할 방법들이 없지 않기 때문이다. 인공지능 기술을 개선해서 블랙박스 문제를 보다 근본적으로 해결하는 방법도 있겠지만, 의료에서는 기술 외적인 부분을 통한 해결도 가능하리라 본다.

이 문제는 결국 다시 의료 인공지능을 어떻게 검증하고, 의료 기기 여부를 구분하며, 임상 연구를 통해서 검증하고, 규제기관이 인허가 하며, 그 이후에도 의사가 현장에서 이를 어떠한 방식으로 진료에 활용할 것인지의 문제로 귀결된다. 즉, 인공지능이 완벽하지 않다고 하더라도, 충분한 연구를 통해서 안전성과 정확성을 검증하며, 오류가 발생하더라도 의사가 충분히 걸러낼 수 있는 프로세스가 갖춰져 있고, 의사와 의견이 불일치 하는 등의 예외적인 상황에 어떻게 대처할지의 원칙이 있다면 의료 현장에서도 충분히 활용 가능할 것이다.

더구나 혹자는 오히려 의료 분야에서 인공지능의 블랙박스 문제가 별다른 걸림돌이 되지 않는다고 주장하기도 한다. 이러한 의견의 근거는 바로 기존에 의료에서 행해지는 많은 부분도 사실은 블랙박스인 부분이 많다는 점이다. 단적으로 식약처나 FDA에서 승인받고 현재 환자에게 처방되는 약 중에도 작용 기전이나 표적 물질이 밝혀지지 않은 경우가 많다.

예를 들어, 미국에서는 양극성 장애의 치료에 리튬을 수십 년 간 사용해왔지만 (기원을 따지자면 19세기 중반까지도 거슬러 올라간다), 리튬이 기분 장애를 어떤 방식으로 개선하는지 생화학적 메커니즘은 최근에 와서야 밝혀졌다 [1, 2]. 작용 기전의 규명 없이 오랫동안 사용했던 더 유명한 약은 바로 아스피린이다. 이런 약들은 일종의 블랙박스임에도 불구하고, 안전성에 큰 문제가 없고, 효과가 있다는 것만으로 이미 의료계에서는 널리 활용해왔다.

따라서 인공지능의 경우에도 완전히 작동 원리를 이해하지 못한다고 할지라도, 안전성과 정확성이 검증되면 의료 현장에서 활용할 수 있다는 주장이다. 사실 FDA는 이미 그러한 방식으로 인허가를 진행하고 있다. 2017년 1월, 실리콘밸리의 아터리스(Arterys)라는 회사의 카디오 DL (Cardio DL)은 딥러닝 기반의 인공지능으로는 최초로 FDA 승인을 받았다 [1, 2, 3]. 카디오 DL은 심장의 MRI를 기반으로 심실의 구분(ventricle segmentations)을 자동으로 수행하는 인공지능인데, 의사들이 수작업으로 30분 이상 걸리던 작업을 10초 정도의 짧은 시간에 끝내준다. 그런데 FDA가 이 인공지능을 승인해준 이유는 아터리스가 카디오 DL의 블랙박스를 모두 해독해서 보여주지는 않았지만, 결과적으로 인간 의사와 동등한 수준의 정확도를 가진다는 것을 충실히 증명했기 때문이다.

최초로 FDA 승인받은 딥러닝 기반의 의료 인공지능, 카디오 DL

2018년 초 현재 한국에서는 아직 딥러닝 기반의 인공지능이 의료기기로 인허가받은 사례는 없으나, 식약처 역시 FDA와 같은 방향을 지향하고 있다. 2017년 하반기 뷰노, 루닛, 제이엘케이인스펙션 등 몇몇 스타트업이 각각 딥러닝 기반의 골연령 측정, 폐결절 진단, 뇌경색 진단 등의 의료기기에 대한 확증임상을 승인받고, 임상 시험을 시작했다. 이러한 임상시험 역시 인공지능의 정확성을 입증하는 것이 가장 중요한 목표이다. 임상 시험이 성공적으로 진행된다면, 이르면 2018년 내에 국내에도 최초로 식약처 승인을 받은 인공지능이 등장할 것으로 기대하고 있다.

About The Author

Yoon Sup Choi

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』『의료 인공지능』『헬스케어 이노베이션』 등을 집필하였습니다.