Tuesday 19th March 2024,
최윤섭의 디지털 헬스케어

구글, 안과 전문의 수준의 의료 인공지능 발표

구글이 당뇨성 망막병증을 정확하게 진단할 수 있는 딥 러닝 (deep learning) 기반의 인공지능을 발표했다. 이 연구 결과는 지난 2016년 11월 29일 저명한 의학 학술 저널인 JAMA에 실렸다. 이번 논문에서 구글의 인공지능은 안저 사진(Retinal Fundus Photographs)을 판독하여, 최고의 인간 안과전문의와 맞먹는 수준의 정확성을 얻었다. 더 나아가, 이 성능은 ‘보통의 안과의사’ 의 실력을 뛰어넘는 정도라고 한다.

 

당뇨성 망막병증

만성질환인 당뇨병은 세계인 19명 중의 한 명에 해당될 정도로 흔하고도 심각한 질병이다. 혈당이 적정한 수준으로 조절되지 않는 당뇨병 환자들은 장기적으로 여러 합병증으로 고통받게 된다. 그 중에 가장 대표적인 것이 바로 당뇨성 망막병증(Diabetic retinopathy)이라는 안과 질환이다. 이 질병은 당뇨병력이 30년 이상인 환자의 90%에게 발병하게 되며, 세계 각국에서 실명의 주요 원인이 되고 있다. 이 당뇨성 망막병증 환자도 세계적으로 빠르게 증가하고 있으며, 약 415m 명의 환자들이 위험군에 속한다.

당뇨성 망막병증을 진단하기 위한 가장 일반적인 방법은 안과전문의가 안저(안구의 안쪽)를 사진으로 찍어서 판독하는 것이다. 이 사진을 통해 안과전문의들은 망막 내 미세혈관 생성이나, 출혈, 삼출물 정도를 파악하여 이 질병의 진행 정도를 판단하게 된다.

image01

당뇨성 망막병증의 진단을 위하여 찍은 안저 사진의 예시. (A)는 건강한 환자, (B)는 당뇨성 망막병증 환자.
(B)에서는 여러 군데의 출혈(hemorrhages)을 관찰할 수 있다. (출처: Google Research Blog)

기계학습 방법 중의 일종인 딥러닝은 최근 가장 주목 받고 있는 인공지능 기술이다. 딥러닝은 음성, 영상, 텍스트 등 다양한 종류의 데이터에 적용 가능한데, 특히 이미지 분석 분야의 발전이 눈부시다. 이는 매년 열리는 인공지능 이미지 인식대회인 Image Net의 성적이 해마다 크게 좋아지는 것만 봐도 알 수 있다.

때문에 세계적으로도 구글, IBM 등의 많은 인공지능 기업들이 이미지 분석, 특히 의료 이미지 분석에 도전하고 있다. 실리콘밸리의 엔리틱(Enclitic)을 비롯하여 국내의 루닛(Lunit), 뷰노(VUNO) 등 딥러닝 기반의 인공지능 의료 스타트업 역시 마찬가지다. 이들 기업이 도전하고 있는 최우선 분야로 CT, MRI, X-Ray 등의 영상의학과나, 병리과의 조직검사 데이터 등과 함께, 이 안저 데이터가 손꼽혀 왔다.

 

구글의 인공지능의 우수한 성능

구글은 deep convolutional neural network(CNN) 를 이용해서 후향적으로 128,175개에 달하는 안저 이미지를 인공지능에 학습시켰다. 이 사진은 당뇨성 망막병증과 황반부종(diabetic macular edema) 등에 대해서 안과전문의들에게 3-7회 판독 받은 데이터였다. 이 과정에는 미국의 안과 전문의 54명이 2015년 3월부터 12월까지 참여했다. 이 연구에 사용된 딥러닝 알고리즘은 구글에서 개발한 컴퓨터 비젼 아키텍쳐인 인셉션 v3 (Inception-v3)을 이용했다.

이렇게 개발한 알고리즘을 EyePACS-1 과 Messidor-2 라는 잘 알려진 대규모 안저 사진 데이터셋에 대해서 검증하였다. EyePACS-1 데이터셋은 4,997명의 환자들로부터 9,963 개의 이미지로 구성되어 있으며, Messidor-2 데이터셋은 874명의 환자들로부터 1,748 개의 이미지로 구성된다. 인공지능의 성능을 검증하기 위해서는 우수한 안과전문의들 7-8명의 판독 결과와 비교했다. (개발에 참여했던 54명의 의사 중에 일관된 판독을 보여준 일부 의사가 참여했다고 한다)

그 결과 구글의 알고리즘의 성적은 매우 우수했다. EyePACS-1 과 Messidor-2 의 두 테스트 셋에 대해서 ROC 커브를 그려보면, 아래의 그림과 같이 나온다. (후덜덜….) EyePACS-1 과 Messidor-2 의 두 테스트 셋에 대한 AUC 값은 각각 무려 0.991, 0.990에 달한다. 사실 더 무서운 것은 이 연구가 진행될 당시에 활용된 인셉션 v3 는 이미 옛날 버전이고, 현재 최신 버전은 v4 이다. 업데이트 된 버전의 정확도는 당연히 더 좋으며, 같은 데이터셋에 대해서 인셉션 v4 아키텍쳐를 이용하면 퍼포먼스는 아마도 더 개선될 것이다. 

dr-jama-fig1

일반적으로 인공지능의 성능은 민감도(sensitivity)와 특이도(specificity)라는 두 가지 척도를 통해서 평가할 수 있다. 쉽게 말해서 민감도는 실제로 질병이 있는 사람을 검사했을 때 ‘질병이 있다’ 고 판단하는 비율이며, 특이도는 질병이 없는 사람을 검사했을 때 ‘질병이 없다’ 고 판단하는 비율이다. 민감도와 특이도는 이렇게 서로 상반되는 값이기 때문에 둘 다 높은 성능을 얻기란 매우 어렵다.

ROC 커브는 이 민감도와 특이도를 동시에 시각화한 곡선인데, 왼쪽 위로 곡선이 붙을 수록 더 좋은 성능을 보이는 것이다. 이를 수치화하기 위해서 곡선 아래의 면적(Area Under the Curve, AUC)를 본다. AUC 값이 1이면 100% 완벽한 알고리즘이다. 이 수치가 0.991, 0.990이라는 것은 이 알고리즘이 매우 정확하다는 것이다.

 

인간 의사의 판독을 능가

특히, 위의 그래프에서 보면 색깔별로 표시된 동그란 점들이 있다. 이 점들은 구글의 인공지능의 테스트에 사용된 안과전문의들의 성적을 나타낸 것이다. 점들의 대부분이 ROC 커브의 주위에 위치하고 있다. 이는 인공지능의 성능이 인간 안과전문의와 거의 비슷하다는 것을 나타내고 있다. 어떤 점들은 선의 오른쪽 아래에 위치하고 있는데, 이는 민감도와 특이도 측면에서 인공지능보다 성적이 조금 떨어진다는 것이다.

또한 F-score 로 본다면 (이 값 역시 민감도와 특이도를 모두 고려한 값이다) 구글의 알고리즘은 0.95로 성능 평가에 참여한 8명의 안과 전문의들의 F-Score인 0.91 보다 약간 높았다. 이 테스트 과정에 선정된 일부 의사들이 구글의 인공지능 개발 때 참여한 54명 중에서도 우수한 분들을 모은 것이라는 점을 고려해보면, 구글의 인공지능이 상당히 정확한 것을 알 수 있다.

구글의 전설적인 개발자 제프 딘(Jeff Dean)은 구글의 이 연구 결과를 발표한 블로그에서 “기계 학습 모델이 당뇨성 망막병증의 판독에 대해서 평균적인 안과전문의보다 성적이 더 좋다(A machine learning model that is better than the median board-certified ophthalmologist in assessing signs of diabetic retinopathy)” 고 이야기하기도 했다. (혹시 제프 딘이 누구인지 모르는 분들은 ‘제프 딘의 29가지 진실‘을 참고해보자. ‘척 노리스의 진실’을 패러디한 시리즈가 나올 정도로 위대한 프로그래머이다.)

screen-shot-2016-12-04-at-5-17-52-pm

민감도와 특이도를 동시에 극대화할 수는 없기 때문에, 각각의 수치를 극대화하는 식으로 두 테스트 셋에 대해서도 별도의 트레이닝을 거쳐보기도 했다. 특이도를 극대화했을 때와, 민감도를 극대화했을 때의 성능은 아래의 표에서 보이는 바와 같다.

screen-shot-2016-12-04-at-5-09-28-pm

또한 논문에서는 당뇨성 망막병증의 중증도나 안저 사진의 퀄리티, 동공확대를 시킨 사진과 그렇지 않은 사진 등 다양한 조건으로 구글의 인공지능의 성능을 테스트 해보았으나, 그 정확성은 크게 변하지는 않았다.

관련 포스팅

 

안과 인공지능의 장점과 한계

이러한 구글이 개발한 안저 데이터를 판독하여 당뇨성 망막병증을 진단하는 알고리즘은 큰 가능성과 한계를 동시에 지니고 있다.

장점은 일관성, 즉 똑같은 데이터에 대해서 매번 같은 결과를 내어 준다는 것이다. 또한 민감도와 특이도가 모두 높다는 것이 이번 딥 러닝 기반의 연구 성과이다. 과거에도 안저 데이터를 분석한 많은 연구들에서 민감도와 특이도 하나는 90% 후반대까지 기록한 경우가 있었으나 [ref 1, 2, 3, 4], 이번 연구처럼 민감도와 특이도 모두에서 높은 수치를 얻지는 못했다.

더 나아가, 사용 목적에 따라서 한쪽 수치를 극대화하여 사용할 수도 있다. 특히 대량의 데이터를 처리해야 하는 검진 센터 등에서 이러한 인공 지능이 인간 의사와 함께 판독에 참여하여, ‘혹시 인간 의사가 놓친 질병이 없는지’ 를 파악하기 위해서라면 민감도를 극대화하여 사용할 수 있을 것이다.

또한 이러한 인공지능은 의사가 부족한 후진국에서도 유용하게 활용될 수 있다. 당뇨병 환자의 많은 수가 안과 의사가 부족한 후진국에 살고 있기 때문이다. WHO가 2016년 4월 발표한 ‘세계 당뇨병에 관한 보고서’에 따르면 당뇨병 유병률은 선진국에 비해서 후진국에서 크게 증가하고 있다.

 

하지만 이번 연구에도 많은 한계가 있음을 논문에서는 지적하고 있다. 예를 들어서, 여러명의 의사가 판독한 기준을 바탕으로 학습하고, 성능을 평가하는 방식의 문제가 있다. 이러한 방식에서는 소수의 매우 우수한 의사가 데이터에서 (다른 대부분의 의사들은 발견하지 못한) 미세한 발견을 하더라도 학습이나, 테스트 과정에서 반영되지 못한다.

또한 딥 러닝 방식이 블랙박스라는 근본적인 문제가 있다. 안저 사진을 잘 판독하기는 하지만, 이미지의 어떠한 부분, 예를 들어 특정 혈관이나 출혈 때문에 그러한 판독 결과를 내었는지의 과정은 알 수 없는 것이다. 분명히 딥 러닝도 어떠한 기준을 바탕으로 판독을 하는 것일텐데, 그 기준이 어떠한 것인지 알기는 어렵다. 그 기준은 인간과 같을 수도 있고, 아직 인간이 발견하지 못한 완전히 새로운 기준일 수도 있다. 이는 의료 분야에서는 항상 바람직하다고만 할 수 없는 일이다. 사실 이러한 딥러닝의 근본적인 한계는 앞으로도 더 큰 이슈가 될 것이다.

이러한 여러 측면을 고려하여 구글은 기존의 종합적인 안과 검진을 이 알고리즘이 대체할 수는 없다는 점을 강조하고 있다. 하지만 큰 가능성을 보여주고 있다는 점은 부인할 수 없을 것 같다.

국내에서도 루닛, 뷰노와 같은 스타트업이 여러 병원과 협업하여 의료 인공지능이 활발하게 연구되고 있다. 필자가 이러한 기업들과 가깝게 지내면서 (disclaimer: 필자는 뷰노의 advisor 입니다) 이야기를 들어보면, 연구의 걸림돌 중의 하나는 의료 현장에 있는 의사들이 협조적이지 않다는 것이다. 인공지능에게 일자리를 빼앗길까봐 두려워서 협조를 하지 않는다기 보다는, 아직까지 인공지능의 성능에 대한 신뢰가 없는 부분이 크다. 즉, ‘아무리 인공지능이 발전했다고 하더라도, 아직은 의사를 따라오려면 멀었다’ 라는 것이다. 그러한 의사에게 이번 연구 결과는 다소 충격적으로 다가올 것 같다.

About The Author

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』 『의료 인공지능』 『헬스케어 이노베이션』 등을 집필하였습니다.

Leave A Response