Sunday 24th March 2024,
최윤섭의 디지털 헬스케어

피부과 전문의 수준의 인공지능 개발과 그 의미

스탠퍼드 대학교의 연구진이 피부암을 피부과 전문의 수준으로 진단할 수 있는 딥 러닝(deep learning) 기반의 인공지능을 개발했다. 2017년 2월 네이쳐 지에 발표된 이 논문에서 인공지능은 피부 병변 사진의 판독에 대해서 피부과 전문의보다 더 나은 실력을 보였다. 최근 블로그에서 소개했던, 구글의 당뇨성 망막 병증 판독 딥러닝과 마찬가지로 인간 전문의와의 실력 비교에서 우월한 정확성을 보인 것이다.

왜 피부암인가

피부암은 매년 미국에서만 540만 명의 신규 환자가 발생할 정도로 빈번한 질병이다. 특히, 피부암은 조기 발견이 중요하다.  피부암 중에서 가장 악성이며 예후가 좋지 않은 흑색종(melanoma)의 경우 조기에 발견하면 5년 생존율이 97%로 양호하지만, 말기에 발견하면 14%로 매우 낮기 때문이다. 하지만 피부암은 초기에 자각 증상이 없는 경우가 많고, 피부에 있는 다른 점, 검버섯, 사마귀와 구분이 어려운 경우가 많아서, 환자들은 출혈 등의 이상 증상이 생긴 다음에야 뒤늦게 병원을 찾는 경우가 많다.

흑색종의 자가진단을 위해서는 소위 ABCDE 법이라는 것이 권장된다. 일반적인 점과 흑색종을 구분할 수 있는 기준들인데, 점의 좌우가 대칭적인지(Asymmetry), 경계가 명확한지(Border), 색깔이 단일한지, 특히 흰색이나 파란색이 섞여 있지 않은지(Color), 직경이 6mm를 넘지 않는지(Diameter), 점의 크기나 모양, 색깔이 시간이 지남에 따라서 변화하고 출혈이 생기지 않는지 (Evolving)가 기준이다. 이러한 기준에서 의심할만한 여지가 있다고 판단되면, 빠른 시일 내에 병원을 방문하여 진단을 받아보는 것이 권장된다.

1440181798502

피부과 전문의도 일단 의심스러운 병변을 눈으로 보거나, 혹은 일종의 휴대용 현미경인 더마토스코프 (dermatoscope)을 사용해서 진단을 내리게 된다. 더마토스코프는 저배율로 피부를 확대해서 맨눈으로 관찰하기 어려운 피부의 색조변화 등 형태학적 특성을 관찰할 수 있으므로 진단에 도움이 된다고 한다. 피부과 의사에게 청진기와 같은 도구라고 할 수 있는 것이다. 만약 이런 검사에서 결론을 내리기 어렵거나, 암이 의심될 경우에는 병변을 직접 떼어내어 (이를 생검(biopsy)이라고 합니다), 병리과에서 조직 검사를 통해 암인지, 어떤 암인지, 몇기인지 등을 확진하게 된다.

이렇게 피부암 의심 병변의 경우 우선 피부과에서 인간 의사의 ‘시각적 인지 능력’을 바탕으로 진단을 받게 된다. 이 ‘시각적 인지 능력’ 이라는 것에서, 인공지능이나 딥러닝에 익숙하신 분들이라면 금방 떠오르는 것들이 있으실 것이다. 딥러닝은 많은 이미지 인식 분야에서 이미 인간의 인지 능력을 뛰어넘고 있기 때문이다. 구글이 당뇨성 망막병증을 진단하기 위해 안저 사진을 분석한 것도 이러한 맥락이다. 즉, 피부 병변 사진을 딥러닝으로 학습시켜, 판독하게 하면 암인지 여부를 정확하게 판독할 수 있는 가능성이 있는 것이다.

 

피부암에 인공지능을 적용한다면

사실 피부암은 예전부터 기계학습의 이미지 인식 기술을 활용하여 판독이 시도되어 오던 분야다. 심지어는 스마트폰 카메라로 찍은 사진을 통해 흑색종을 진단해주겠다는 어플리케이션도 여럿 나와 있을 정도다. 하지만 그 정확도는 높지 않았고, 의료기기 인허가를 받은 것도 별로 없었다. 때문에 흑색종을 ‘진단할 수 있다’고 과대 주장하는 MelApp과 Mole Detetive라는 두 앱이 미국의 공정거래위원회(FTC)에서 2015년 2월 벌금을 부과받은 사례도 있다.

Mole-Detective

특히, 이러한 앱의 정확도에 대해서 2013년 4월에 JAMA Dermatology에 나온 논문을 참고할만 하다. 이 논문의 제목 자체가 “흑색종 검출을 위한 스마트폰 어플리케이션의 진단 부정확성(Diagnostic Inaccuracy of Smartphone Applications for Melanoma Detection)” 이다.

이 연구에서는 흑색종을 진단해주겠다는 네 가지 익명의 스마트폰 앱의 정확성을 분석했다. 흑색종 및 정상 사진을 앱으로 분석하고, 이 결과를 피부과 전문의들의 판독과 비교하여 정확성을 평가했다. 그 분석 결과, 네 개의 앱들 사이에서도 흑색종 판독 결과가 매우 편차가 컸다. 특히, 30% 이상의 경우에 잘못된 판독을 내렸는데, 이미지 분석 알고리즘을 통해 자동으로 판독해주는 앱의 정확도가 상대적으로 더 좋지 않았다. 그나마 정확도가 괜찮았던 앱은 이미지를 원격으로 피부과 전문의에게 전송해서 판독을 해주도록 하는 앱이었다.

이 결과만 보면 꽤나 실망스러운 결과라고 할 수 있다. 사실 이 연구는 2012년에 제출된 논문으로 연구 시기를 고려해보면 딥러닝이 대두되기 이전에 행해진 연구이다. 이 논문을 바탕으로 ‘피부암의 판독을 위해 인공지능은 아직 멀었다’ 고 주장하는 분도 있었지만, 필자는 강의에서 ‘하지만 딥러닝으로 똑같은 앱을 만들면, 결과가 완전히 달라질 것이다’ 고 언급해왔는데, 그러한 결과가 이번 네이쳐 논문으로 나왔다고도 볼 수 있겠다.

또한 IBM Research는 2015년 말에 97% 의 정확도로 피부암을 진단하는 기술을 개발했다고 발표한 바 있다. IBM Watson for Oncology를 함께 개발한 뉴욕의 메모리얼 슬론 캐터링 암센터(MSKCC)와 공동연구를 통해서 개발했다고 한다. (이 결과는 Watson과는 별도 부서에서 진행한 것으로 보인다) 3,000개 이상의 흑색종 등 피부암 병변에 대해서 테스트 했으며, 95% 이상의 정확도로 종양과 정상 사례를 구분할 수 있다고 언급했다. 하지만 이 발표 이후로 논문이나 자세한 데이터를 발표하지는 않아서, 정확히 어떤 기술을 활용했으며 정확성이 구체적으로 어느 정도인지를 파악하기는 어려워 보인다.

Screen-Shot-2014-12-16-at-6.18.49-PM

IBM은 2015년 말 피부암 진단 인공지능을 개발했다고 발표했다 (출처: IBM Research)

 

딥러닝의 피부암 데이터 학습

이번 연구에서 스탠퍼드 연구진들은 이미지 인식을 위한 딥러닝 알고리즘 중 대표적인 deep convolutional neural network (CNN)을 활용해서 방대한 양의 피부 병변 이미지를 학습시켰다. 딥러닝으로 정확도를 높이기 위해서는 방대한 양의 학습 데이터가 필요하다. 피부암에 대해서는 기존에 딥러닝의 학습에 이용할만한 충분히 많은 양의 데이터가 없었기 때문에, 연구자들은 이 데이터부터 직접 만들어야 했다.

연구자들은 방대한 양의 피부 병변 데이터들을 스탠퍼드 병원 자체 데이터를 포함한, 에든버러 대학의 이미지 라이브러리 등 여러 연구소의 데이터베이스, 인터넷에서 긁어 모았다. 이 병변의 이미지들은 각도, 배율, 밝기 등이 저마다 달랐는데, 스탠퍼드 대학병원 피부과 전문의들과의 협업을 통해서 이 사진들을 일일이 판독하는 무지막지한 과정을 거쳤다. 또한 체계적으로 질병명을 지정해야 학습과 검증에 용이하므로, 아예 다양한 피부과 질병의 계층 관계(taxonomy)를 정의하기도 했다. 그 결과 2,000개 이상의 질병으로 체계적으로 판독되어 있는 무려 13만 장의 피부 병변 이미지 데이터를 만들 수 있었다.

taxonomy다양한 피부과 질환에 대한 계층도를 만들어서,
이를 기반으로 13만장의 이미지를 판독 (출처: Nature)

이렇게 만든 데이터를 이용하여 구글이 개발하여 2014년 이미지 인식 대회 ImageNet에서 활용했던 딥러닝 알고리즘, GoogleNet Inception v3를 그대로 활용했다. 이 공개 알고리즘이 이미 매우 우수한 성능을 지닌다는 것이 증명되어 있고, 다른 사례들에도 널리 사용되고 있기 때문에 굳이 새로운 아키텍쳐를 만들지 않았던 것 같다. 이는 최근 구글이 당뇨성 망막병증 인공지능을 개발할 때 사용한 것과 동일한 방법이다.

inception v3

구글이 개발한 CNN 아키텍처, 인셉션 v3를 이용하여 피부 병변 이미지를 학습 (출처: Nature)

 

피부암 진단 정확도

이렇게 개발한 인공지능의 성능을 검증하기 위해서 생검과 조직검사를 통해 기존에 확진해놓은 이미지 데이터를 활용했다. 특히, 의학적으로 구분이 중요한 세 가지 경우에 대해서 테스트를 진행했다.

  • 표피세포 암 (keratinocyte carcinoma)과 지루각화증(검버섯, benign seborrheic keratosis)의 구분
  • 악성 흑색종과 양성 병변 구분 (표준 이미지 데이터 기반)
  • 악성 흑색종과 양성 병변 구분 (더마토스코프로 찍은 이미지 기반)

아래의 사진에는 이러한 세 가지 경우의 사진들이 나온다. 윗쪽 사진이 양성(benign)이고 아래쪽 사진이 악성(malignant) 사진들인데 언뜻 눈으로 보아서는 앞서 언급한 ABCDE를 기준으로 하더라도 구분이 쉽지 않다.

malignant benign양성(윗줄)과 악성 종양(아랫줄) 이미지의 예시 (출처: Nature)

세 가지 경우에 대해서 각각 135개, 130개, 111개 이미지로 인공지능의 판독 결과와 21명 이상의 피부과 전문의들의 판독결과를 비교해보았다. 그 결과 놀랍게도 세 경우 모두 인공지능의 판독 성적이 인간 피부과 전문의들보다 좋았다.

인공지능의 성능은 민감도(sensitivity)와 특이도(specificity)라는 두 가지 척도를 통해서 평가한다. 쉽게 말해서 민감도는 실제로 질병이 있는 사람을 검사했을 때 ‘질병이 있다’ 고 판단하는 비율이며, 특이도는 질병이 없는 사람을 검사했을 때 ‘질병이 없다’ 고 판단하는 비율이다. 민감도와 특이도는 이렇게 서로 상반되는 값이기 때문에 둘 다 높은 성능을 얻기란 매우 어렵다.

ROC 커브는 이 민감도와 특이도를 동시에 시각화한 곡선인데, 아래의 그림에서는 오른쪽 위로 곡선이 붙을 수록 더 좋은 성능을 보이는 것이다. 이를 수치화하기 위해서 곡선 아래의 면적(Area Under the Curve, AUC)를 본다. AUC 값이 1이면 100% 완벽한 알고리즘이다. 이 수치가 각각 0.96, 0.94, 0.91 이라는 것은 인공지능의 판독이 매우 정확하다는 것을 의미한다.

또한 아래의 그림 a패널에서 붉은색 점은 피부과 전문의들의 판독 정확도를 보여주는 것이다. 즉, 파란색 선의 왼쪽, 아래에 붉은 점들이 다수 있다는 것은 인공지능보다 정확성이 떨어지는 의사들이 상당수 있다는 의미다. 또한 의사들 성적의 평균을 나타내는 초록색 점 역시 파란선 아래에 있으므로, 의사들의 평균 성적 역시 인공지능에 비해 좋지 않다는 것을 보여준다.

b패널에서는 테스트 데이터를 각각 707개, 225개, 1,010개로 늘렸을 경우에 인공지능의 성능이 여전히 유지된다는 것을 보여주고 있다. AUC 값이 a 패널에 비해서 오히려 더 약간씩 상승한 것을 알 수 있다.

melanoma roc
딥러닝과 피부과 전문의의 피부암 이미지 판독 정확도 비교 (출처: Nature)

사실 논문의 제목(Dermatologist-level classification of skin cancer with deep neural networks)이나, 이번 연구를 언급하는 여러 기사들은 ‘피부과 전문의 수준의’ 인공지능이라고 언급하고 있다. 하지만, 살펴본 바와 같이 실제로는 인공지능의 실력이 인간 피부과 전문의를 능가하고 있다. 이는 앞서 말씀드린 구글의 안저사진으로 당뇨성 망막병증 판독하는 문제에서 인공지능이 안과 전문의들의 성적을 능가했던 것과 동일하다.

논문에서 피부과 전문의들 누구와 비교했는지 논문에 언급되지 않았다. 하지만 스탠퍼드 공대+의대가 공동연구했다는 것을 감안하면, 테스트 과정에서도 스탠퍼드 의사들이 참여하지 않았을까 추측해볼 수 있다. 만약 그렇다면, 피부과 전문의들 사이에서도 연구에 참여한 의사들이 평균 이상의 실력은 될 것이다. 이들 보다 세 가지 유형의 병변 구분에서 모두 인공지능이 나은 성과를 보인 것이다.

 

양적, 질적으로 우수한 데이터

알파고 쇼크 이후로, ‘제 4차 산업혁명’ 이라는 버즈워드가 한국을 휩쓸고 있는 요즘, 이 연구는 많은 것들을 시사한다. 일단 이 연구의 방법론과 논리 전개는 지난번 구글의 JAMA 논문과 본질적으로 다르지 않다. 양적으로 질적으로 우수한 학습 데이터를 바탕으로, 잘 알려진 구글의 기존 딥러닝 아키텍쳐를 사용해서 인공지능을 만들고, 이를 잘 검증된 테스트 데이터에 대해 인간 전문의와 정확성을 비교한다는 것이다.

이 부분에서 주목해야 할 것은 ‘양적, 질적으로 우수한 데이터’ 라는 부분이다. CNN 아키텍쳐는 논문처럼 기존의 것을 가져다 써도 되고, 국내 VUNO, Lunit 같은 스타트업의 딥러닝 기술은 세계적이다. 구글이 하는 일 중에 기술적으로 이 스타트업들이 못하는 일은 별로 없다고 생각한다.

하지만 데이터는 다르다. 딥러닝의 경쟁력은 많은 부분 양적, 질적으로 우수한 데이터로 학습을 시키느냐에 달려 있다. 이러한 점을 고려할 때 한국은 아직 이러한 부분에서 준비가 미비하다. 보통 한국은 한 병원 내의 EMR이나 PACS에 있는 과거 판독 결과들을 바탕으로 트레이닝시킨다. 여러 현실적인 이유로 여러 병원에서 데이터를 가져오기는 어려우며, 이마저도 보통 한 명의 의사가 판독한 데이터이다.

하지만 전문의 사이에서도 (위 ROC 커브에서 붉은색 점들의 위치가 다양한 것만을 봐도 알 수 있듯이) 개인별로 실력차가 있는 것을 고려해보면, 보다 양질의 데이터를 위해서는 여러 명의 의사가 중복하여 판독하고 진단명 체계를 큐레이션한 ‘질적으로 우수한’ 데이터가 필요할 수 있다.

지난번 구글의 연구도 그렇고, 이번 스탠퍼드 연구에서도 많은 전문가들의 노가다(?)에 가까운 무지막지한 노력이 들어갔다. 구글의 연구에는 안과전문의 54명이 참여하여 128,175개의 안저 데이터를 3-7회 중복 판독하였으며, 이번 스탠퍼드 연구도 129,450개의 학습 데이터의 큐레이션에 18명의 의사가 참여했다고 언급되어 있다. 사실 50명이 넘는 전문의가 필요하다면 국내 대학병원 하나의 규모를 넘어선다. 이처럼 우수한 데이터를 만들기 위해서는 많은 전문가들의 참여가 필요하며, 이를 가능하게 하려면 적절한 협업체계나 충분한 보상 체계도 갖춰져야 할 것이다.

 

병리과 인공지능과 더해진다면

이번 연구는 피부과에서 생검과 조직검사를 하기 이전까지의 진료 프로세스에 적용될 수 있다. 만약에 이를 통해 피부 암이 의심되면 이를 확진하기 위해서 생검 조직을 판독하는 병리과의 영역으로 넘어가야 한다. 그런데 현미경을 통해서 세포와 주직 수준에서 구조, 모양, 색깔, 유사 분열하는 세포(mitotic figures) 등을 기반으로 판독하는 병리과의 영역 역시 ‘인간의 시각적 인지 능력’을 바탕으로 한다.

이렇게 ‘인지 능력을 바탕으로’ 하기 때문에 병리과에서도 의사들마다 판독에 대한 편차가 존재한다. 2015년 JAMA의 논문을 보면 유방암 검체의 병기를 판독하는데 개별 병리과 전문의마다 얼마나 개인차가 큰지 알 수 있다. 수 천명의 병리과 전문의들을 대상으로 총 240개의 검체에 대해서 정상(benign without atypic), 비정형세포(atypia), 유방 관상피내암(DCIS, ductal carcinoma in situ), 침윤성 유방암(invasive carcinoma)의 4가지로 구분하는 블라인드 테스트를 했을 때, 정확히 판독하는 경우는 75.3%에 지나지 않았다. 이는 결국 인간의 인지능력의 한계와 병리과에도 딥러닝이 진입할 수 있는 영역이 있음을 보여준다.

breast biopsy

240건의 유방암 생검 검체를 네 가지의 병기로 구분하는 블라인드 테스트에서
세 명의 병리과 전문의들의 판독이 일치하는 경우가 75.3%에 지나지 않았다. (출처: JAMA)

사실 병리 데이터의 분석 역시 딥러닝이 예전부터 적용되어 오던 분야이다. 유방암 분야에서는 병리 데이터의 자동 분석을 위한 AMIDA(Assessment of Mitosis Detection Algorithms) 등의 대회도 있고, 딥러닝이 접목되면서 성능의 향상이 보고된 바 있다. 또한 2016년 유방암 병리 데이터를 통해 암세포의 증식을 판단하는 세계 대회(Tumor Proliferation Assessment Challenge) 에서 국내 스타트업인 루닛(Lunit)이 IBM 등 쟁쟁한 기업을 누르고 1위를 차지해서 화제가 된 바 있다. 또한 전립선암에도 딥러닝을 통한 병리 데이터 판독에서 좋은 성과를 보여준 연구가 있다.

이처럼 추후 연구에서 피부암에 대한 피부과 전문의 판독에 이어 병리과 전문의 판독까지의 전체 과정을 피부과 딥러닝과 병리과 딥러닝으로 판독한 결과와 비교하면 어떻게 될지도 궁금하다.

 

스마트폰으로 흑색종 검사

연구진들이 직접 밝힌 이번 연구의 의미 중 하나는 의료 접근성이 떨어지는 곳, 피부과 전문의가 없는 곳에서도 스마트폰만 있으면 딥러닝을 통해 흑색종 진단의 가능성을 열었다는 것이다. 앞서 기존 스마트폰 앱의 부정확성에 대한 논문을 소개하고 있지만, 이제 딥러닝을 통해 높은 정확도로 판독이 가능해진 것이다.

특히 스마트폰용 더마토스코프는 이미 시중에 다양한 형태로 판매되고 있다. 대부분 $100 내외의 가격이면 스마트폰 카메라에 렌즈를 부착하여 의료 전문가가 사용하는 수준으로 사진을 찍을 수 있다.

Screen Shot 2017-02-02 at 4.47.44 PM스마트폰용 더마토스코프

이번 연구의 알고리즘은 아직 일반 컴퓨터에서만 동작하지만, 향후 스마트폰에서도 돌아갈 수 있도록 만들 예정이다. 이렇게 되면 아프리카와 같이 피부과 전문의가 부족한 제 3세계에서도 스마트폰용 더마토스코프와 인공지능을 이용해서 피부암 조기발견에 도움을 받을 수 있을 것이다. 이는 의료의 민주화에 큰 영향을 주리라 생각한다.

 

의료의 미래와 의사의 앞날은

한 가지 분명한 것은 이런 의료 인공지능 연구는 앞으로 계속 쏟아져 나올 것이라는 점이다. 언급했듯이, 구글의 당뇨성 망막병증 인공지능과 이번 스탠퍼드의 피부암 판독 인공지능은 근본적으로 다르지 않다. 이런 방법론은 더 많은 의료 분야의 다양한 데이터에 적용될 것이며, 인간 의사보다 판독 성능이 우수한 인공지능은 향후 계속 나올 것이다.

더 나아가 딥러닝 기술이 계속 발전하므로, 이에 따라 인간과 인공지능의 실력차는 더 심화될 가능성이 높다. 이번 연구만 하더라도 구글이 2014년에 내어놓은 Inception v3를 사용했고, 논문은 2016년 6월에 제출되었다. 이로부터 두 달 후 구글은 Inception v4를 발표했는데, 이 새로운 버전의 아키텍쳐에 이번 연구와 사용된 동일한 피부암 데이터로 학습을 시키면 그 성능은 더 올라갈 것이다.

또한 이런 연구에서 인간 의사의 역할이 무엇인지를 보면 여러 복잡한 생각이 든다. 인공지능이 학습할 데이터를 만들어주는 것, 그리고 그렇게 개발된 인공지능과 실력을 비교 당하면서 결과적으로 인공지능의 우수성을 보여주는데 그치고 있기 때문이다. 더 무서운 것은 이러한 ‘인간’ 전문가들의 노력을 통해서 특정 주제에 대해서 거의 완벽한 인공지능이 만들어지면, 그 이후부터는 그 인공지능을 만드는데 기여한 인간 전문가들의 필요성이 줄어든다는 아이러니다.

최근 의료 분야 인공지능의 발전으로 인해서 국내에서도 인간 의사의 역할이 어떻게 변화할지, 이에 따라 의대 교육은 어떻게 바뀌어야 할지에 대한 논의가 뜨거워지고 있다. 하버드 의대 등에서는 이러한 미래를 위해서 ‘플립러닝’ 을 도입하는 등 교육 과정부터 혁신했다고 한다. 너무 늦기 전에, 기술 혁신에 따른 미래 의료와 의사의 역할 변화에 대해서 본격적으로 논의하고, 세심한 대비책을 세우는 것이 필요하다.

About The Author

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』 『의료 인공지능』 『헬스케어 이노베이션』 등을 집필하였습니다.

Leave A Response