Monday 11th November 2019,
최윤섭의 Healthcare Innovation

[논문] 구글의 안과 인공지능에 대한 몇가지 연구 결과 업데이트

Yoon Sup Choi July 22, 2019 AI, Digital Healthcare, Paper Comments
DR3

이번에 안과 관련 컨퍼런스에서 의료 인공지능을 주제로 세미나를 해야 해서, 안과와 관련된 인공지능 연구 결과들을 오랜만에 정리해보았습니다. 특히 구글은 지난 2016년 JAMA에 발표했던 중요한 연구 이후로도 흥미로운 연구들을 몇가지 발표했습니다. 많은 분들이 이미 아시겠습니다만, 2016년 JAMA 논문은 구글의 연구자들이 딥러닝을 이용하여 안저 사진에서 당뇨성 망막병증(DR)을 판독하는 인공지능을 개발하였으며, 이 인공지능의 정확도가 안과전문의들보다 더 정확하였음을 보여준 연구입니다. 이 연구에 대해서는 제 졸저에도 상세하게 소개되어 있고, 아래의 포스팅에도 소개되어 있습니다.

구글은 2018년과 올해 2019년에 이 논문의 후속 논문을 출판했습니다. 이 연구들은 제1저자, 제2저자는 다르지만, 교신저자는 동일하므로 같은 연구팀에서 진행한 것으로 봐도 무방합니다. 2018년에는 grader variability를 밝히고 reference standard 를 어떻게 하는 것이 좋은가… 를 주제로, 즉 인공지능을 이용한 인공지능 연구의 방법론에 대해서 논문을 출판하였는데, 이 논문이 무려 안과 분야의 대표적인 전문 학술지인 Ophthamology (IF=8.2)에 출판되었습니다.

사실 이 논문의 핵심 주제는 아니지만, 우리가 주목해야 할 한 가지 부분은 이 연구에서 2016년 JAMA 버전의 인공지능이 더 개선되었다는 점입니다. 더 많은 데이터로 새롭게 학습시켰고, hyperparameter도 새로 찾으면서, 입력하는 안저 이미지의 해상도도 높였고, 그리고 inception v3에서 v4로 아키텍처가 바뀌었습니다. 또한 ICDR에 맞게 DR 판독도 5단계로 하도록 했습니다.

그런데 이런 구글의 인공지능이 정말 실제 의료 현장에 도입된다면 효과가 있을까요? 이러한 질문에 대한 일부분의 답을 할 수 있는 논문을 구글이 올해 4월에 npj Digital Medicine에 발표했습니다. 바로 태국의 전국적인 DR 스크리닝 프로그램에 구글의 인공지능을 테스트한 것입니다. 왜 하필 태국을 골랐는지는, 태국의 의료 상황을 보면 나옵니다. 태국의 당뇨 환자는 4.5m 명에 이르지만, 태국의 안과의사는 총 1,500명에 불과하며, 그 중 망막 전문의는 고작 200명에 그칩니다. 더구나 그 중 절반은 수도인 방콕에 거주하고 있기 때문에 태국 전역에서는 안과전문의가 턱없이 모자랍니다. 즉, 인공지능의 보조가 필요한 환경인 것이지요.

이 논문에서는 총 25,326개의 태국인 환자들의 안저 사진을 테스트 데이터로 삼았습니다. 흥미로운 것은 구글의 인공지능과 비교대상이 된 것은 바로 실제 태국에서 안저 사진을 판독하는 의료인들이었다는 것입니다. 이 데이터는 총 13개 지역으로 구분된 지역에서 모은 것인데, 해당 지역을 실제로 담당하는 각 한 명의 안과의사 혹은 (안저 사진을 판독하도록 수련을 받은) 간호사 및 테크니션이 구글의 인공지능의 비교 대상이 되었습니다.

그 결과 mild, severe, proliferate, DME 등 대부분의 경우에 구글의 인공지능은 0.99 대의 AUC를 기록하며, 인간 판독자들보다 더 정확한 판독 실력을 보여주었습니다. 특히 13개 구역의 판독자들의 성적을 개별적으로 비교해보면, 특이도(specificity)는 인간 판독자와 구글 인공지능의 차이가 별로 나지 않았으나, 민감도(sensitivity)는 구글의 알고리즘이 유의미하게 좋았습니다.

DR구글의 인공지능이 인간 판독자들보다 DR 및 DME에 대한 판독 정확성이 더 높았음

DR2인간 판독자들은 구글 인공지능과 특이도는 비슷한 수준이었으나, 민감도는 더 낮았음

이렇게 ‘인공지능이 인간 의료인보다 판독을 더 정확하게 잘 한다’는 결과 자체는 별로 새로울 것이 없습니다만, 이 논문의 의의는 현장의 real world clinical setting을 그대로 반영했다는 점이 특징입니다. 실제 지역에서 데이터를 판독하는 의사와 비교하였으며, 지역마다 안저 사진을 촬영하는 카메라의 브랜드도 달랐고 (총 6가지의 카메라), 인공지능이 학습한 데이터 (미국, 인도)와는 전혀 다른 태국의 인구에 대해서 테스트되었다는 의미가 있습니다.

하지만 이러한 데이터만으로 ‘인공지능이 현장에서 효과가 있다’는 것을 증명하기란 불충분합니다. 제가 강의에서도 많이 말씀드리지만, 이제는 인공지능이 단순한 퍼포먼스가 (인간만큼, 혹은 인간보다 더) 좋다는 것을 보여주는 것만으로는 부족하며, 임상적인 중요성(clinical impact)를 보여주는 것이 중요합니다. 예를 들어서, 태국에서 현장의 의료인들이 이 인공지능을 언제, 어떻게 활용해야 판독 정확성을 극대화할 수 있는지, 의사의 만족도와 환자의 만족도는 어떻게 되는지, 더 나아가서는 결국 환자의 치료 성과가 좋아지는지에 대해서 밝히는 것이 필요합니다. 구글도 이를 모르지 않아서, Discussion 파트에서 이러한 부분을 지적하고 있는 것을 보아서, 웬지 이미 구글이 이러한 연구도 진행하고 있을 것 같다는 짐작을 하게 합니다.

About The Author

IT와 헬스케어의 컨버젼스를 통해 사회적 가치를 창출하는 것을 화두로 삼고 있는 융합생명과학자, 미래의료학자, 기업가, 작가, 엔젤투자가, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 현재 최윤섭 디지털 헬스케어 연구소의 소장이며, 헬스케어 전문 스타트업 엑셀러레이터 디지털 헬스케어 파트너스 (DHP)의 대표 파트너를 맡고 있습니다. 성균관대학교 삼성융합의과학원 디지털헬스학과 초빙교수이자, VUNO, 3billion, 서지컬마인드 등의 스타트업과 세마트랜스링크캐피털 등의 벤처캐피털의 자문을 맡고 있습니다. 『헬스케어 이노베이션』 『의료 인공지능』 『그렇게 나는 스스로 기업이 되었다』 등을 집필하였습니다.

error: Content is protected !!