Saturday 20th April 2024,
최윤섭의 디지털 헬스케어

[논문] 뷰노의 흉부 엑스레이 영상 판독 인공지능의 효용

의료 인공지능 회사인 뷰노에서 최근 출간한 딥러닝 기반 흉부 엑스레이 영상 인공지능의 효용을 증명한 논문을 소개해드립니다. 이 논문은 영상의학 분야 최고 권위 학술지 Radiology 에 최근 출판되었습니다. 몇몇 언론 기사로도 보도되었습니다만, 저도 꼼꼼하게 읽어보고, 기억나는 것들을 정리해둡니다. (저는 뷰노의 자문이자 주주로 COI가 있습니다.)

이 논문을 통해 뷰노의 인공지능을 활용하면, 인공지능을 활용하지 않았을 때에 비해서 흉부 엑스레이 영상의 판독 성과가 유의미하게 좋아진다는 것을 증명했습니다. 결론만 본다면 예전의 연구들과 다를 게 없이 보일 수도 있겠지만, 세부적인 연구 디자인과 결과에서 주목해야 합니다. 이런 엄정한 디자인에 기반한 임상 연구가 거듭되어야 폭넓은 임상 현장 적용에 더 가까이 다가설 수 있습니다. Radiology라는 좋은 저널에 실릴 수 있었던 이유는 이런 연구 세부 디자인 등에서의 장점을 인정 받았기 때문이라고 생각합니다.

이 연구는 아래와 같은 측면에서, 기존의 연구들과 차별화되는 측면이 있습니다.

  • Crossover study 디자인. 가장 큰 특징으로 논문 제목에서도 강조된다. 기존의 연구들은 대부분 sequential design을 따르고 있다. 즉, 순차적으로 판독하는 디자인에서는 직전에 판독했던 기억 등에 따라서 bias가 생길 수 있다. 그래서 이 연구에서는 판독 대상을 A, B 두 그룹으로 나눠서 (각각, n=114), 두 세션에 걸쳐서 교차로 판독했다.첫번째 세션에는 A그룹을 인공지능 없이, B그룹은 인공지능과 함께 판독하고, 두번째 세션에서는 반대로 A그룹은 인공지능의 보조를 받고, B그룹은 인공지능 없이 판독했다. 두 세션 사이에는 최소 2주의 washout 기간을 두었다. 이를 통해 기존 연구들이 가지던 bias를 최대한 줄였다.
  • 다양한 폐 병변에 대해 분석했다. 기존의 흉부 영상 인공지능 관련 많은 연구들은 주로, 결절(nodule)의 유뮤를 보는 경우가 많았다. 하지만, 이 연구에서는 5가지 주요 병변 (nodules, consolidation, interstitial opacity, pleural effusion, pneumothorax)을 모두 고려하였다. 개별 병변의 종류에 따라 subgroup analysis 도 진행했다.
  • 판독 시간의 절감을 보였다. 기존 흉부 영상 인공지능 연구들에서는 인공지능의 활용에 따른 판독 시간의 절감을 측정하지 않았거나, 유의미한 결과를 못 보여준 경우가 많았다. 하지만 이 연구에서는 상당한 판독 시간의 절감을 보여준다. (동시에, false positive 는 줄어드는 것까지 보여준다. 즉, 더 빨리 판독하면서도, 정확도는 더 좋아진다.)
  • 판독자의 인공지능 활용 방법을 미리 교육했다. 마이너하게 보일 수도 있지만, 결코 마이너하지 않은 부분이, 판독자가 인공지능의 인터페이스를 얼마나 익숙하게/편리하게 활용할 수 있는지의 여부다. (실제 뷰노는 이 인터페이스 디자인에도 공을 상당히 들이는 것으로 안다.) 이 연구에서는 판독자가 뷰노의 DLD에 익숙해지도록, 이 프로그램이 설치된 워크스테이션에서 22건의 (독립적인) 케이스를 해보도록 미리 훈련을 시켰다. 이것이 판독 퍼포먼스를더 정확히 분석하기 위해 긍정적 영향을 미쳤을 수 있다.

그 결과 연구의 결과는 이런 종류의 연구가 늘 보여주듯이(?) 거의 모든 판독 관련 지표들이 유의미하게 좋아집니다.

  • 세 레벨의 의사 (레지던트, 영상의학 전문의, 흉부영상 전문의)에서,
  • 5가지 모든 종류의 병변에 대하여,
  • JAFROC FOM, AUC, 병변별 민감도, 이미지별 민감도, 특이도, FPPI (이미지별 false positive), 판독시간

등의 지표가 모두 좋아지는 것이지요. (일부 p-value가 안 좋은 것도 있지만, 대부분 통계적으로 유의미합니다.) 요즘 비슷한 연구들이 ‘다 좋아집니다’ 하는 결과를 보여주기 때문에 일견 당연하게 보일 수도 있지만, 의사, 병변, 지표 등의 다양성과 연구 디자인의 엄정함을 보면, 결코 당연히 받아들일 수 있는 결과는 아닙니다.

지표가 좋아진다는 것에서 더 나아가서, 더 재미있게 본 부분들은 아래와 같습니다.

  • 민감도, 특이도, FPPI 등의 개선이 있으면서도, 판독 시간은 (모든 판독자에서) 오히려 줄어들었다. 평균으로 따지면 기존에 케이스당 24초에서, 인공지능을 활용하면 12초로 두배 빠르게 판독 가능했다. 즉, 두 배 빠르면서도 정확도는 더 올라가는 것이다. 임상 현장에서는 이런 부분을 좋게 보실 듯.
  • 인공지능을 활용한 레지던트(2명)가 인공지능을 활용하지 않은 영상의학과 (2명) 및 흉부영상의학과 전문의 (2명) 보다 더 판독 퍼포먼스가 좋다. 일부 지표가 아니라, JAFROC FOM, AUC, 병변별 민감도, 이미지별 민감도, 특이도, FPPI, 판독시간 등 ‘모든’ 지표에서 그러함. 심지어 그 레지던트 2명 중에 한 명은 non-radiology 레지던트다. (물론 n 수가 적다는 점을 감안해야 한다)

더불어, 이번 연구의 한계로는, 하나의 병원에서만 이뤄진 연구라는 점, 케이스당 세 가지 이상의 병변이 동시에 존재하는 케이스가 없었다는 점, (두 가지 종류의 병변이 존재하는 케이스까지는 있었습니다). 비록 CT 까지 판독하여 정답(reference stadard)을 만들긴 했지만, 이걸 한 명의 의사가 했다는 점 등이 언급되고 있기도 합니다.

About The Author

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』 『의료 인공지능』 『헬스케어 이노베이션』 등을 집필하였습니다.

2 Comments

Leave A Response

Click here to cancel reply.