[논문] 인공지능과 의사의 협업에 대한 심층적 고찰

며칠 전 Nature Medicine에 흥미로운 논문이 실렸습니다. 바로 인공지능이 의사와 협업하여 피부암을 포함한 피부과 질환을 판독하는 경우, 시너지가 얼마나 어떻게 발생할지를 다양한 각도에서 세부적으로 분석한 논문입니다.

AI 는 이제 Augmented Intelligence 라고도 지칭되면서 인간 의사를 대체하는 것이 아닌, 인간 의사의 능력을 ‘증강’ 시키는 방향으로 발전하고 있습니다. 하지만, 실제로 어떠한 인간 의사가, 어떤 인공지능을, 어떠한 방식으로 활용할 때, 그 효용이 얼마나, 어떻게 나타나며, 판독자들은 어떻게 반응하는지에 대해서는 아직 연구가 많이 진행되지는 않았습니다.

이번 연구는 (피부과 질환에만 집중하고 있기는 합니다만) 제목에서도 드러나듯이 human-AI collaboration을 여러 각도에서 분석함으로써, 앞으로 의료 현장에서 인공지능이 어떻게 활용되어야 할지에 대한 힌트를 주고 있기도 합니다.

어떠한 방식으로 결과를 보여줄 것인가

일단 이 연구에서는 7가지 피부과 질환만을 다루고 있습니다. 흑색종을 포함한 malignant 3가지 ((melanomas (MELs), basal cell carcinomas (BCCs) and actinic keratoses and intraepithelial carcinomas (AKIECs)), 그리고 benign 4가지 (melanocytic nevi (NVs), benign keratinocytic lesions (BKLs), dermatofibromas (DFs), vascular lesions (VASCs))를 다룹니다.

이러한 질병에 대해서 인공지능의 분석 결과를 ‘어떠한 방식으로 보여줄 것인가’에 대해서 분석합니다. 인공지능의 결과를 의사에게 전달하는 방식에 따라, 판독 정확성, 효율 등에 영향을 줄 수 있기 때문입니다. 여기에서는 크게 세 가지 방법으로 의사에게 전달합니다.

(1). 7가지 질환에 대한 확률을 보여주기
(2). (개별 질환 구분 없이) malignacy 가능성만 보여주기
(3). 기존 진단된 이미지 중에 가장 비슷한 병변 이미지 보여주기

참고로 이 연구에 활용된 인공지능은 ResNet34에 기반하고 있는데 recall이 77.7%, accuracy가 80.3% 밖에(?) 안 됩니다. 최근 발표되는 다른 state-of-the-art 의료 분야 인공지능들에 비해서는 상대적으로 퍼포먼스가 좋지 않은데요. 이 부분을 감안해서 읽어야 합니다.

여기에 대해서 41개국에서 302명의 판독자 (169명은 피부과 전문의, 77명은 피부과 전공의, 38명은 일반의) 들이 인공지능의 도움 없이 판독했을 때와, 도움을 받아서 판독을 받았을 때를 비교했습니다. 총 512번의 테스트에 대해서 13,428 번의 판독을 했습니다.

그 결과 (1) 7가지 질환에 대한 확률을 직접 보여줬을 경우에만 인공지능의 보조를 받아서 판독 정확도가 유의미하게 개선되었고, 나머지 (2), (3)의 경우에는 판독 정확도에 개선은 없었습니다. 또한 (1), (2)는 판독 시간은 인공지능이 없을 때와 큰 차이가 없었지만, (3)은 더 오래 걸렸습니다. 즉, 같은 인공지능에서 나온 결과라도 ‘어떤 방식으로 전달하느냐’에 따라서 실제 정확성이나 효율의 개선 효과는 달랐다는 것이지요.

인공지능과 협력의 결과에 대한 세부적 분석

이후에는 (1)의 인공지능 유형으로만 분석을 진행합니다. 그 결과 아래와 같은 부분을 알 수 있었습니다.

판독자의 경력과 인공지능으로부터 얻는 효용은 반비례 함. 즉, 경력이 짧은 판독자일수록 인공지능으로부터 효용을 더 많이 얻음.
경력이 긴 판독자의 경우 인공지능으로부터 얻는 추가적 효용이 아주 marginal 함. (특히 10년 이상 경력자의 경우.) 특히, 최초 판독에 대해서 확신이 있을 경우 (confident)에 그러함. 다만, 최초 판독에 확신이 없는 경우 (not confident)에는 효용이 조금 있음. (confident 여부는 판독에 걸리는 시간을 기준으로 보았습니다)
이것이 의미하는 바는, 경력 있는 전문의들은 인공지능과 판단이 달라도, 본인의 최초 판독에 자신이 있는 경우, 인공지능의 보조를 무시해도 큰 문제는 없다고 볼 수 있다고 저자들은 이야기합니다. 판독자들은 not confident 한 경우에, (confident 한 경우에 비하여) 인공지능의 결과를 참고하여 최초의 판독 결과를 변경할 가능성이 더 높음. (어찌보면 당연한 이야기이지요.)
인공지능의 분석 결과 1등이 2등과의 격차가 큰 경우 (big winner)가, 격차가 작은 경우 (small winner) 보다, 판독자들에게 더 큰 영향을 줬음.

또한 흥미롭게도, ‘만약 인공지능에 문제가 생겼거나, 부정확하다면, 이를 참고했을 경우는 어떨까?’ 라는 질문에도 답하고 있습니다. 즉, 인공지능이 잘못 개발되었거나, adversarial attack 등으로 잘못될 결과를 준다면 오히려 인간 의사의 판독을 방해할 수도 있는 것이지요. Adversarial attack은 인간의 눈으로는 판별할 수 없는 조정을 이미지에 가함으로써, 인공지능의 판독 결과를 악의적으로 바꿔놓는 것을 의미합니다. 원래 이미지는 인공지능이 정상으로 판독하는 경우인데도, 외부에서 악의적인 조작을 통해서 인공지능이 이를 악성 종양으로 판독하도록 유도하는 경우이지요.

결과는 정말 그러했습니다. 인공지능의 결과를 랜덤하게 섞어서 부정확하게 만들어서, 판독자들에게 의도적으로 잘못된 결과를 제공했더니, 판독 경력에 상관 없이 ‘모든’ 판독자들의 판독 정확성이 인공지능의 도움이 없을 때보다도 오히려 하락했습니다.

이외에도 논문에는 이러한 인공지능을 원격의료(telemedicine)에서의 triage 로 활용하거나, 2nd opinion으로 활용할 수 있는지에 대해서도 분석하고 있습니다. 흥미로운 분석이기는 합니다만, 개인적인 추측으로는 앞부분까지의 맥락과는 좀 동떨어진 분석이라, 왠지 revision 과정에서 리뷰어 들의 요구로 추가된 것이 아닌가 하는 생각이 들었습니다. (특히 원격의료 부분은 좀 쌩뚱맞은데, 논문이 작년 9월에 처음 submission 되었지만, 원격의료 부분은 2020년 2월에 출간된 Lancet Digital Health 논문의 데이터를 분석하고 있습니다. 즉, revision 과정에서 특정 리뷰어의 구체적인 요구로 추가되었음을 짐작해볼 수 있습니다.)

정리하자면, 이 논문은 ‘인간 의사와 인공지능이 협업했을 때 어떤 식으로 시너지가 발생하는가’를 세부적으로 보여줍니다. 그 시너지는 인공지능의 결과를 어떻게 보여주는지에 따라서, 그 결과가 1등과 2등의 차이가 얼마나 크게 나는가에 따라서도 달라지며, 또한 어떤 경력의 의사가 사용하는지에 따라서도 달라집니다. 더 나아가서, 인공지능의 성능에 따라서는 오히려 시너지는 커녕 해악을 끼칠 가능성도 있다는 것을 이 논문은 보여주고 있습니다.

글쓴이

최윤섭

디지털 기술과 생명과학, 의학의 융합을 통해 사회적 가치를 창출하고 의료를 혁신하는 것을 화두로 삼고 있는 디지털 헬스케어 전문가, 미래의료학자, 작가, 벤처투자자입니다. 포항공과대학교(POSTECH)에서 컴퓨터공학과 생명과학을 복수전공하였으며, 전산생물학으로 이학박사 학위를 취득하였습니다. Stanford University 방문연구원, 서울대학교병원 연구조교수를 역임하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사 디지털 헬스케어 파트너스(DHP)의 대표 파트너이며, 연세대학교 의과대학 예방의학교실 외래조교수이기도 합니다. 『디지털 헬스케어: 의료의 미래』, 『의료 인공지능』, 『헬스케어 이노베이션』 등을 집필하였으며, Science의 제1저자를 비롯해서, 주요 국제 학술 저널에 다수의 논문을 개제하였습니다. npj Digital Medicine Editorial Board 멤버이자, 대한의료인공지능학회 설립 발기인 및 기획이사로 활동했습니다. 식약처 및 심평원의 자문위원이기도 합니다.

LinkedIn YouTube About Me

최윤섭의 디지털 헬스케어에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.