[논문] ChatGPT는 어려운 질병 케이스를 얼마나 잘 진단할까

최근 JAMA에는 ChatGPT의 어려운 진단 케이스에 대한 감별진단 성능을 평가한 논문이 소개되었습니다. ChatGPT의 의료적 성능을 테스트하기 위해서 USMLE (미국 의사 면허 시험) 문제를 풀게 하는 등의 시도들은 있었지만, 의사들도 진단을 내리기 어려워하는 케이스들로만 테스트해본 적은 드물었다고 합니다.

이 아티클에서는 NEJM의 clinicopathologic conferences 에 나오는 케이스들을 활용했습니다. 여기에는 교육을 목적으로 병리학적으로 최종 진단이 내려진 어려운 케이스들이 소개됩니다.

먼저, 2023년의 7개 케이스를 통해서 ChatGPT가 여러 가능성 있는 진단명을 확율에 따라 랭킹을 매겨서 결과를 내어놓도록 프롬프트를 만들었습니다 (아래 그림 참고). 그리고, 2021년 1월부터 2022년 12월까지의 70개의 케이스를 입력하여 ChatGPT로 감별진단을 진행해보았습니다. 케이스가 너무 길어서 ChatGPT에 입력이 안되거나, diagnostic dilemmas에 해당되지 않는 케이스들은 제외되었습니다.

Primary outcome은 ChatGPT가 1등으로 내어놓은 진단명이 실제 진단명과 일치하는지 여부이고, secondary outcome은 ChatGPT가 내어 놓은 여러 가능성 있는 진단 목록에 실제 진단이 포함되어 있는지의 여부였습니다.

분석 결과, ChatGPT가 1등으로 내어놓은 진단명이 정답일 확율은 39% (27/70)이었습니다. 그리고 ChatGPT의 진단 목록 중에 정답이 포함되어 있을 확율은 64% (45/70)이었습니다. 평균적으로 내어놓은 가능성 있는 질병의 목록은 평균 9개였습니다.

또한 평가를 위해 연구자들은 quality score라는 0~5점 시스템을 활용하였는데요. 감별진단 목록에 실제 진단이 포함되면 5점, 정확하지는 않지만 근접한 답이 포함되어 있으면 4점 등이고, 관계된 답이 전혀 없는 경우는 0점으로 정의했습니다. ChatGPT의 quality score의 중간값은 5점이었고, 평균값은 4.2점이었습니다.

ChatGPT의 이러한 성능은 기존의 감별진단 인공지능과 유사하거나 더 좋은 성과를 보인 것입니다. 예를 들어, 2022년에 소개된 2가지의 DDx generator는 (역시 NEJM clinicopathologic conferences 케이스를 활용하여) 58%~68%의 정확도를 보였는데, 이 경우는 결과물이 유용함/유용하지 않음의 2분법적으로만 판단하여 정확도를 평가한 결과였습니다.

아티클에서는 ChatGPT의 이러한 감별진단 성능이 실제 의료에서의 활용도에 대해서는 별다르게 언급하고 있지는 않습니다. 하지만 NEJM의 케이스들이 의료 전문가들도 어려워하는 diagnostic dilemmas에 해당하는 케이스들만 모아놓은 것을 감안하면 ChatGPT의 감별진단 성능이 그리 낮아보이지는 않는다고 평가해야 할 것 같습니다.

글쓴이

최윤섭

디지털 기술과 생명과학, 의학의 융합을 통해 사회적 가치를 창출하고 의료를 혁신하는 것을 화두로 삼고 있는 디지털 헬스케어 전문가, 미래의료학자, 작가, 벤처투자자입니다. 포항공과대학교(POSTECH)에서 컴퓨터공학과 생명과학을 복수전공하였으며, 전산생물학으로 이학박사 학위를 취득하였습니다. Stanford University 방문연구원, 서울대학교병원 연구조교수를 역임하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사 디지털 헬스케어 파트너스(DHP)의 대표 파트너이며, 연세대학교 의과대학 예방의학교실 외래조교수이기도 합니다. 『디지털 헬스케어: 의료의 미래』, 『의료 인공지능』, 『헬스케어 이노베이션』 등을 집필하였으며, Science의 제1저자를 비롯해서, 주요 국제 학술 저널에 다수의 논문을 개제하였습니다. npj Digital Medicine Editorial Board 멤버이자, 대한의료인공지능학회 설립 발기인 및 기획이사로 활동했습니다. 식약처 및 심평원의 자문위원이기도 합니다.


최윤섭의 디지털 헬스케어에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
위로 스크롤
0
Would love your thoughts, please comment.x
()
x