ChatGPT, 미국 의사 면허 시험(USMLE)을 통과할 수 있다!

OpenAI의 대화형 챗봇 인공지능 ChatGPT가 최근 몇주 동안 엄청난 화제를 불러일으키고 있습니다. ChatGPT는 채팅을 하듯이 사용자가 질문을 텍스트로 입력하면, 그에 대한 답을 텍스트로 알려주는 서비스입니다. 이전에도 이런 기술이 없었던 것은 아니지만, ChatGPT는 이전 챗봇의 성능을 훨씬 뛰어 넘습니다. 어려운 질문이나, 창의적인 질문에 대해서도 답을 내어 놓고, 심지어는 그럴듯한 논문도 ChatGPT로 쓸 수 있습니다.

ChatGPT는 텍스트 기반의 챗봇 형식의 인공지능이기 때문에, 의학 분야에서는 어떻게 활용될 수 있을지 궁금했는데요. (사실 좀 찾아봐도 많이 안 나옵니다.) 최근 한 연구에 따르면 ChatGPT가 미국 의사 면허 시험(USMLE)을 무난히 통과할 정도의 실력(?)을 가진 것으로 드러났습니다. Ansible Health라는 실리콘밸리의 병원 연구자들이 진행한 연구인데요. 정식으로 출판되지는 않고 medRxiv에 만 공개된, 아직은 peer-review 되지는 않은 연구입니다.

연구에서는 USMLE의 Step 1 (의대생 2학년 대상), Step 2CK (의대생 4학년 대상), Step 3 (전공의 1년차 대상)의 문제를 테스트 하였습니다. USMLE 웹사이트에 2022년 6월 공개된 샘플 문제 376개 중에서, (ChatGPT는 텍스트 기반이므로) 이미지, 그래프 등이 포함된 문제를 제외한 총 305 문제가 최종적으로 테스트 되었습니다.

문제의 형식은 Open-ended (선택지를 제외하고 의문문으로 변환해서 입력), Multiple Choice (with/without forced justification)의 세 가지 방식으로 입력되었습니다. (forced justification이라는 표현을 정확히 이해하지 못했는데요. 다지선다형 문제 형식을 ChatGPT에 입력 가능한 텍스트로된 질문 형식으로 바꾸는 방식을 두 가지로 나눠한 것 같습니다.) 그리고 테스트 결과는 두 명의 의사가 검토하여, accuracy, concordance, insight 세 가지 측면을 평가했습니다.

그 결과 accuracy 가 모든 평가 방식에 50% 이상, 대부분은 60% 이상을 보여주면서, USMLE를 무난하게 통과할 정도의 퍼포먼스를 보여준다 (“ChatGPT is now comfortably within the passing range.”)고 논문에서는 언급하고 있습니다. (해마다 다르지만 USMLE의 통과 기준이 대략 60% 정도라고 합니다.)

또한 응답은 대부분 높은 수준의 concordance를 보여주었으며, 응답의 88.9%에서 적어도 하나의 significant insight 가 포함되어 있었다고 합니다. 이를 기반으로 ChatGPT가 의학 교육에도 활용될 수 있는 가능성을 보여주고 있습니다. 더 나아가서, 의사의 의사 결정을 보조하는 방식으로도 활용될 수 있을 것입니다.

디스커션 부분에서는 스탠퍼드에서 개발 중인 PubMedGPT와의 퍼포먼스 차이도 간략히 언급됩니다. PubMedGPT는 이번 USMLE 문제에 대한 정확도가 50.8% 정도로 ChatGPT 보다는 낮게 나온다고 합니다 (unpublished data). PubMed와 같이 생명과학과 의료 분야에 특화된 문헌을 학습했음에도 일반적인 모델인 ChatGPT 보다 정확도가 더 낮은 이유는, 논문에서 나오는 담화가 단정적이지 않고(inconclusive), 여러 논문들의 결과가 때로 모순적이기도 하고(contradictory), 보수적으로 서술되어 있기 때문에, 오히려 더 넓은 범주에서 의료 관련 정보를 (예를 들면, 제약사 홈페이지 등) 학습할 수 있는 ChatGPT가 더 유리할 수도 있다고 추정하고 있습니다.

이번 연구에서 정확하지 않은 답변을 줬던 경우는 대부분 정보가 부족해서(missing information)라고 하는데요. 이 때문에, 연구자들은 ChatGPT를 기반으로, 의학 분야에 특화된 PubMedGPT 같은 LLM(Large Language Model)이나 UpToDate 같은 검증된 의학 지식 리소스를 합치면 정확도를 더 향상시킬 수 있는 가능성이 있을 것이라고 언급하고 있습니다.

흥미롭게도, 논문의 마지막 부분에는 (이번 논문 내용과 다소 상관 없는) 내용이 추가되어 있는데요. Ansible Health에서는 ChatGPT가 USMLE 문제까지 잘 풀 수 있는 것으로 드러나자, 임상 워크플로우의 일환으로 ChatGPT를 사용하기 시작했다고 하네요. 보험사에게 보내는 편지를 쓰거나, 영상의학과의 판독문을 쓰는 등의 반복적인 writing task, 환자와의 커뮤니케이션, 더 나아가서는 브레인스토밍에도 활용한다고 합니다. 결과적으로 문서 작업이나 환자 케어에 들어가는 시간을 33% 절감할 수 있었다고 합니다. (다만 이런 결과는 future publication 이라고만 언급되고 있습니다.)

글쓴이

최윤섭

디지털 기술과 생명과학, 의학의 융합을 통해 사회적 가치를 창출하고 의료를 혁신하는 것을 화두로 삼고 있는 디지털 헬스케어 전문가, 미래의료학자, 작가, 벤처투자자입니다. 포항공과대학교(POSTECH)에서 컴퓨터공학과 생명과학을 복수전공하였으며, 전산생물학으로 이학박사 학위를 취득하였습니다. Stanford University 방문연구원, 서울대학교병원 연구조교수를 역임하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사 디지털 헬스케어 파트너스(DHP)의 대표 파트너이며, 연세대학교 의과대학 예방의학교실 외래조교수이기도 합니다. 『디지털 헬스케어: 의료의 미래』, 『의료 인공지능』, 『헬스케어 이노베이션』 등을 집필하였으며, Science의 제1저자를 비롯해서, 주요 국제 학술 저널에 다수의 논문을 개제하였습니다. npj Digital Medicine Editorial Board 멤버이자, 대한의료인공지능학회 설립 발기인 및 기획이사로 활동했습니다. 식약처 및 심평원의 자문위원이기도 합니다.

LinkedIn YouTube About Me

최윤섭의 디지털 헬스케어에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.