[논문] 딥러닝 기반의 병원 내 심정지 예측 인공지능의 정확성

의료 인공지능 스타트업 VUNO와 메디플렉스 세종병원의 공동연구로 이번 달에 출판된 논문에 대한 간단한 리뷰. 뷰노에서는 이예하 의장님을 비롯한 연구원 분들, 세종병원에서는 권준명 과장님, 전기현 과장님 등께서 연구를 주도하셨다. Critical Care Medicine 이라는 IF=8 정도의 저널에 출판. (e-pub는 2월에 되었는데, 저널에는 이번 달에 출판되었다. sci-hub에 PDF가 늦게 올라오는 바람에 이제야 확인함)

딥러닝 기반으로 원내에서 발생하는 심정지를 예측하는 인공지능이 실제 의료 현장에서 어느 정도의 정확성을 보여주는지에 대해서 증명한 논문이다. 연구진은 기존에 이런 기능을 하는 딥러닝 기반의 인공지능 “DEWS”를 개발해서, 2018년 JAHA에 출판한 논문을 통해 정확성 및 퍼포먼스를 보여준 바 있다. EMR에 입력되는 체온, 수축기 혈압, 호흡수, 심박수의 4가지 데이터를 RNN으로 학습하여, 심정지를 (MEWS 등 기존 시스템 대비) 잘 예측할 수 있다는 것을 해당 논문에서는 보여줬다. AUC, 환자당/시간당 알림 횟수 대비 민감도, 예측 타이밍 등등을 기준으로.

이번 논문은 그렇게 개발한 인공지능을 활용한 후속 연구이다. 이 연구의 가장 큰 의미는 실제 의료 현장에서 이 인공지능을 접목한 데이터를 바탕으로 검증했다는 것이다. 지난 논문에 공개된 인공지능의 개발 이후에 입원한 실제 환자들에 대해서 적용한 것을 후향적 코호트 스터디 (retrospective cohort study)로 진행하였다.

메디플렉스 세종병원의 일반 병동 성인 환자 8,039 명을 대상으로 하였고, outcome은 심정지(cardiac arrest) 나 예측되지 않았던 중환자실 입원 (unexpected ICU admission) 을 인공지능이 24시간에서 0.5시간 앞서 예측하는 것으로 정의하였다. DEWS 뿐만 아니라, 기존의 시스템인 MEWS, SPTTS 등도 함께 사용하면서 정확성을 비교하였다.

결론은 여러 측면에서 DEWS가 큰 폭의 우수함을 보였다는 것이다. 기존의 시스템이나 개별 지표 (심박수, 혈압 등등) 보다 더 높은 정확성을 보였고 (AUC=0.865) (패널 A) 기존의 시스템들보다 더 이른 시기에 더 많은 이벤트를 예측했다 (15시간 전 기준으로 MEWS보다 122% 더 예측)(패널 B). 그리고 동일 민감도 대비 검사가 필요한 환자의 숫자도 더 적었으며 (패널 C), 하루 당 평균 알람 횟수대비 민감도 역시 더 높았다. (검사해야 하는 환자는 약 70% 감소, 평균 알람 횟수는 약 60% 감소.)(패널 D) 심지어 DEWS 만 사용해서 예측한 것이, DEWS에 MEWS 등 기존의 점수를 함께 고려한 것보다 더 정확성이 높았다.

이를 종합해보면, 딥러닝에 기반한 심정지 예측 인공지능 DEWS가 기존 시스템 대비 더 일찍, 더 정확히, 더 많이, 더 낮은 거짓경보로 예측해주므로, 진료 현장에서 활용도가 높다는 점을 증명했다고 할 수 있다.

실제 진료 현장에 적용한 결과이며, 일종의 외부 검증(external validation)이기는 하지만, 개발에 참여했던 동일 병원 하나에서만 테스트를 진행했으며, 후향적 연구(retrospective study)라는 점이 다소 제한점이라고 할 수 있다. 디스커션에 보면 DEWS와 기존 시스템의 RCT를 계획하고 있다고 하시니, 여기에 대한 결과도 기대해볼만 하겠다. 가능하면 RRS를 갖춘 다른 병원에서 활용해서 멀티센터 스터디로 진행해보면 더 좋을 것 같은 생각도 든다. (심정지와 같은 크리티컬 이벤트의 경우, 대조군을 설정하기가 참 쉽지 않을 것 같다.)

이 부분에 대해서 권준명 과장님께서 코멘트를 주셨는데, 5개 이상의 병원이 참여한 후향적 다기관(multicenter) 연구는 DEWS가 우수하다는 결과를 확인한 후에 이미 논문이 제출되었고, 마찬가지로 5개 이상의 병원이 참여하는 전향적 다기관 연구 또한 곧 시작될 예정이라고 한다. 이러한 연구의 결과도 기대해볼 수 있을 것 같다.

의료 인공지능 분야에서는 영상의학 분야뿐만 아니라, 이렇게 병원 내에서 환자의 악화를 미리 예측해주는 시스템도 개발도 활발하다. 딥마인드가 작년 네이쳐에 발표했던 급성 신장 손상 예측 인공지능도 있고, 존스홉킨스 등에서 폭넓게 사용하는 패혈증 예측 인공지능도 있다.

이런 인공지능은 개별 환자에 대한 행위 기반이 아니라서, 수가가 어떻게 적용될지 궁금하다. 개별 환자로 따지기는 어렵지만, 입원 환자군 전체나 병원 레벨에서 효용이 있다면 어떤 식으로든 보상해줄 수 있는 방안이 있어야 할 것 같다. 현재 심평원은 (예외적인 경우를 제외한다면) 환자 치료 성과의 개선이 있거나, 비용대비 효용을 보여줘야만 수가를 주겠다는 입장이다. 영상의학 분야는 이게 매우 어렵지만, 이런 인공지능의 경우에 심정지 예측을 통해 발생율을 낮추고, ICU admission을 줄인다는 것을 보여줌으로써, 비용 대비 효용까지도 증명할 수 있을지 모르겠다는 생각도 든다.

글쓴이

최윤섭

디지털 기술과 생명과학, 의학의 융합을 통해 사회적 가치를 창출하고 의료를 혁신하는 것을 화두로 삼고 있는 디지털 헬스케어 전문가, 미래의료학자, 작가, 벤처투자자입니다. 포항공과대학교(POSTECH)에서 컴퓨터공학과 생명과학을 복수전공하였으며, 전산생물학으로 이학박사 학위를 취득하였습니다. Stanford University 방문연구원, 서울대학교병원 연구조교수를 역임하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사 디지털 헬스케어 파트너스(DHP)의 대표 파트너이며, 연세대학교 의과대학 예방의학교실 외래조교수이기도 합니다. 『디지털 헬스케어: 의료의 미래』, 『의료 인공지능』, 『헬스케어 이노베이션』 등을 집필하였으며, Science의 제1저자를 비롯해서, 주요 국제 학술 저널에 다수의 논문을 개제하였습니다. npj Digital Medicine Editorial Board 멤버이자, 대한의료인공지능학회 설립 발기인 및 기획이사로 활동했습니다. 식약처 및 심평원의 자문위원이기도 합니다.

LinkedIn YouTube About Me

최윤섭의 디지털 헬스케어에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.