최초의 자율 처방 인공지능, '닥트로닉'은 얼마나 정확할까

최근 의료 인공지능 분야를 떠들썩하게 만든 뉴스가 하나 있었습니다. 바로 미국 유타주에서 인간 의사의 개입 없이 인공지능이 자율적으로 만성질환 환자의 처방전을 갱신할 수 있도록 허용했기 때문입니다.

유타주 상무부(Utah Department of Commerce)은 규제 샌드박스 제도를 통해서 고혈압, 당뇨병 등 만성 질환 치료에 사용되는 190여 종의 약물에 대한 처방전의 갱신 (소위 ‘리필 처방’)을 인간 의사의 진료 없이도, 인공지능을 통해 단돈 4달러의 비용만으로 진행할 수 있도록하였습니다. 이는 인공지능이 의학적 의사 결정을 스스로 내릴 수 있도록 법적으로 허용한 미국 내 최초의 주 승인 프로그램입니다.

인공지능이 인간 의사의 개입 없이 자율적으로 의학적인 의사결정을 할 수 있을 것인지는 흥미롭고도 중요한 주제입니다. 저는 인공지능 기술이 폭발적으로 발전하고, 인공지능을 ‘전기’와 같은 수준으로 사용하는 AI-Native Medicine이 구현되면, 적어도 기술적으로는 완전히 자율적으로 의사 결정을 할 수 있는 수준의 인공지능이 (점점 더 많이) 구현될 것이라고 봅니다.

다만, 이러한 ‘완전 자율형’ 인공지능이 정말 의료 현장에 도입되어 사용할 수 있을 것인지는 단순히 기술적 정확도, 안전성을 넘어서는 법적, 윤리적, 심리적 이슈가 동반될 것입니다. 그렇지만, ‘리필 처방’이라고 하는 제한적인 환경에서라도 자율적으로 의학적인 의사결정을 하는 인공지능이 허용되었다는 것은 큰 의미가 있습니다.

최초의 완전 자율형 처방 AI

이 인공지능을 개발한 회사가 바로 닥트로닉(Doctronic)이라는 회사입니다. 닥트로닉은 AI 기반의 1차 진료 (virtual primary care)에 대한 소위 디지털 프론트 도어(digital front door)를 만들고자 하는 뉴욕 기반의 스타트업입니다. 웹에서 24/7 AI 의사의 상담 및 문진을 제공하고, 사용자가 처방이나 진료가 필요하면 인간 의사의 원격진료로 연계하는 구조를 가지고 있습니다.

유타주의 새로운 제도에 대해서는 다양한 이슈가 제기될 수 있겠습니다만, 무엇보다도 이렇게 자율적으로 처방을 하는 닥트로닉의 인공지능이 얼마나 정확하고 안전한지가 가장 중요할 것입니다. 제도의 근간이 되는 인공지능 기술이 정확하다는 것이, 이 제도가 성립하기 위한 최소한의 조건이기 때문입니다.

이번 소식을 다룬 여러 기사를 보면 닥트로닉 AI의 치료 권고안이 인간 의사와 99% 이상 일치한다는 언급이 있기도 한데요. 언론이나 주정부 발표에도 이 데이터의 출처에 대해서는 언급되어 있지 않습니다. 다만, 닥트로닉의 홈페이지에 가보면 자사의 인공지능 의사는 peer-review를 받은 의학 자료만으로 학습되었고, 이 인공지능이 세운 치료 계획은 전문의와 99.2% 일치한다는 언급이 있습니다. 이 수치는 닥트로닉이 2025년 7월에 medRxiv 에 공개한 한 연구에서 나온 것입니다. (즉, 아직은 이 논문이 peer-review가 되지 않았습니다.)

이 논문의 제목은 ‘자율 인공지능 의사를 향하여(Toward the Autonomous AI Doctor)’로 부제는 ‘리얼 월드 상황에서 자율 에이전트 인공지능과 전문의 비교 연구 (Quantitative Benchmarking of an Autonomous Agentic AI Versus Board-Certified Clinicians in a Real World Setting)’ 입니다. 정말 인상 깊은 제목인데요. 이 연구를 살펴보면 여러 흥미로운 지점이 있습니다. 이번에는 이 논문에 나오는 닥트로닉 인공지능의 성능이 얼마나 어떻게 검증되었는지를 살펴보겠습니다.

완전 자율형 AI의 실제 임상 환경에서의 검증

이 연구는 ‘닥트로닉’의 인공지능이 실제로 환자에게 서비스 되고 있는 긴급 치료(urgent care) 환경에서 얼마나 정확한 진료를 수행하는지, 즉 자율적인 ‘AI 의사’로서 기능할 수 있는지를 평가하기 위한 것이었습니다. 참고로 긴급 치료(Urgent Care)는 미국에서 응급실까지는 아니지만, 당장 치료가 필요한 (주로 경증질환) 경우에 가는 중간 단계 의료기관입니다. 감기, 독감, 고열, 타박상, 경미한 화상 인후염 등의 환자들이 주로 방문합니다. (즉, 유타주 사례는 만성 질환에 대한 리필 처방이라는 비교적 단순한 의사 결정에 대한 것이지만, 이 논문은 긴급 치료라는 변수가 더 많고 복잡한 환경에서 검증을 시도한 것입니다.)

이 연구의 중요한 의의는 ‘완전 자율’ 임상 AI 시스템의 퍼포먼스를, 실제 환자의 진료를 처음부터 끝까지 (즉, end-to-end) 진행하는 환경에서 검증한 최초의 연구라는 것입니다. 즉, 환자와 대화하면서 병력을 청취하고, 이러한 정보를 종합하고, 임상적인 추론을 내리며, 진료 가이드라인에 부합하는 결정을 하고, 이를 문서화하는 모든 작업을 인간의 개입 (human-in-the-loop) 없이 인공지능이 자율적으로 수행할 수 있는지 검증한 것입니다.

현재 많은 LLM, 혹은 LLM 기반 에이전트 AI가 연구 개발되고 있지만, 이렇게 실제 환자에 대해서 자율성을 가진 AI가 end-to-end 방식으로 진료하는 것을 임상적으로 평가한 적은 없습니다. 지금까지 기존의 다른 연구들에서 AI는 완전히 독립적으로 추론하고, 의사 결정을 내리고, 전체 진료 과정을 문서화하기 보다는, 인간 의사의 진료를 보조하거나 제안하는 정도의 역할에 그쳤습니다. 그래서 이번 연구가 의미 있다고 할 수 있습니다.

닥트로닉 AI가 전문의와 진료 결과 비교

이 닥트로닉은 최근 많은 주목을 받고 있는 멀티 에이전트 LLM 기반의 인공지능 프레임워크입니다. 100개 이상의 LLM 기반 에이전트가 서로 협력하여, 병력 청취, 임상 추론, SOAP 노트 (주관적, 객관적, 평가, 계획) 작성 등을 수행합니다. (아쉽게도, 이런 100개 이상의 에이전트가 세부적으로 어떻게 구성되었고, 역할을 분담했는지 구체적으로 나오지는 않습니다. 다만, 각 에이전트가 “인간 진료 팀의 구조화된 책임을 반영하는 임상 역할 “을 맡고 있으며, 전체 시스템이 “1차 진료 의사 사무실의 임상 작업을 모방하도록 설계되었다”는 정도로만 언급되어 있습니다.)

연구진들은 이러한 닥트로닉 인공지능이 2025년 3월 첫째 주에 진행한 500건의 실제 환자 진료를 후향적으로 분석하였습니다. 환자는 먼저 닥트로닉 인공지능의 진료를 통해, 진단 및 치료 계획을 받았습니다. 그 후에, 전문의(Board-certified clinician)들이 닥트로닉 AI가 작성한 SOAP (주관적, 객관적, 평가, 계획) 양식의 진료 결과 노트를 참고하여 동일한 환자를 원격으로 진료하였습니다. 즉, 이번 연구에 참여한 전문의들은 환자와의 원격의료 시작 전에 닥트로닉 AI가 생성한 진료 결과물을 받고, 진료에 참고할 수 있었다는 점이 특이한 지점입니다.

이렇게 인공지능과 의사가 각각 환자를 진료하여 작성한 SOAP 노트를 비교하여, 서로가 얼마나 일치하는지를 비교해보았습니다. 그 결과는 아래와 같습니다.

닥트로닉의 AI와 인간 전문의의 1순위 진단(Top diagnosis)은 81% 일치했습니다. (405/500)
상위 4개 진단(Top-4 diagnosis) 내에서의 일치율은 95.4%에 달했습니다. (477/500)
치료 계획(Treatment plan)은 99.2%의 사례에서 일치했습니다.

즉, 닥트로닉의 AI와 인간 전문의 진단의 일치율이 아주 높다는 것을 알 수 있습니다. 특히, 치료 계획의 안전성 및 호환성을 평가하기 위해서, 잠재적 동의어, 동등한 처방, 또는 사소한 차이를 감안할 때 닥트로닉 AI 치료 계획과 권장 사항이 인간 전문의 대비 일관적으로 일치한다는 것도 검증되었습니다. 이번 유타주의 새로운 결정을 다룬 뉴스들이 언급하고 있는 ‘닥트로닉 AI의 치료 권고안이 인간 의사와 99% 이상 일치한다’는 데이터나, 닥트로닉 홈페이지에서 언급하는 ‘이 인공지능이 세운 치료 계획은 전문의와 99.2% 일치’한다는 것은 이 치료 계획 부분에서 AI와 전문의가 일치하는 정도를 의미하는 것입니다. (참고로, AI와 인간 의사의 진단 결과가 일치하는지를 판단하기 위해서 연구진은 LLM 심판을 활용하였고, 여기에는 GPT-4.0가 활용되었습니다.)

전문의 대비 동등하거나, 더 우수했다?

더 나아가, 닥트로닉 AI와 인간 전문의 사이에 불일치 했던 사례들을 세부적으로 분석하기 위해서, 1순위 진단이 일치하지 않았던 97개의 모든 케이스를 인간 전문의가 수작업으로 검토했습니다. 그 결과, AI의 판단이 더 우수하다고 평가된 경우는 35건 (36.1%)였으며, 인간 의사가 더 우수한 경우는 9건(9.3%)에 불과했습니다. 나머지 53건(54.6%)는 동등한 수준이거나 판단이 모호했습니다.

특히, AI의 판단이 더 우수하다고 평가된 35건의 경우에는, AI가 생성한 노트가 임상의가 생성한 노트보다 더 적절한 임상적 추론이나 가이드라인을 준수한 치료를 보여주는 것으로 드러났습니다. 이는 확립된 진단 또는 관리 프로토콜이 있는 시나리오에서 AI의 일관성과 최신 가이드라인에 대한 준수가 인간 의사 대비 이점을 제공한 경우였습니다.

반면, 인간 의사가 더 우수했던 9건의 경우에는 환자가 알려진 질병 패턴을 보이면서, 동시에 산만한(distracting) 호소를 하는 시나리오였습니다. 이러한 경우, 인간 임상의는 진단과 관계 없는 환자의 호소를 걸러서 듣는 것에 더 능숙했으며, 감별진단에 대한 추론도 더 자주 문서화하는 경향이 있었습니다.

더 나아가, 36건 (37.1%)의 경우, AI와 의사의 주진단은 동일했으나, 임상의의 문서 작성의 구체성이 낮아 LLM 심판이 이를 인식하지 못했던 것으로 드러났습니다. 한 예로, 주진단이 의사에 의해서는 바이러스성 감염으로, AI에 의해서는 바이러스성 인두염으로 기재되었으나, 두 치료 계획 모두 바이러스성 상기도 감염에 초점을 맞추고 있었습니다. 즉, LLM 심판의 판단 결과보다, 실제로는 닥트로닉 AI와 인간 전문의 사이의 진단 일치율은 더 높았던 것으로 해석할 수 있습니다.

이를 종합해보면, 놀랍게도 닥트로닉의 AI와 인간 전문의의 불일치 사례의 90% 이상에서 임상의와 동등하거나 더 우수했습니다. 특히, 매우 중요하게도 모든 불일치 사례에서 닥트로닉 AI가 생성한 노트는 환자에게 해가 될 수 있는 오류가 없었다고 합니다. 더 나아가서, AI가 생성한 진료 결과가, 녹취록에 의해 뒷받침되지 않는 임상적으로 조작된 진단이나 치료 계획을 포함하는 소위 ‘환각 (할루시네이션)’ 현상도 단 한 건도 없었습니다. 전반적으로 봤을 때, 상당히 우수한 퍼포먼스를 보였다고 평가할 수 있겠습니다.

이 연구의 몇가지 한계

하지만 이 연구를 자세히 들여다보면, 몇가지 분명한 한계점 또한 존재합니다. 일단 인공지능의 성능을 평가하기 위해서, 진단의 정확도나 최종적인 치료 성과가 아닌, 인간 전문의와의 일치도(concordance)를 기준으로 했다는 것입니다. 이는 닥트로닉이 서비스되는 환경을 반영하여 결정된 것이며, 논문에서는 의료에서 ‘무엇이 옳은가’ 하는 점이 때로는 모호하기 때문에 의료진과의 일치도를 검증하는 접근 방식을 택했다고도 언급합니다.

또 다른 한계는 인간 전문의가 진료하기 전에 닥트로닉 AI가 작성한 노트를 먼저 검토했다는 것입니다. 이러한 상황에서는 소위 ‘앵커링 효과(Anchoring Effect)’가 발생하여, 의사의 판단이 AI의 의견에 영향을 받을 가능성이 있습니다. 즉, 이러한 편향에 의해서 실제보다 인공지능과 의사 간의 일치율이 더 높게 나타났을 수 있다는 것입니다. 반대로, 연구 디자인 상 인간 의사에게 더 유리한 측면도 있었습니다. 왜냐하면 인간 전문의는 환자와 영상 통화를 통해서 원격진료를 했기 때문에, 인공지능은 접근할 수 없었던 환자의 표정, 호흡 상태, 피부색 등 추가적인 데이터를 수집할 수 있었기 때문입니다. 이 부분이 인공지능과 의사의 진단 불일치에 영향을 줬을 수 있습니다.

또한 닥트로닉의 인공지능과 전문의 간의 진단이 일치하지 않을 때, 또 다른 인간 의사가 수작업으로 누구의 답변이 더 나은지를 검토한 부분에서도 연구 디자인 상의 약점이 있습니다. 이 검토 단계에서 인간 평가자에게 어느 답변이 인공지능 혹은 인간 전문의로부터 나왔는지를 알 수 없도록 맹검(blind) 처리를 했습니다만, 그럼에도 완전한 맹검 처리는 현실적으로 불가능했다고 합니다. 왜냐하면 AI가 작성한 노트는 형식이 매우 일관적이었기 때문에, 전문가가 노트를 몇번 평가하고 난 다음에는 어느 것이 AI의 것인지 금방 알아차릴 수 있었기 때문입니다.

자율 진료 인공지능을 향해

이 연구는 자율 AI 의사가 실제 긴급 치료 환경에서 인간 전문의와 대등한 수준의 진단 및 치료 계획을 안전하게 수립할 수 있음을 보여준 최초의 대규모 검증 사례입니다. 연구진은 적절한 안전장치가 마련된 자율 AI 시스템이 의료 인력 부족 문제를 해결하고 의료 접근성을 높이는 실질적인 해결책이 될 수 있다고 결론지었습니다.

‘AI가 의사를 대체할 수 있는가?’라는 질문은 단순하게 답변하기가 쉽지 않은 복합적인 문제입니다. 하지만 이 논문은, ‘멀티 에이전틱 인공지능을 통해서 1차 진료 및 긴급 치료 환경에서는 이미 전문의와 대등한 수준의 진료 의사 결정이 가능하다’라는 근거를 제시하고 있습니다. 이번에 유타주에서 닥트로닉의 인공지능의 판단만으로 리필 처방이 가능하게 한 것은 이런 근거에 기반하고 있다고 할 수 있습니다. 사실 이번 논문에 따르면, 닥트로닉의 AI는 긴급 치료 환경에서 전문의와 거의 동등하거나 더 나은 실력으로 ‘자율적으로’ 진료할 수 있기 때문에, 유타주에서 허용한 만성질환에 대한 리필 처방이라는 비교적 단순한 업무는 닥트로닉의 인공지능에게는 아주 쉬운 과제일 수 있습니다.

비록 아직은 이런 사례가 아주 특수한 여건에 한정되어 있지만, 이런 임상 근거와 적용 사례가 축적될 수록 의료 인공지능의 패러다임은 ‘보조 도구’에서 ‘자율적인 주체’로 서서히 확장되게 될 것입니다. 흔히 인공지능의 자율성 수준을 이야기할 때 자율 주행에 비유를 많이 하는데요. 자율 주행의 경우 Level 1부터 Level 5까지의 자율도를 구분해서 분류하게 됩니다. 이에 비유한다면, 대략 아래와 같이 구분해볼 수 있지 않을까 합니다.

Level 1: 문서화 보조(AI 스크라이브)
Level 2: 진단 보조 (인간이 최종 결정)
Level 3: 제한된 자율 진단 (리필 처방처럼 범위가 명확한 영역)
Level 4: 조건부 자율 진단 (긴급진료 등 특정 환경)
Level 5: 완전 자율 진단

이렇게 구분해보면, 유타주가 허용한 것은 Level 3이고, 이번 논문에서 닥트로닉이 검증한 것은 Level 4에 가깝습니다.

향후 확장 가능성

더 나아가, 유타주의 이러한 결정은 향후 다른 주에도 확장될 가능성이 있습니다. 이번에 발표된 유타주 상무부(Utah Department of Commerce)의 공식 보도 자료에는 애리조나와 텍사스가 AI 샌드박스를 만들고, 와이오밍이 자체적인 샌드박스를 준비하는 등 다른 주에서도 비슷한 흐름이 있음을 언급하고 있습니다. 이번 유타주의 과감한 시도가 의사 숫자 부족을 보완하고, 의료비를 줄이면서도, 안전하게 사람들의 만성질환을 관리할 수 있다면, 다른 주에서도 이러한 변화에 동참할 수 있습니다. 유타주 뿐만 아니라, 현재 미국 전역이 의사 부족과 높은 비용으로 고통 받고 있기 때문입니다.

정말 닥트로닉이 의료 현장에서 ‘의사의 치료계획과 99.2% 일치’하는 실력을 발휘하면서, 비용은 4달러 수준으로 낮출 수 있다면, 예산 절감을 원하는 다른 주정부들에게도 매력적인 제안이 될 것입니다. 특히 과거 우버나 에어비앤비가 규제 장벽을 넘어서 빠르게 확산된 것처럼, 의료 인공지능도 한 주에서 법적인 선례(precedent)가 만들어지면 다른 주들이 이를 참조 모델로 삼아 빠르게 도입할 가능성도 있습니다.

다만, 기존 처방을 갱신하는 정도를 넘어서, 환자의 증상을 듣고 진단까지 자율적으로 내리는 것은 차원이 다르게 어려운 문제입니다. 아직 유타주의 사례는 ‘행정적 절차의 자동화’에 가깝다고도 볼 수 있습니다. 자율 진단은 의료 행위의 본질을 바꾸는 행위이기 때문에, AI가 인간 의사를 대체하여 단독으로 진단을 내리기 위해서는 앞으로 여러 가지 어려운 숙제들이 있을 것입니다. 예를 들어, 단순히 기술적인 정확성을 넘어서, 설명 가능한 AI로 의사와 환자의 불신을 해소해야 할 것이며, 다양한 인종 및 성별을 포괄하는 데이터의 확보, 법적 책임 소재 문제, 더 나아가서 윤리적 측면이나 사회적인 합의까지 필요할 것입니다. AI 자율 진단은 아직은 너무 멀게 느껴지지만, 그래도 이번 유타주와 닥트로닉의 사례가 그 첫걸음이 되지 않을까 합니다.

글쓴이

최윤섭

디지털 기술과 생명과학, 의학의 융합을 통해 사회적 가치를 창출하고 의료를 혁신하는 것을 화두로 삼고 있는 디지털 헬스케어 전문가, 미래의료학자, 작가, 벤처투자자입니다. 포항공과대학교(POSTECH)에서 컴퓨터공학과 생명과학을 복수전공하였으며, 전산생물학으로 이학박사 학위를 취득하였습니다. Stanford University 방문연구원, 서울대학교병원 연구조교수를 역임하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사 디지털 헬스케어 파트너스(DHP)의 대표 파트너이며, 연세대학교 의과대학 예방의학교실 외래조교수이기도 합니다. 『디지털 헬스케어: 의료의 미래』, 『의료 인공지능』, 『헬스케어 이노베이션』 등을 집필하였으며, Science의 제1저자를 비롯해서, 주요 국제 학술 저널에 다수의 논문을 개제하였습니다. npj Digital Medicine Editorial Board 멤버이자, 대한의료인공지능학회 설립 발기인 및 기획이사로 활동했습니다. 식약처 및 심평원의 자문위원이기도 합니다.

LinkedIn YouTube About Me

최윤섭의 디지털 헬스케어에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.