OpenAI가 드디어 의료 분야에 공식적으로 진출하였습니다. OpenAI는 지난 2025년 5월 12일 대형 언어 모델(LLM)이 헬스케어/의료와 관련된 질문에 얼마나 잘 답변하는지를 평가하기 위한 대규모 데이터셋인 HealthBench를 공개하였습니다. 이 데이터셋을 기반으로 OpenAI의 다양한 버전의 LLM 과 Grok, Gemini, Claude, Llama 등 다른 경쟁 LLM과의 퍼포먼스를 비교하였습니다. 뿐만 아니라, 더 나아가서 인간 의사들의 답변과도 비교한 결과도 보여주었습니다.
OpenAI와 샘 알트만은 그동안 헬스케어 및 의료 분야 적용에 대한 관심을 여러 경로를 통해서 보여 왔었는데요. OpenAI가 여러 제약사, 바이오벤처 등의 외부 파트너들과 협업했던 경우들은 있었습니다만, 단독으로 헬스케어 분야에 움직임을 보이는 것은 이번이 처음입니다. 이번 HealthBench를 공개한 OpenAI의 블로그 글은 “인류의 건강을 개선시키는 것은 AGI의 결정적인 영향 중 하나가 될 것이다 (Improving human health will be one of the defining impacts of AGI)”라고 시작하고 있습니다.
왜 LLM의 벤치마크 데이터인가
그렇다면 하필 왜 OpenAI의 헬스케어 진출이 이러한 테스트 셋을 공개하는 것으로 시작했을까요? 그 이유는 의료/헬스케어 분야에서 그만큼 LLM의 정확도, 성능을 ‘잘’ 평가하기가 쉬운 일이 아니기 때문입니다. 이미 GPT를 포함한 다양한 LLM이 의료/헬스케어 분야에서 (Nature 급의 저널에 출판된 연구를 비롯한) 많은 연구를 통해 좋은 성과를 보여준 바 있습니다. 이런 연구들에도 저마다 평가 방식과 벤치마크 데이터가 있었습니다. 하지만 기존의 방식에는 여러 한계가 있었는데요.
초기에 가장 많이 사용되었던 방식은 의학 지식 문제를 푸는 것이었습니다. 즉, USMLE (미국 의사 면허 시험) 스타일의 의학 문제와 거기에 대한 정답을 만들어 놓고, 이 질문에 대해서 LLM이 정답에 가까운 답을 내어놓느냐를 평가하는 것이었지요. 구글이 네이처에 출판한 논문에서는 아예 이런 의학 문제를 대량으로 만들어내기도 했는데요. 이런 방식이 실행하기는 쉽지만, 문제의 범위가 협소할 수밖에 없고, 의료의 실제 워크 플로우를 반영하기가 어렵습니다. 더구나, 최신 모델들은 이미 이런 문제에 대해서는 포화상태에 이르러서 다들 너무 좋은 실력을 보여줍니다.
특히 인공지능의 답변과 정답이 얼마나 일치하는가를 체계적이고 일관적으로 평가하기도 아주 어렵습니다. (두 개의 글이 정량적, 정성적으로 얼마나 비슷한가를 객관적으로 측정하기가 정말 어렵지요.) 두 글에 겹치는 단어가 얼마나 나오느냐 등의 기계적인 방식으로 측정할 수도 있고 (BLUE, METEOR 등), 사람이 내용을 일일이 읽어보고 평가할 수도 있지만 이런 방식 모두 평가의 퀄리티, 객관성, 일관성 등에서 한계가 있을 수밖에 없습니다.
최근에는 개방형 응답을 평가하고, 인간 평가나 전문가의 베이스라인과 비교하기도 하지만, 여전히 범위가 좁거나 인공지능과의 현실적인 상호작용을 평가하기에는 부족함이 많았다고 이번 논문에서는 언급하고 있습니다.
HealthBench의 구성
그래서 OpenAI는 HealthBench라는 방대한 벤치마크 데이터셋과 평가 기준까지 공개하였습니다. 이 데이터셋은 규모와 범위, 평가 기준 등에서 타의 추종을 불허할 정도입니다. 60개국에서 262명의 의사들이 참여했다고 하는 이 HealthBench는 총 5,000개의 의료/건강에 대한 ‘현실적인’ (다중 턴의) 대화로 구성되어 있습니다. 이 각각의 대화 데이터는 사용자와 인공지능 모델이 건강에 대한 질문과 답변을 주고 받은 (시뮬레이션된) 내용입니다. 이 대화의 마지막 질문에 대해서, 인공지능이 답변을 하고, 이 답변의 퀄리티를 평가하게 되는 것인데요.
특히, 흥미로운 것은 각 대화에 대해서는 답변의 퀄리티를 평가하기 위한 평가 기준표까지 일일이 함께 제공된다는 것입니다. (이를 ‘루브릭(rubric)’ 이라고 부릅니다.) 루브릭은 해당 대화에 대한 답변에 ‘들어가면 좋을 내용’과 ‘들어가면 좋지 않은 내용’들로 구성됩니다. 더 나아가서, 해당 내용이 답변에 포함되어 있을 경우 몇점을 추가하거나, 감점시킬 것인지 점수표까지 제공됩니다. 예를 들어서, 환자가 의식이 없는 상황에 대한 질문에서 ‘반응이 없는 사람을 위해 긴급 구조 서비스를 호출하거나 활성화하라는 명확하고 간결한 조언’이 포함된 경우에는 10점 추가, ‘반응이 없는 사람에게 음식이나 음료를 주라는 조언’이 포함되면 9점 감점 등등입니다.
HealthBench 전체에는 이런 루브릭이 48,562개가 포함되어 있는데요. 그만큼 의료/헬스케어 관련 질문에 대한 답변을 객관적으로 평가할 수 있도록 만들어졌다고 볼 수 있겠습니다. 그러면 평가 기준 자체가 이렇게 방대하다면, 인공지능이 내어놓은 답변을 일일이 채점하는 것도 보통 일이 아닐텐데요. 이 연구에서는 루브릭에 기반하여 평가도 사람이 아닌, 인공지능을 활용합니다. ‘모델 기반 평가자’라고 언급되어 있는데 주로 GPT-4.1 을 활용하였고, 이 평가 방식 자체도 의사들의 판단과 비교하여서 검증을 거쳤습니다.
HealthBench 기반의 다양한 LLM의 성능 측정
OpenAI의 연구자들은 이 HealthBench 데이터셋을 바탕으로, OpenAI의 여러 버전의 인공지능을 비롯하여 Grok, Gemini, Claude, Llama 등 다른 경쟁 LLM과의 퍼포먼스를 비교하였습니다. 평가 기준은 응급 상황 의뢰 (Emergency referrals), 전문성 맞춤 커뮤니케이션 (Expertise-tailored communication), 불확실성 속 응답 (Responding under uncertainty) 등의 테마를 기준으로 하거나, 혹은 커뮤니케이션 퀄리티(Communication quality), 지시 이행 (Instruction following), 정확성 등의 지표(axis)를 기준으로 하였습니다.
그 결과 OpenAI의 o3의 퍼포먼스가 Claude 3.7 Sonnet과 Gemini 2.5 Pro(2025년 3월 버전)를 포함한 다른 모델들보다 뛰어난 성능을 보인다는 것을 확인했습니다. 또한, 최근 몇 달 동안 OpenAI의 프론티어 모델들이 HealthBench에서 28%라는 큰 폭의 성능 향상도 이뤄냈음을 언급하고 있습니다. (이게 GPT-4o(2024년 8월)와 GPT-3.5 Turbo 사이의 성능 향상보다 더 큰 개선이라고 언급되어 있는데, 그만큼 최근 모델들의 성능 향상이 빠르다는 의미로 보입니다)
HealthBench 기반의 신뢰성 측정
또한 모델들의 신뢰성(reliability)도 평가해보았습니다. 의료를 다루는 인공지능에서는 단 한 번이라도 부정확한 답변이 나오면, 위험성이 아주 커지기 때문에 이런 신뢰성에 대한 평가가 중요합니다. 이 연구에서는 ‘worst-at-k-performance’ 라는 방식의 테스트를 진행하였습니다. HealthBench의 특정 문제에 대해서 여러 번의 답변을 생성하고, 이 중에서 가장 낮은 점수를 기록한 답변의 평균을 비교하는 것입니다. 더 많은 답변을 비교할 수록 더 낮은 점수를 받은 답변이 포함되게 마련일 것이므로, 아래와 같은 그래프가 나오게 됩니다. x축의 k 값이 커지면서 점수가 빠르게 하락할 수록 모델의 답변에 대한 편차가 크다는 것을 의미합니다.
이 테스트에서도 역시 o3가 가장 높은 점수를 받았는데요. 특히 GPT-4o 와 같은 이전 모델에 비해서 worst-at-16의 점수가 두 배 이상 높게 나옵니다. 하지만, o3 조차도 worst-at-16의 점수가 worst-at-1 보다 많이 하락하는 것을 보면, 이 o3 모델 자체도 신뢰성 측면에서 많은 부분 개선 되어야 함을 보여주고 있습니다.
LLM과 인간 의사의 답변 비교
특히, 이번 논문에서 제가 흥미롭게 보았던 것은 HealthBench 데이터셋에 대해서 LLM과 인간 의사의 답변을 비교했던 부분입니다. 이 연구에서는 결국 인공지능이 HealthBench 에 대해 얼마나 잘 답변하는지를 평가하기 위한 비교 대상으로 인간 의사가 답변한 내용을 강력한 기준선(strong baseline)으로 삼았습니다. 이 연구에서는 아래와 같이 크게 세 그룹으로 나누었습니다.
- De novo: 인공지능의 도움 없이 의사가 직접 작성한 그룹. 인터넷을 활용해서 정보를 검색할 수는 있지만, ChatGPT 등 어떤 종류의 AI의 도움도 받아서는 안 됨.
- 2024년 버전의 GPT를 참고한 그룹: 2024년 8월/9월 버전의 GPT-4o 및 o1-preview 의 답변을 참고하여 의사가 답변을 작성한 그룹
- 2025년 버전의 GPT를 참고한 그룹: 2025년 4월 버전의 GPT-4.1 및 o3 의 답변을 참고하여 의사가 답변을 작성한 그룹
그 결과가 상당히 흥미롭습니다. 일단 가장 성적이 좋지 않았던 것은 De novo, 즉 인공지능의 도움 없이 의사가 답변을 작성한 그룹입니다. 이 그룹은 심지어 2024년 버전의 GPT보다도 점수가 더 낮습니다.
그리고 2024년 버전의 GPT를 참고한 경우, 의사와 GPT의 시너지가 있었습니다. GPT-4o 및 o1-preview의 답변보다, 이 답변을 의사가 참고해서 수정/보완한 답변의 점수가 더 높았습니다. 하지만 흥미롭게도 2025년 버전의 GPT에 대해서는 이러한 의사와 GPT의 시너지가 사라집니다. 2025년 4월 버전의 GPT-4.1 및 o3의 답변과, 이 답변을 의사가 참고하여 수정/보완한 답변을 비교해보면, 두 그룹 간의 점수 차이가 거의 없습니다.
즉, 최신 버전의 GPT는 적어도 HealthBench 데이터셋 기반으로 의학 대화에 얼마나 답변을 잘 하는지 테스트를 한 경우, 의사가 단독으로 답변한 것보다 더 점수가 높을뿐만 아니라, 굳이 의사가 추가로 검토해서 수정/보완을 할 필요가 없을 정도로 양질의 답변을 내어놓는다는 것입니다.
인공지능 >= 인공지능 + 의사
물론 이 결과에 대해서는 조심스러운 해석이 필요합니다. 건강에 대한 연속된 대화의 마지막 질문에 대해 텍스트 형식으로 답변하는 것이 의사들이 평소에 수행하는 작업이 아니기 때문입니다. 이것만으로 ‘LLM이 의사를 대체할 수 있다’는 식의 확대된 해석을 하는 것은 경계해야 하겠습니다.
하지만 이 결과는 최근에 제시되기 시작한, 인간 의사와 인공지능 간의 시너지와 관련한 여러 연구 결과들과 맥락을 같이 합니다. 바로, 인공지능 단독으로 문제를 푸는 것이, 인공지능과 인간 의사가 힘을 합친 것과 별반 차이가 없거나, 오히려 더 낫다는 것입니다.
의료 인공지능 분야의 초창기에는 의사와 인공지능의 퍼포먼스를 직접 비교하는 것보다는 의사와 인공지능의 시너지가 있다는 것을 보여주는 연구를 많이 했었습니다. 의사 단독, 인공지능 단독 보다도, 의사 + 인공지능의 퍼포먼스가 더 좋다는, 어찌보면 당연한 결론이 대부분이었습니다.
하지만 인공지능 기술이 눈부시게 발전하면서, 최근 몇몇 연구에서는 의사+인공지능 보다도, 인공지능 단독이 이 더 퍼포먼스가 좋거나, 두 그룹 사이에 별로 차이가 없다는 결과들이 나오기 시작한 것입니다. 제가 최근에 소개해드린 루닛의 Lancet Digital Health 연구 결과도 이 중 하나이며 (유방촬영술을 영상의학과 의사 2명이 함께 판독하는 것에 비해 인공지능 단독으로 판독하는 것이 암 검출율 측면에서 비열등함), 2025년 Nature Medicine에 발표된 논문에서도 의료의 관리 추론(management reasoning) 문제에 대해서도 GPT-4의 답변이 GPT-4의 보조를 받은 의사의 답변과 점수 차이가 없었다는 결과가 언급되고 있습니다. 특히, 이런 연구들은 RCT(randomized controlled trial)로 진행되었다는 것에도 의미가 있습니다.
이런 연구들은 물론 특정 상황, 환경에서 행해진 것이긴 합니다만, 의사와 인공지능의 역할 정립에 시사하는 바가 적지 않다고 생각합니다. 저는 이런 비슷한 연구 결과가 다양한 의료 주제에서 더 나올 것이라고 생각합니다. 사실 예전 같으면 이런 결과가 나오면 많이 화제가 되었을 것 같습니다만, 이제는 인공지능 분야에 너무 놀라운 발전이 많이 있으니, 이런 결과가 나와도 ‘그러려니’ 하는 것 같기도 합니다. 하지만 이렇게 인공지능 단독으로 특정 문제를 해결하는 것이 의사+인공지능 보다 더 좋다는 결과들이 (특히 RCT에 기반한 근거 수준이 높은 결과들이) 축적되기 시작하면, 결국 해당 문제에 대해서는 인간 의사를 인공지능이 대체할 수 있다는 방향으로 논의가 진행되게 됩니다. 그런 결론을 내리기 위해서는 많은 연구가 필요하겠습니다만, 우리가 지금 이러한 패러다임 전환의 초입을 목도하고 있는 것이 아닌가 하는 생각이 들기도 합니다.
나가는 말
의료는 인공지능 기술의 발전이 가장 빠르고 적극적으로 적용되고, 또 가장 큰 파급 효과를 지닐 수 있는 분야입니다. 때문에 OpenAI가 의료 분야에 지속적으로 관심을 가져왔고, 여러 협업을 통해 간접적으로 진출을 하기도 했었습니다. 하지만 이번 HealthBench의 발표는 OpenAI가 직접적으로 의료 분야에 진출하기 시작했다는 것에 의의를 둘 수 있는 움직임입니다. 특히 의료 분야 대화에 대해서 LLM의 퍼포먼스를 측정할 수 있는 데이터셋이 그 시작이었다는 것은 향후에 더 근본적이고 큰 문제에 도전하기 위해서 밑그림을 그리는 것이라고도 할 수 있겠습니다.
일각에서는 이번 HealthBench에 대해서, 벤치마크를 OpenAI가 만들고, 그 벤치마크를 OpenAI의 인공지능이 가장 잘 해결할 수 있다고 하는 것에는 문제가 있다는 이야기를 하기도 합니다. 심판과 선수를 모두 같은 회사에서 한다는 것으로 해석될 수도 있기 때문입니다. 하지만 (제가 이번 글에는 모두 소개하지는 않았으나) HealthBench의 데이터 중에서도 o3를 포함하여 현재 최고 수준의 프론티어 모델들도 잘 해결하지 못하는 문제들도 많았습니다. (이를 HealthBench Hard 라는 별도의 데이터셋으로 구분하고 있기도 합니다.) 향후 새로운 모델들이 발전할 수 있는 도전적인 기준점을 제시한 것이기도 합니다.
OpenAI가 의료 분야에서 LLM을 평가하기 위한 완전히 새로운 기준을 제시했으니, 이제 이를 기반으로 또 많은 연구 결과들이 쏟아지게 될 것입니다. 이를 통해 의료 분야에서 생성형 인공지능이 또 어떤 방향으로 발전하고, 흥미로운 결과를 내어놓을지 기대됩니다.
Discover more from 최윤섭의 디지털 헬스케어
Subscribe to get the latest posts sent to your email.