Seung-MinJi
[Review] Evaluating clinical AI summaries withlarge language models as judges 본문
Paper
[Review] Evaluating clinical AI summaries withlarge language models as judges
지승민 2025. 11. 6. 13:540. Abstract
Electronic Health Records (EHRs) contain vast clinical data that are difficult for providers to synthesize. Generative AI with Large Language Models (LLMs) can summarize records to reduce cognitive burden, but ensuring accuracy requires reliable evaluation. Human review is the gold standard but is costly and slow. To address this, we introduce and validate an automated LLM-based method to assess real-world EHR multi-document summaries. Benchmarking against the validated Provider Documentation Summarization Quality Instrument (PDSQI), our LLM-as-a-Judge framework demonstrated strong inter-rater reliability with human evaluators. GPT-o3-mini achieved an intraclass correlation coefficient of 0.818 (95% CI 0.772–0.854), a median score difference of 0 from humans, and completed evaluations in 22 seconds. Overall, reasoning models excelled in inter-rater reliability, particularly for evaluations requiring advanced reasoning and domain expertise, outperforming nonreasoning, task-trained, and multi-agent approaches. By automating high-quality evaluations, a medical LLM-as-a-Judge provides a scalable, efficient way to identify accurate, safe AI-generated clinical summaries.
- 전자 건강 기록은 병원에 있는 환자들의 많은 정보를 담고 있지만, 그 양이 너무 많아서 의사들이 모두 파악하는데 어려움
- 이 문제를 해결하기 위해, AI를 이용해 환자 기록을 요약하는 기술이 개발되고 있지만 정확하게 요약했는지 평가 방법 필요
- 이 연구에서는 AI가 만든 요약을 평가할 수 있는 자동화된 방법을 제시
- GPT-o3-mini는 사람 전문가들과 비교했을 때 높은 일치도를 보였으며, 평가 결과는 매우 정확했음
- 사람 평가자보다 훨씬 더 빠르게 평가를 완료가 가능했음을 보여줌
1. Short Background
- 전자 건강 기록은 환자의 건강 상태와 치료 과정에 관한 중요한 정보를 담고 있지만 이 정보의 양이 매우 방대함
- 의사들은 이 방대한 정보를 검토하는 데 많은 시간을 소비하게 되며, 중요한 세부사항을 놓칠 위험이 커짐
- Generative AI와 특히 대형 언어 모델(LLM)의 발전은 이러한 문제를 해결할 수 있는 가능성을 열어줌
- 현재까지의 자동 평가 지표(예: ROUGE, BERT Score 등)는 대부분 기본적인 자연어 처리 작업을 위한 지표
- 의료 AI 요약의 정확성을 평가할 수 있는 새로운 자동화된 평가 방법이 필요
2. Methods

(1) PDSQI-9 도구
- 연구에서는 의료 요약을 평가하기 위해 PDSQI-9이라는 기존의 평가 도구를 사용
- 사람이 의료 요약의 품질을 평가하는 데 사용하는 기준이지만, LLM을 평가자로 사용하여 정확한 평가가 가능한지 확인
- LLM을 자동 평가 시스템으로 사용하여 AI가 생성한 요약을 검토
- 검증의 주요 기준은 Intraclass Correlation Coefficient (ICC)로, 인간 평가자와 LLM 평가자 간의 일치도를 측정하는 지표
(2) 데이터 세트
- 연구에서는 University of Wisconsin Hospitals and Clinics (UW Health)에서 제공된 실제 환자들의 기록을 기반 데이터에서 EHR에서 생성된 임상 요약을 사용하여 실험을 진행
- 사용된 데이터는 훈련 세트(160개의 요약)와 테스트 세트(40개의 요약)로 분할되어 실험이 진행
(3) 실험 설계
- 해당 연구에서는 GPT-4o, GPT-o3-mini, DeepSeek-R1, Mixtral 8 × 22B, Llama 3.1 8B 성능을 비교
- 평가 전략
- 제로샷(Zero-Shot): LLM에게 사전 지식 없이 요약을 평가하도록 요청하는 방식
- 퓨샷(Few-Shot): LLM에게 몇 개의 예시를 제공하고 그에 맞춰 평가하도록 요청하는 방식
- 슈퍼바이즈드 파인 튜닝(Supervised Fine-Tuning, SFT): 모델을 특정 데이터에 맞게 미세 조정하는 방식
- 직접 선호 최적화(Direct Preference Optimization, DPO): LLM이 평가한 여러 요약 중 선호하는 요약을 선택하도록 최적화하는 방법
- 멀티 에이전트(Multi-Agent): 여러 개의 LLM을 사용하여 상호 협력을 통해 최종 평가를 내리는 방식
- 데이터는 진료 기록 (환자의 여러 의무 기록들), AI가 만든 요약문 (평가 대상), PDSQI-9 기준표
- AI는 이 정보를 읽고, 9개 항목에 대해 1~5점(낙인 여부는 0 또는 1점)을 JSON 형식으로 내보내도록 프로그래밍
3. Results

(1) 단일 LLM 평가자 실험 결과
- 각 모델은 테스트용 40개 요약에 대해 9개 항목 점수를 출력함
- 신뢰도 평가지표 ICC를 기반으로 전문가 7명이 평가한 점수의 중앙값과 비교함
- 가장 좋은 성능의 모델은 GPT-o3-mini (5-shot) 모델이 최고 성능을 보임 ( ICC = 0.818)
- 사람 전문가들과 거의 동일한 수준의 평가 일치도를 보여줌
- LLaMA 모델은 학습 후 성능이 향상됨 → 미세조정(SFT, DPO)의 효과가 큼.
- 반면, Mixtral 모델은 원래 성능이 좋아서 미세조정 효과가 작음.
(2) 다중 에이전트 평가자 실험 결과
- 여러 LLM 평가자들이 서로 다른 관점을 가지고 점수를 제시함.
- 이 결과를 오케스트레이터 에이전트가 종합해서 최종 점수를 결정함.
- 오케스트레이터는 GPT-o3-mini 모델이 맡음.
- 결과는 ICC= 0.768 이었으며, 다중 의견을 반영하므로 다양성을 보장하지만, GPT-o3-mini 단독 평가자보다 약난 낮은 일치도를 보임
(3) 외부 데이터셋 검증
- 본 연구에서 개발한 평가 프레임워크가 다른 의료 요약 과제에도 통용될 수있는지 확인함
- Prosum 2023 ICU 기록 데이터를 활용
- GPT-o3-mini (5-shot): ICC = 0.710 (95% CI: 0.662–0.752)
- 이 결과는 본 실험과 유사한 수준의 신뢰도를 유지
(4) 시간, 비용, 오류, 편향 분석

- 속도 및 비용
- GPT-o3-mini(5-shot)의 평가 속도: 평균 22초
- 사람 평가자는 평균 600초 소요되며 AI가 사람보다 약 25배 빠르다는걸 입증함
- 학습 비용
- Mixtral 8×22B SFT 학습: 약 24시간, 80GB H100 GPU 2개 사용 DPO 학습: 약 60시간
- Mixtral은 비용이 많이 들지만 성능은 기본적으로 우수했음
- 편향 및 오류 분석
- 일부 모델은 자기 자신이 생성한 요약을 더 높게 평가하는 경향이 있었음.
- GPT-o3-mini와 GPT-4o 간의 편향 차이는 통계적으로 유의미하지 않았음 (p > 0.2)
- 전반적으로 큰 편향이 없음으로 확인함
- 모델별 평가 성향
- GPT-o3-mini는 인간과 매우 유사한 평가 기준을 적용함 특히 종합성, 조직성, 인용 정확성 항목에서 사람과 매우 흡사
- GPT-4o는 대체로 더 후하게 평가하는 경향이 있음: 예: 요약의 종합성이 부족해 보여도 5점 만점 부여하는 경우 있음.
4. Conclusion
- 이 논문은 AI가 만든 임상 요약을 평가하는 작업을, 또 다른 AI가 맡을 수 있는지를 실험한 연구임
- 평가 기준으로는 의사들이 실제로 사용하는 PDSQI-9 (9가지 요약 품질 기준)을 활용함.
- 실험 결과, GPT-o3-mini라는 모델은:
- 전문가 평가자들과 거의 일치하는 점수를 줌 (ICC 0.818)
- 평가 시간도 사람보다 25배 빠름 (22초 vs 600초)
- 평가 비용도 매우 저렴함 (약 $0.05)
- 이 모델은 다른 임상 데이터셋(ProbSum 2023)에서도 잘 작동함, 일반화 가능성 높음
- 앞으로는 AI가 만든 요약을 또 다른 AI가 평가하는 시스템이 가능해지며,
이는 시간, 비용, 인력 부담을 줄이면서 의료 현장에서 신뢰도 높은 요약 품질 검증이 가능함을 의미
5. Discussion
- 이번 연구는 AI가 신뢰성 있는 평가자가 될 수 있음을 입증함
- 사용된 요약은 단일 기관(UW Health)에서 생성됨 → 다른 환경에서 재검증 필요
- PDSQI-9는 모든 평가 항목에 동일한 가중치를 둠 → 실제로는 항목마다 중요도가 다를 수 있음
- GPT-o3-mini는 상업적 제약도 적고, 빠르고 저렴하게 평가할 수 있어서 실무에 활용 가능성이 높음.
- GPT 등 최신 모델의 성능은 계속 바뀌기 때문에, 지속적인 업데이트와 검증이 필요함