Seung-MinJi
[Review] Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients 본문
Paper
[Review] Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients
지승민 2025. 10. 21. 00:130. Abstract
Importance: Emergency department (ED) returns for mental health conditions represent a significant healthcare burden, with about 24 - 27% of mental health patients returning within 30 days. Traditional machine learning models for predicting these returns often lack interpretability for clinical implementation. Objective: To evaluate whether integrating large language models (LLMs) with traditional machine learning approaches improves both the predictive accuracy and clinical interpretability of ED mental health returns risk models. Methods: This retrospective cohort study analyzed 42,464 ED visits for 27,904 unique mental health patients at an Academic Medical Center in the deep South of the United States between January 2018 and December 2022. Main Outcomes and Measures: Two primary outcomes were evaluated: (1) 30-day ED return prediction accuracy and (2) model interpretability through a novel LLM enhanced explainability framework integrating SHAP (SHapley Additive exPlanations) values with contextual clinical knowledge. Results: For chief complaint classification, Llama 3 (8-billion) with 10-shot learning outperformed traditional models, achieving 0.882 accuracy and 0.86 F1-score. In SDoH classification, LLM-based models achieved 0.95 accuracy and 0.96 F1-score, with Alcohol, Tobacco, and Substance Abuse performing best (F1: 0.96–0.89), while Exercise and Home Environment showed lower performance (F1: 0.70–0.67, Table 3). These results demonstrate the effectiveness of LLM-enhanced feature extraction in clinical prediction. The proposed machine learning interpretability framework, leveraging LLM, achieved 99% accuracy in translating model predictions into clinically relevant explanations. LLM-extracted features improved XGBoost’s AUC from 0.74 to 0.76 and AUC-PR from 0.58 to 0.61. Conclusions and Relevance: Integrating LLMs with traditional machine learning models yielded modest but consistent improvements in ED return prediction accuracy while substantially enhancing model interpretability through automated, clinically relevant explanations. This approach offers a framework for translating complex predictive analytics into actionable clinical insights. Keywords: Emergency Department, 30 Days Emergency Return, Machine Leaning, Large Langauge Model, Explainable AI.
- 정신질환으로 병원 응급실(ED)을 방문한 환자 중 약 4명중 1명이 30일 이내에 다시 방문함
- 기존의 AI 예측 모델은 정확도는 있지만 의사가 이해하거나 활용하기가 어려움
- 이 연구는 LLM을 기존 모델에 더해 예측력과 설명력을 동시에 향상시킴
- 결과적으로 예측 정확도는 약간 상승했고, 환자에 대한 설명은 훨씬 명확해졌음.
- 의료진이 이해하기 쉽게 설명을 자동 생성해주는 시스템을 함께 제안함
1. Short Background
- 많은 정신질환 환자들이 응급실을 반복적으로 찾는 현실은 의료 부담을 키움
- 특히 사회적 요인(예: 주거 불안정, 흡연, 음주, 외로움 등이 재방문에 큰 영향을 줌
- 기존 예측 AI 모델은 숫자는 잘 맞춰도 왜 그런 예측을 했느지 설명하지 못함.
- 최근 발전한 인공지는 언어모델은 설명 생성에 매우 강함.
2. Methods

(1) 데이터 수집 및 전처리
- 미국 남부 학술병원의 응급실 기록 (2018.1 ~ 2022..3) 데이터를 사용 (환자수 27391명, 방문수 42.066건)
- 성인 환자이며 정신건강 관련 ICD-10 코드 포함하고 30일이내 재방문 여부를 추적 가능한 사람을 대상으로 함
- 예측 변수는 30일 내 응급실 재방문 여부
- 사용된 입력 변수는 인구통계, 방문정보, 병력정보, 자유서술 텍스트, 사회적 요인(SDoH)로 구성됨
- 자유서술 텍스트 및 SDoH 항목은 대부분 비정형 자연어(NLP 형태)로 제공되었으며, 정형화된 입력으로 변환 필요
(2) LLM을 활용한 전처리 (텍스트 -> 정형화)
- Meta의 LLaMA 3 (8b) 모델를 로컬 환경에서 실행 했으며 (파인튜닝 없이 few-shot 프롬프트 사용)
- Few-shot prompting(퓨샷 프롬프트)은 LLM에게 몇 가지 예시만 보여줘서 문제를 푸는 방식
- 데이터 중 방문이유를 5개 범주로 자동 분류 (infection, Pain, Psychatric, injury, Unclear)
- SDoH 데이터 정리 “Drinks socially” → “Current moderate drinker” 등으로 의미 통일
- few-shot 예시(5, 10, 20개)를 프롬프트에 포함해 추론 수행하며, LLM 결과를 정형 변수로 변환하여 ML 모델 입력 사용
(3) 예측 모델링
- 응급실 방문환자의 30일 내 재방문 여부 예측을 하기 위해 학습하며 모델링을 진행함
- 모델은 XGBoost, AdaBoost, MLP를 이용함.
- 데이터셋 중 80% 학습데이터로 쓰며, 20%는 테스트 데이터를 사용함, 만약 클래스 불균형일떄는 oversampling을 사용하여 보정할수 있도록함.
- 평가지표는 AUC, Accuracy, Precision, Recall, F1-score를 이용함
- LLM 기반 전처리 포함 vs 비포함 모델의 성능 비교 실험을 진행함으로써,LLM의 기여도를 정량적으로 분석
(4) 설명 가능성 도입 (SHAP + LLM)
- 각 예측 결과에 대해, SHAP 값이 가장 높은 Top-N 변수들을 추출함
- 임상 변수별 해석 템플릿 구축, 전체 환자군 평균 통게와 비교할 수있도록 정보포함, SHAP 값 범위별 강조 수준 정리
(5) LLM을 활용한 자연어 설명 생성
- 입력값으로 해당 환자의 특성값, 상위 SHAP 기여 요인 목록, 비교군 통계 + 템플릿 정보를 입역함
- 출력은 개인 맞춤형 설명문이 나오도록 함.
- 전문가(의사) 10명이 평가
- 설명은 단순히 SHAP 숫자 나열이 아닌 임상 맥락 기반 해석문을 생성하는 데 목적을 둠
3. Results
(1) Chief Complaint 분류 성능 및 SDoH (사회적 결정 요인) 분류 성능

- 다양한 접근법 (기존 ML, 사전학습 언어모델, few-shot LLM)을 비교해 chief complaint 텍스트를 5개 범주로 자동 분류함.
- 가장 우수한 성능은 LLaMA 3 (8B) 모델의 10-shot prompting 구성에서 관찰됨

- LLaMA 3 (8B) 모델의 10-shot prompting을 통해 7가지 SDoH 항목 자동 분류 수행
- 전체 평균 Accuracy: 0.95, Weighted F1-Score: 0.96
(2) LLM 전처리의 예측 성능 향상 효과


- 기존 머신러닝 모델에 LLM 전처리 결과를 포함시켰을 떄 성능이 일관되게 향상됨
- LLM으로 정제된 chief complaint 분류 및 SDoH 라벨이 모델의 정보 해석 가능성을 높인 것으로 판단됨
- 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score 등 다른 지표에서도 LLM을 활용한 경우가 전반적으로 더 우수한 성능을 보임
(3) 설명문 생성 품질 평가

- LLM + SHAP+ Knowledge repository 기반으로 생성된 자연어 설명문에 대해 임상의 10인이 수용성 평가를 진행 하여 99% 수용 가능하다고 검증함
(4) 실사용 가능성 평가
- 전체 파이프라인은 로컬 환경에서 실행 가능하도록 설계되어 있음
- LLM 활용은 입력 전처리 + 설명 자동화의 보조 역할로 적합
- 특히 설명 생성 자동화는 의료진 부담을 줄이고, 예측 결과의 수용 가능성을 크게 높임
4. Conclusion
- 자유서술 텍스트등를 LLM을 이용한 정형화된 입력으로 변환하여 기존 ML 방식에 적용
- SHAP 설명을 기반으로 자연어 설명문을 생성
- 실제 임상 현장에서 사용할 수 있는 가능성이 높으며 LLM을 활용한 전처리 및 설명 생성이 진료 지원 도구로 작동할 수 있음
- LLM 기반 전처리를 포함할 경우, 모든 머신러닝 모델의 예측 성능이 향상 AUC 기준으로 약 0.74 → 0.76 수준의 개선
- 설명문 생성 역시 의료진에게 수용 가능하고 임상적으로 유의미하며 임상의 10인 중 99%가 설명문을 신뢰 가능하다고 평가
5. Discussion
- 본 연구는 LLM을 전처리 및 설명 생성에 적용하여 예측과 해석을 동시에 개선함.
- 특히 자유 텍스트 정보를 자동 정형화하고, 직관적 설명 생성을 가능케 함.
- 단일 병원 기반 데이터로 외부 일반화 가능성에는 한계가 있음.
- SHAP 단독 설명보다 LLM 설명이 더 유용하고 실무 적용 가능성이 큼.
- 향후 다양한 의료 분야 확장, 실시간 적용, 외부 검증이 필요한 과제로 남음.