[Review] Large language models forecast patient health trajectories enabling digital twins

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

Seung-MinJi

[Review] Large language models forecast patient health trajectories enabling digital twins 본문

Paper

[Review] Large language models forecast patient health trajectories enabling digital twins

지승민 2025. 10. 23. 18:10

0. Abstract

Generative artificial intelligence is revolutionizing digital twin development, enabling virtual patient representations that predict health trajectories, with large language models (LLMs) showcasing untapped clinical forecasting potential. We developed the Digital Twin—Generative Pretrained Transformer (DT-GPT), extending LLM-based forecasting solutions to clinical trajectory prediction. DT-GPT leverages electronic health records without requiring data imputation or normalization and overcomes real-world data challenges such as missingness, noise, and limited sample sizes. Benchmarking on non-small cell lung cancer, intensive care unit, and Alzheimer’s disease datasets, DT-GPToutperformedstate-of-the-art machine learning models, reducing the scaled mean absolute error by 3.4%, 1.3% and 1.8%, respectively. It maintained distributions and cross-correlations of clinical variables, and demonstrated explainability through a human-interpretable interface. Additionally, DT-GPT’s ability to perform zero-shot forecasting highlights potential advantages of LLMs asclinical forecasting platforms, proposing a path towards digital twin applications in clinical trials, treatment selection, and adverse event mitigation.

연구진은 인공지능 기술을 활용해 환자의 건강 상태가 앞으로 어떻게 변할지를 예측하는 모델인 DT-GPT를 개발함.
이 모델은 환자의 전자의무기록(EHR)을 입력받아, 별도 보정 없이도 정확한 예측이 가능함
폐암, 중환자실, 알츠하이머 환자 데이터를 테스트한 결과 기존 AI 예측 모델보다 더 정확하고 안정적인 결과를 냄
결과에 대한 설명 가능 기능과 학습하지 않은 항목도 예측할 수 있는 능력도 탑재함
향후 치료 방법 선택, 임상시험 설계, 부작용 에방 등에 활용 가능성이 높음

1. Short Background

환자의 과거 건강정보(검사, 치료, 진료기록 등)를 바탕으로 만든 가상환자를 이용해 미래 상태를 시뮬레이션하고 다양한 치료방법을 실험해볼수 있는 디지털 트윈 연구가 초기 진행 상태임
실제 병원 기록은 데이터가 빠져 있거나 들쭉날쭉하고 복잡하며 많은 모델이 이런 문제를 처리하기 위해 전처리가 필요
대규모 언어모델(LLM)은 의료 데이터의 시간적 변화를 예측하는 데 잠재력이 있음.
특히, 단일 시점 예측이 아닌 ‘시간에 따른 변화(trajectory)’를 예측하는 데 주목받고 있음.

2. Methods

(1) 데이터 구성

연구에서는 세 가지 서로 다른 의료 데이터셋을 사용함.

데이터셋	환자 수	대상	예측 내용
NSCLC 데이터 (폐암 환자)	약 16,500명	항암치료 중인 환자	치료 후 13주간의 혈액검사 수치 (6종 변수: WBC, Hb, Platelet 등)
MIMIC-IV 데이터 (중환자실 환자)	약 30,000명	입원 직후 24시간 생체 신호 기록	다음 24시간의 산소포화도(SpO₂), 호흡수, 마그네슘(Mg) 수치
ADNI 데이터 (알츠하이머 환자)	1,140명	초기 인지저하 또는 AD 환자	이후 24개월간(6개월 단위) 인지점수 변화(MMSE, CDR-SB, ADAS11)

(2) 데이터 처리 방식

실제 병원 데이터의 불완전한 현실을 반영 하기 위해 인위적 수정 최소화 결측치, 이상치는 가능한 그대로 유지
입력값으로 일반적인 AI처럼 숫자로 된 표 형태로 아니라, 자연어 문장 형태로 바꿔서 모델을 입력함
ex) 65세 여성, 항암 치료 3주차, 혈색소 12.3, 백혈구 5.1, 혈소판 210
이렇게 하면 언어모델이 '의미'를 이해하듯 환자 정보를 맥락적으로 처리할 수 있음.
각 환자의 데이터는 시간 순서대로 연결된 문장들로 표현됨

(3) 모델 구조와 학습 방법

사전학습된 의료 특화 LLM인 BioMistral-7B 사용
훈련과정의 입력은 환자의 과거 검사 및 진료 기록으로 하며 출력값은 다음 시점의 검사 결과나 상태 변화으로 함
학습 비율은 학습용 80%, 검증용 10%, 테스트용 10%으로 나눠서 학습을 진행함

(4) 모델 기능 (DT-GPT의 3대 특징)

시간에 따라 혈압, 혈당, 인지 점수가 어떻게 변할지를 예측. (시계열 예측)
학습하지 않은 새로운 변수도 예측 가능 (제로샷 예측)
예측값의 근거를 자연어로 실행 (설명 가능)

(5) 성능 평가

LightGBM, LSTM, Transformer 등 14종의 기존 AI 모델들을 비교함
예측된 값이 실제 값과 얼마나 비슷하게 분포하는지 분포 유사도와 예측값과 실제값의 평균차이인 MAE를 평가지표로 사용함
동일 데이터를 여러 모델을 비교하여 공정하게 평가했으며 얘축 반복 을 수행하여 불확실성도 함계 분석

3. Results

(1) DT-GPT의 전반적인 성능 요약

세 가지 데이터셋 모두에서 최고 성능 달성.
오차율 MAE이 가장 낮고, 통계적으로 유의미하게 개선됨
폐암(NSCLC)데이터 셋에서는 3.4% 향상, 중환자실(ICU)데이터 셋에서는 1.3% 향상, 알츠하이머(AD) 1.8% 향상
예측 오차가 데이터의 자연스러운 변동폭보다도 적어 매우 정밀한 예측을 할수있었음.

(2) 비교 모델의 결과 세부 분석

모델	특징	비고
LightGBM	기존 의료 예측 AI 중 가장 성능 우수	DT-GPT보다 정확도 약간 낮음
Transformer, LSTM	시계열 딥러닝 기반	복잡한 데이터에서 노이즈 영향 큼
PatchTST, Time-LLM	최신 LLM 기반 시계열 모델	변수 간 관계를 동시에 반영 못함
BioMistral-7B, Qwen3-32B	미세조정전의 원본 LLM	실제 예측 시 허상 오류 발생

MAE로 계산된 오차값 (낮을수록 정확함)

(3) 데이터별 세부 성능 (숫자 중심)

NSCLC (폐암 데이터)
- 항암치료 후 혈액 지표(Hb, WBC, Platelet 등)의 주간 변화를 예측
- DT-GPT의 예측 곡선이 실제 환자 데이터의 추세와 거의 일치
- 치료 주기, 약물 반응 등의 맥락을 잘 포착함
ICU (중환자실 데이터)
- 입원 24시간 내 산소포화도, 호흡수, 마그네슘 수치 등 예측
- DT-GPT는 생리학적 패턴(예: 산소포화도 저하 → 호흡수 증가)을 학습
- 응급 환경의 시계열 데이터를 안정적으로 처리함
ADNI (알츠하이머 데이터)
- 초기 인지검사 점수로부터 2년간의 인지 저하를 예측
- 실제 인지 기능 저하 곡선과 높은 유사도 유지
- 질병의 진행 경향(완만한 저하 vs 급격한 저하)을 구분 가능

데이터셋	DT-GPT 평균 MAE	기존 최고 모델	상대적 향상률	의미
NSCLC (폐암)	0.55 ± 0.04	LightGBM (0.57 ± 0.05)	+3.4%	항암 치료 후 혈액 수치 예측 향상
ICU (중환자실)	0.59 ± 0.03	LightGBM (0.60 ± 0.03)	+1.3%	24시간 생체신호 예측 정확도 향상
AD (알츠하이머)	0.47 ± 0.03	TFT (0.48 ± 0.02)	+1.8%	장기 인지 점수 변화 예측 개선

(4) 예측값의 통계적 일치도

예측값의 분포가 실제 환자 데이터 분포와 거의 동일
KS 통계검정 결과, DT-GPT만이 실제 분포 형태를 정확히 재현함
다른 모델(Transformer, TiDE, TCN 등)은 분포 왜곡 발생 DT-GPT는 평균값뿐 아니라 데이터의 형태 자체를 이해하고 재현함

(5) 변수 간 관계(상관성) 유지력

NSCLC: R² = 0.98, ICU: R² = 0.99, ADNI: R² = 0.99으로 결과 나왔으며 DT-GPT는 각 변수 간 상관관계(correlation)를 실제 환자 데이터와 유사하게 유지함
견고성 실험: 데이터를 축소 시켜 35000명 -> 5000명으로 줄여도 성능을 거의 유지함
오타 실험: 25단어 이상 오류가 생길 때까지 예측 정상 작동했으며 실제 병원 환경의 “불완전 데이터”에서도 안정적임을 보여줌
불확실성 실험: DT-GPT는 환자별로 10~30개의 예측 시나리오를 생성해 평균으로 중심값을, 분산으로 신뢰도를 계산
- 가장 신뢰도 높은 예측을 선택할 경우 평균 오차(MAE)가 26%(0.40 ± 0.02) 감소하여 환자별 미래 경로를 시뮬레이션하는 디지털 트윈 개념을 실현 가능
경증 빈혈(Hb 저하) , LDH 상승(암 진행 지표), 염증 관련 지표(WBC, Neutrophil 등)는 정확하게 맞춘 경우가 많았으며, 드문사건이나 회귀 사례에서는 데이터 부족으로 정확도 낮았음.
제로샷 예측 능력 실험: 학습하지 않은 69개의 새로운 변수도 예측 가능했으며 이 중 13개 변수는 기존 모델(LightGBM)보다 정확 그중 11개는 기존 학습 변수와 높은 상관을 가짐

(6) 설명 가능한 예측 (Explainability)

DT-GPT는 결과뿐 아니라 예측 이유를 텍스트로 설명 가능
총 27,730건의 예측 중 25,575건에서 영향 요인 자동 추출
주요 영향 요인 3가지:
1. 치료 종류 (Therapy) — 면역치료나 표적치료 환자는 Hb 수치 유지가 더 잘됨
2. ECOG 점수 (활동도) — 활동성이 높은 환자가 더 안정적인 혈액 수치 유지
3. 나이 (Age) — 고령일수록 Hb 수치 감소 경향
이 결과들은 기존 의학 문헌과 일치 → 의학적으로 해석 가능한 예측

4. Conclusion

DT-GPT는 의료용 디지털 트윈(digital twin) 개념을 실현하는 최초의 LLM 기반 예측 플랫폼임.
기존의 AI 모델보다 더 정밀하고 안정적인 환자 건강 예측 성능을 보였으며, 설명 가능한 인터페이스(Explainable Interface) 를 제공해, 결과뿐만 아니라 예측의 이유와 근거를 자연어로 설명 가능함.
DT-GPT는 학습 시 포함되지 않은 임상 변수(Zero-shot variables) 에 대해서도 예측이 가능했음.
이러한 결과는 LLM이 임상 예측 플랫폼으로 발전할 잠재력을 보여주며, 향후 임상시험, 치료 선택, 부작용 예측 등의 실제 의료 현장에도 활용될 수 있음을 제시함

5. Discussion

현재 LLM 모델은 한 번에 다룰 수 있는 입력·출력 길이가 제한되어 있으며 더 큰 컨텍스트 윈도우를 가진 모델이 필요함
완전한 제로샷 방시에서 벗아 퓨샷 학습으로 확장하면 더 넓은 임상 변수 예측이 가능해질 것으로 기대됨
LLM을 시간 예측에 특화시킨 새로운 접근법(Time-LLM 등)을 임상 환경에 맞게 적용할 수 있음.
의료 데이터의 편향(bias)이 모델에 그대로 반영될 수 있음.특히 소수 인종이나 희귀 질환 환자 데이터 부족으로 인해
모델이 특정 집단에 대해 부정확하게 예측할 위험이 존재함.
이를 해결하려면 대규모·다양한 임상 데이터 수집과 의료진 교육 및 알고리즘 개선이 병행되어야 함
최종적으로 연구진은, “LLM 기반 디지털 트윈이 의료 시스템의 핵심 도구가 될 것이다”라고 전망

'Paper' 카테고리의 다른 글

[Review] Enhancing the Interpretability of SHAP Values Using Large Language Models (0)	2025.11.01
[Review] Enhancing EHR-based pancreatic cancer prediction with LLM-derived embeddings (0)	2025.10.24
[Review] Medical BCFL: A blockchain-enabled federated learning architecture for secure healthcare data sharing (0)	2025.10.22
[Review] Internet search and medicaid prescription drug data as predictors of opioid emergency department visits (0)	2025.10.21
[Review] Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients (0)	2025.10.21

'Paper' Related Articles

Seung-MinJi

[Review] Large language models forecast patient health trajectories enabling digital twins 본문

[Review] Large language models forecast patient health trajectories enabling digital twins

0. Abstract

1. Short Background

2. Methods

3. Results

4. Conclusion

5. Discussion

'Paper' 카테고리의 다른 글

티스토리툴바