Seung-MinJi
[Review] Enhancing EHR-based pancreatic cancer prediction with LLM-derived embeddings 본문
Paper
[Review] Enhancing EHR-based pancreatic cancer prediction with LLM-derived embeddings
지승민 2025. 10. 24. 15:030. Abstract
Pancreatic cancer (PC) is often diagnosed late, as early symptoms and effective screening tools are lacking, and genetic or familial factors explain only ~10% of cases. Leveraging longitudinal electronic health record (EHR) data mayoffer apromisingavenuefor early detection. We developed apredictive modelusinglargelanguagemodel(LLM)-derivedembeddingsofmedicalconditionnamestoenhance learning from EHR data. Across two sites—Columbia University Medical Center and Cedars-Sinai Medical Center—LLM embeddings improved 6–12 month prediction AUROCs from 0.60 to 0.67 and 0.82 to 0.86, respectively. Excluding data from 0–3 months before diagnosis further improved AUROCsto0.82 and 0.89. Our model achieved a higher positive predictive value (0.141) than using traditional risk factors (0.004), and identified many PC patients without these risk factors or known genetic variants. These findings suggest that the EHR-based model may serve as an independent approach for identifying high-risk individuals.
- 본 연구는 전자의무기록(EHR)을 이용하여 췌장암을 조기에 예측하는 모델을 개발하는 것을 목표로 함
- Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC)의 데이터를 OMOP Common Data Model 형태로 통합하여 사용
- 각 환자의 진단 코드를 대형 언어 모델(LLM)에서 생성한 임베딩(GPT, Mistral)과 그래프 기반 임베딩(RGCN)으로 변환함
- Transformer 구조를 이용해 췌장암 발생을 0–60개월 전에 예측하는 모델을 학습
- LM 임베딩 기반 모델은 기존 RGCN 모델보다 AUROC, AUPRC, PPV가 향상되어 EHR에서의 의미적 표현이 예측 성능에 기여함을 보임
1. Short Background
- 췌장암은 증상이 늦게 나타나 조기 진단이 어려운 치명적 질환이다.
- 전자의무기록(EHR)에는 환자의 장기적인 진단 정보가 축적되어 있으나, 기존 연구들은 단순 코드(one-hot) 입력에 의존해 질병 간 의미적 관계를 반영하지 못함
- 대형 언어 모델(LLM)은 언어의 의미적 관계를 벡터로 표현할 수 있어, 질병명 간의 연관성을 반영.
- 본 연구는 LLM에서 생성된 의미 임베딩을 이용해 진단 시퀀스를 Transformer 모델에 입력하고, 췌장암 조기 예측 성능을 개선하는 가능성을 탐색함
2. Methods

(1) 데이터 수집
- 본 연구의 데이터는 환자 개인정보는 완전히 비식별화(de-identified) 되었으며, Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC) 기관에서 수집된 EHR(전자의무기록) 데이터를 사용함
- 병원마다 데이터 구조가 달라 병합이 어려워, 연구팀은 OMOP Common Data Model (CDM) 형식으로 데이터를 변환
(2) 연구 대상자
| 구분 | 선정 기준 | 제외 기준 |
| Case (췌장암 환자) | ICD 진단 코드 중 ‘malignant neoplasm of the pancreas’ 보유자 | 다른 암 병력 존재자 |
| Control (비암 환자) | 전체 환자 중, 암 관련 텍스트(“malig”, “adenocarcinoma”)가 없는 사람 | 최근 2년 내 진단 기록이 있는 사람, 5개 미만 진단 보유자, 18세 미만·100세 초과 |
- 즉, control 그룹은 암이 전혀 없고 최근 병원 방몬도 없느 일반 환자군이다.
- 췌장암 환자는 최초 진단 시점을 기준으로 데이터가 정렬 시켰다.
- 규모는 CUMC: case 3,300명 / control 785,335명, CSMC: case 1,781명 / control 484,515명, 총 127만명 이상의 환자데이터 사용.
(3) 데이터 입력 구조

- 모델 입력은 [Hypertension → Diabetes → Pancreatitis → Abdominal pain → Pancreatic cancer]
형태의 시계열 리스트(sequence) 로 구성된다. - Control 환자의 경우에는 암 진단이 없으므로, 무작위 기준일(최근 진료일)을 기준으로 과거 5년 병력을 동일하게 구성한다.
(4) 질병 코드의 벡터화
- RGCN (그래프 방식)
- 질병 간 관계(상위-하위 구조)를 그래프로 연결
- ex) 췌장암 -> 소화기계 암 -> 악성종량
- 이 관계를 학습하여 각 질병을 의미적으로 가까운 숫자로 표현
- GPT 임베딩 (언어 모델 방식)
- OpenAI의 GPT 모델에 질병명을 넣고, “이 단어의 의미를 숫자로 표현하라”고 시켜 생성된 벡터 사용.
- 작은 버전(32차원)과 큰 버전(1,536차원)을 비교해 성능 차이를 검토.
- Mistral 임베딩 (고차원 언어 모델)
- Salesforce의 Mistral-7B 언어 모델을 사용해 4,096차원의 풍부한 벡터로 질병 간 의미를 표현.
- GPT보다 더 세밀한 의미 관계를 포착.
(5) 인공지능 모델 구조
- Transformer는 “시간 순서가 있는 데이터”를 잘 이해하는 모델임
- 환자의 진단 시퀀스 전체를 입력받아, 어떤 패턴이 암으로 이어지는지를 학습한다.
- 두 가지 구조로 실험 진행
- 멀티라벨 모델: 0~3, 3~6, 6~12, 12~36, 36~60개월 전 위험을 한 번에 예측.
- 이진 모델: 특정 시점(예: 6~12개월 전)만 따로 예측.
(5) 모델 학습 및 평가
- 학습 데이터와 테스트 데이터를 병원별로 나누어 교차 검증을 진행했다.
- 평가 지표는 다음과 같다.
- AUROC: 암과 비암을 얼마나 잘 구분하는지.
- AUPRC: 드문 질병(췌장암) 예측에서의 정밀도-재현율 성능.
- PPV: 모델이 “이 사람은 암이 생길 것 같다”고 했을 때 실제로 맞는 비율.
- 추가 분석으로 나이 차이가 결과에 영향을 주는지 검토했으나, 통계적으로 유의한 차이는 없었다.
3. Results
(1) 전체 개요
- 연구팀은 Transformer 기반 예측 모델을 이용해 Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC)의 EHR 데이터를 분석
- 임베딩 유형, 임베딩 크기(32~4096차원), 학습 방식(freezing vs fine-tuning) 이 성능에 어떤 영향을 미치는지를 비교
(2) 임베딩 크기와 학습 방식의 영향
- 임베딩 차원이 커질수록 전반적으로 예측 성능(AUROC, AUPRC)이 향상되었으며, 더 많은 차원 정보가 질병 간 관계를 더 잘표현했지만 Mistral(4096차원) 은 가장 크지만 모든 구간에서 성능이 크게 향상되진 않았다.
- fine-tuning 은 저차원(32차원) 임베딩에서는 효과가 컸으나,1536차원 이상에서는 성능 향상이 거의 없었다.
(3) 임베딩 종류별 성능 비교

- GPT 임베딩(OpenAI) 이 대부분의 예측 구간에서 가장 높은 성능을 보임
- Mistral 임베딩 은 F1-score 기준으로는 약간 더 높았으나 (p=0.035), 전체적인 AUROC/AUPRC는 GPT보다 낮았다.
- RGCN 임베딩(그래프 기반) 은 GPT보다는 낮지만, 랜덤 초기화 Baseline보다는 확실히 나았다.
(4) 기관 간 비교 (CUMC vs CSMC)
- CSMC 모델이 CUMC보다 항상 더 높은 AUROC을 기록 ( CSMC: 0.824, CUMC: 0.724)
- GPT 임베딩은 두 기관 모두에서 기본모델보다 향상된 성능을 보였으나, CUMC에서는 일부 구간에서 편차가 보임
(5) 데이터 누출(Data Leakage) 점검
- 암 진단 직전(0–3개월)의 데이터는 이미 ‘전조 증상’이 반영되어 누출 위험(leakage) 이 존재할 수 있음
- 따라서 실제 임상 조기진단에는 0–3개월 데이터 제외가 더 적절하다는 결론을 도출했다.
(6) 임상적 유용성 평가 (Clinical Utility)
- 전통적 위험요인(CA19-9, 당뇨, 췌장염) 및 유전자 변이와 비교했을 때 EHR 기반 모델이 훨씬 높은 PPV(양성예측도) 를 보임
- 민감도(sensitivity)는 다소 낮았지만 스크리닝 기준(threshold)을 조정해 개선가능 했음.
- 50% 민감도를 얻기 위해선 전체 인구의 약 15%만 선별 검사하면 되었고, 이는 전통적 위험요인(16% 검사 시 28–44% 민감도)보다 효율적
- 실제 췌장암 환자 중 절반 이상(>50%)은 전통적 위험요인으로는 걸러지지 않았지만 EHR 모델로는 탐지 가능했다.
4. Conclusion
- 본 연구는 EHR(전자의무기록) 데이터에 LLM 임베딩을 적용하여 췌장암 조기 예측 가능성을 검증한 최초의 사례 중 하나
- GPT 및 Mistral 임베딩을 통해 진단 코드의 언어적 의미를 반영함으로써, 단순한 숫자열(one-hot) 표현보다 질병 간 관계를 더 잘 포착
- Transformer 기반 모델은 질병 발생 순서를 학습하여 진단 6~36개월 전 단계에서도 췌장암 발생 위험을 감지
- GPT 임베딩은 RGCN(그래프 기반)보다 일관되게 높은 성능을 보였고, 미세조정(fine-tuning)이 불필요할 만큼 안정적인 의미 표현을 유지
- 향후 이러한 LLM 기반 임베딩은 췌장암 외의 다양한 질병(예: 간암, 폐암, 심혈관 질환 등) 조기 탐지에도 확장 적용될 수 있음을 시사
5. Discussion
- 실제 임상적 증상(영상, 혈액검사, 유전정보 등)은 반영되지 않았다.
- Control 그룹이 ‘최근 진단이 없는 일반 환자’이므로 완전한 건강인이라 보기 어렵다.
- 다기관 데이터와 다중 모달리티(검사, 영상, 유전자 등)를 통합해 멀티모달 LLM 기반 의료 예측 모델로 확장 필요.
- 모델의 해석 가능성(Explainability)을 강화하여 임상 의사가 “왜 이 환자가 고위험인지”를 이해할 수 있도록 지원