Seung-MinJi

[Review] Machine learning predicts the risk of osteoporosis in patients with breast cancer and healthy women

지승민 — Fri, 14 Nov 2025 15:13:26 +0900

0. Abstract

Objective
In this study, we investigated the effects of endocrine therapy and related drugs on the body composition and bone metabolism of patients with breast cancer. Additionally, using body composition-related indicators in machine learning algorithms, the risks of osteoporosis in patients with breast cancer and healthy women were predicted.
Methods
We enrolled postmenopausal patients with breast cancer who were hospitalized in a tertiary hospital and postmeno pausal women undergoing health checkups in our hospital between 2019 and 2021. The basic information, body composition, bone density-related indicators, and bone metabolism-related indicators of all the study subjects were recorded. Machine learning models were constructed using cross-validation.
Results
Compared with a healthy population, the body composition of patients with breast cancer was low in bone mass, protein, body fat percentage, muscle, and basal metabolism, whereas total water, intracellular fluid, extracellular fluid, and waist-to-hip ratio were high. In patients with breast cancer, the bone mineral density (BMD), Z value, and T value were low and the proportion of bone loss and osteoporosis was high. BMD in patients with breast cancer was negatively correlated with age, endocrine therapy status, duration of medication, and duration of menopause, and it was positively correlated with body mass index (BMI) and basal metabolism. The parameters including body composition, age, hormone receptor status, and medication type were used for developing the machine learning model to predict osteoporosis risk in patients with breast cancer and healthy populations. The model showed a high accuracy in predicting osteoporosis, reflecting the predictive value of the model. Conclusions
Patients with breast cancer may have changed body composition and BMD. Compared with the healthy popu lation, the main indicators of osteoporosis in patients with breast cancer were reduced nonadipose tissue, increased risk of edema, altered fat distribution, and reduced BMD. In addition to age, duration of treatment, and duration of menopause, body composition-related indicators such as BMI and basal metabolism may be considerably associated with BMD of patients with breast cancer, suggesting that BMD status can be monitored in clinical practice by focusing on changes in the aforementioned indexes, which may provide a way to prevent preclinical osteoporosis.

이 연구는 폐경 후 유방암 환자와 건강 여성에서 신체구성 지표와 골대사/골밀도 지표를 함께 수집한 뒤, 머신러닝으로 골다공증 위험을 예측하는 것을 목표로 함
2019년~2021년 한 3차 병원에 입원한 폐경 후 유방암 환자와 동일 병원 건강검진을 받은 폐경 여성이며, 변수는 표준화된 방법으로 측정 수집되었음.
유방암 환자는 건강인 보다 체지방과 기초대사량이 낮고 세포내 외액 및 허리 엉덩이비가 높았으면 BMD T-Z 값이 전반적으로 낮아 골감소 골다공증 비율이 높았음.
BMD는 나이, 폐경기간, 내분비치료는 음의 상관, BMI와 기초대사량 양의 상관을 보였음
나이, 체성분, 치료 약물 등을 이용한 머신러닝 모델이 높은 정확도로 골다공증 위험을 예측함

1. Short Background

유방암 치료는 에스트로겐 억제를 유발하여 골밀도 저하와 골다공증을 일으킬수있음.
내분비치료(타목시펜,방향화효소억제제)는 장기간 뼈 손실을 가속함
기존 연구는 체성분아니 골대사만 다뤘지만, 두 요인을 통합 분석한 연구는 드물었다.
아시아 여성 대상 연구는 거의 없어 인종적 특성이 반영되지 않았음.
본 연구는 체성분·골대사·골밀도를 동시에 측정하고 머신러닝으로 골다공증을 예측했다.
이를 통해 유방암 치료가 신체 변화에 미치는 영향을 정량적으로 평가하고자 함

2. Methods

(1) 연구 대상 및 설계

2019~2021년 한 3차 병원에서 입원한 폐경 후 유방암 환자와 동일 병원 건강검진을 받은 폐경 여성을 포함함
기본정보, 신체구성, 골밀도(BMD/T/Z), 골대사 지표를 체계적으로 기록함
목표
- 내분비치료 및 관련 약물이 체성분 골대사에 미치는 영향을 비교 평가
- 신체구성 지표를 포함한 다양한 변수를 활용하여 골다공증 위험 예측용 머신러닝 모델을 구축 검증

(2) 측정 변수와 정의

신체구성
- 체지방량, 골량, 단백질량, 총체수분, 세포내액, 세포외액, 수분비, 근육량, 체중, 체지방률, BMI, 허리 엉덩이 둘레비, 기초대사량 등 머신러닝 입력변수로 사용
골밀도 지표
- BMD, T값(젊은 성인 평균 대비 표준편차: ≤ −2.5면 골다공증), Z값(동연령·동성 대비). 측정은 이중에너지 X선 흡수법(DEXA) 장비 원리에 따라 이루어짐
골다공증 라벨
- 예측 대상은 골다공증 =1 비골다공증 = 0 으로 부여하여 이진 분류를 수행함

(3) 집단 정의

건강 대조군 vs 유방암 환자(비내분비치료군 포함): 체성분/골밀도 전반 비교
유방암 내분비치료군 vs 비내분비치료군: 내분비치료 유무 차이와 연령 방사선치료 폐경 기간 약물 종류 보정 후의 차이 분석
타목시펜(TAM) vs 방향화효소억제제(AI): 약물 종류별 체성분 골밀도 골대사 지표 비교

(4) 통계 분석

정규성 자료는 평균±표준편차로 제시, 집단 비교는 t-검정/ANOVA, 범주형은 χ² 검정, 유의수준 P<0.05. 민감도 분석으로 선형 회귀를 사용해 교란(연령, 방사선치료, 폐경기간 등)을 보정
단계적 다중회귀(stepwise): 내분비치료 중인 유방암 환자의 요추 BMD에 영향을 주는 요인 탐색(입·제거 유의수준 0.05/0.10)

(5) 머신러닝 모델링

데이터 분할: 무작위로 훈련:검증(테스트)=7:3. 하이퍼파라미터는 랜덤서치로 튜닝
입력 변수(피처): 나이, 유방암 여부, ER(에스트로겐수용체) 상태, 내분비치료 약물(타목시펜/AI), 방사선치료 여부, 신체구성 전 변수(BMI·BMR·ICW·ECW·WHR 등 포함).
학습·평가 모델: 로지스틱 회귀(LR), 결정트리(ID3), 랜덤포레스트(RF), 인공신경망(ANN). 테스트 세트 ROC-AUC 비교로 성능 평가. 재현성을 위해 R 코드를 보충자료로 제공.

요약: 단일기관의 폐경 여성 코호트에서 체성분, 골대사, 골밀도를 정밀 수집하고, 교차집단 비교 + 다중회귀 보정과 머신러닝을 통해 골다공증 위험 예측 모델을 구축

3. Results

(1) 건강 여성 vs 유방암 환자(비내분비 포함)

건강 546명 cs 유방암 112명, 평균 연령, 체중, 신장은 유의차 없었음 즉 기본 체격 차이 없이 비교 가능
유방암 환자는 근육·단백질 등 제지방과 BMR이 낮고, 총수분·ICW·ECW와 WHR가 높았다. 이는 제지방 감소 + 체액 분포 변화(부종 경향) + 지방 분포 변화를 시사함
유방암 환자는 BMD, Z, T가 낮고 골감소/골다공증 비율이 높았다. BMD는 나이, 내분비치료 상태, 약물 기간, 폐경 기간과 음의 상관, BMI·BMR과 양의 상관을 보였다.

(2) 유방암: 내분비치료군 vs 비내분비치료군

보정 전 후 차이: 표면적으로 치료군이 BMD-T가 더 좋아 보일수 있으나 연령 방사선 치료 폐경기간 약물종류를 보정하면 역전되어 치료군의 BMD와 T가 유의하게 낮았음.
즉, 동일 조건에서 비교하면 내분비치료는 골밀도 낮추는 방햐응로 작용할 가능성이 크다.

(3) 유방암: 타목시펜(TAM) vs 방향화효소억제제(AI)

TAM n=92, AI n=137. 두 군은 전반적으로 비슷했으나, 나이는 TAM이 더 젊음. 치료기간·방사선치료율 등은 유사
AI군이 TAM군보다 골량↓, 단백질↓, 총수분↓, ICW↓, BMR↓이고, ECW↑, 수분비↑, 체지방률↑로 차이가 모두 유의
AI군은 체지방이 더 줄고 체액정체 지방비율이 더 크다.
골밀도: AI군의 BMD·T가 TAM군보다 유의하게 낮음(P<0.001), Z는 비유의. 보정 후에도 동일 결론(TAM 대비 AI에서 BMD·T 더 낮음; β(BMD)≈0.08, β(T)≈0.69).
골대사: 골형성/흡수 표지자는 논문 본문에서 AI가 더 불리한 패턴을 보였다고 기술되며(예: 재료·방법에 기술된 표지자 수집), AI 치료는 전반적 골대사에 불리하게 작용하는 흐름을 뒷받침한다

(4) 머신러닝 예측 성능

학습설정
- 데이터에 대해 7:3 분할, 랜덤서치 튜닝, 라벨=골다공증(1)/비골다공증(0). 피처로 임상(나이, ER, 치료약물, 방사선) + 체성분 전 항목을 투입.
모델 비교
- LR / ID3 / RF / ANN의 테스트 ROC-AUC 비교에서 모델들이 전반적으로 높은 예측력을 보였고, 특히 RF가 가장 우수
변수 중요도
- ICW, ECW, BMR, 체중, 체지방률 등 체성분 핵심 지표가 예측에 크게 기여했다는 점이 강조

4. Conclusion

유방암 환자는 근육 단백질 감소, 지방 및 체수분 증가, BMD 저하가 동반
내분비치료는 골밀도를 낮추는 주요 요인이며, AI 치료군이 TAM보다 불리함
BMI, BMR 체수분 지표는 골밀도 변화의 핵심 예측 인자
머신러닝 모델은 임상 데이터만으로도 높은 정확도의 골다공증 예측이 가능함
체성분 변화 모니터링을 통해 골건강을 조기에 파악하고 예방적 관리가 가능
AI 기반 임상 예측 모델이 향후 정밀의학 적용에 중요한 역할을 할 것으로 제안된다.

5. Discussion

본 연구는 체성분·골밀도·골대사 변화를 통합 분석하여, 내분비치료가 신체에 미치는 영향을 규명했다.
AI 치료군의 골손실 위험은 기존 보고와 일치하며, 근육·단백질 감소와 에스트로겐 억제 효과가 복합 작용했다.
체성분 지표(ICW·ECW·BMR 등)는 간단히 측정 가능하면서도 예측력이 높다.
랜덤포레스트 모델은 비선형 관계를 잘 포착하여 임상 적용성이 우수했다.
한계점은 단일기관·표본 수 제한·단면 연구 설계로 인해 인과 추론이 어렵다는 점이다.

[Review] Risk factors for and incidence of osteoporosis in patients with breast cancer by gender : a nationwide cohort study

지승민 — Wed, 12 Nov 2025 21:56:49 +0900

0. Abstract

Osteoporosis is common in breast cancer patients, but gender-specific research on its incidence and risk factors is limited. This study examined the incidence and risk of osteoporosis in male and female breast cancer patients and analyzed the risk factors for fractures. This nationwide retrospective cohort study used data from the Korean National Insurance database, identifying invasive breast cancer patients from January 2009 to December 2015.Overall, 80,661 participants (299 males ; 80,362 females) were included. Matching was performed at a 1:5 ratio, based on age, treatment modalities and Charlson Comorbidity Index scores [CCI], resulting in 294 males and 1,470 females.Before and after matching, females consistently showed higher osteoporosis prevalence than males (16.7% vs. 5.0% before, 27.6% vs. 4.8% after, p < 0.001). Before matching, hip or vertebral fractures incidence showed no difference (1.2% vs. 1.3%, p = 0.789), but after matching, a significant difference was observed. (4.0% vs. 1.0%, p = 0.011). Endocrine therapy increased osteoporosis risk, particularly among females (hazard ratio [HR], 6.37; 95% confidence interval [CI], 3.74–10.89; p < 0.001). Age, steroid use, and CCI score were significant risk factors for osteoporosis. Adjusting for other variables, females with osteoporosis had a higher hip or vertebral fracture risk than males (HR, 3.96; 95% CI, 1.24–12.64; p = 0.020). Our study highlights gender-specific risks for osteoporosis and fractures in breast cancer patients, contributing to a comprehensive understanding for improving long-term outcomes and quality of life in survivors.

유방암 생존자에서 골다공증은 주요 합병증이나 남성과 여성 간 발생률 및 위험인자 차이에 대한 연구는 거의 없음.
본 연구는 한국 국민건강보험 데이터를 기반으로 2009년 ~ 2015년 유방암 환자 8만명을 대상으로 성별에 따른 골다공증 및 골절의 발생률과 위험인자를 분석함
여성은 남성보다 골다공증 발생률이 훨씬 높았고, 골다공증 진단 후 고관절 척추 골절도 자주 발생
내분비 치료, 고령, 스테로이드 사용, 동반질환지수(CCI)가 주요 위험인자였음
성별 차이를 반영한 골다공증 관리 전략이 유방암 생존자에게 필요하다.

1. Short Background

유방암은 매년 전 세계적으로 230만 건 이상 발생하며 생존률이 높아져 장기 합병증 관리가 중요해지고 있다.
골다공증은 주로 여성에서 흔하지만, 유방암 치료(아로마타제 억제제, 항암요법 등)가 남녀 모두에 영향을 줄 수 있다.
특히 여성은 폐경 전후 호르몬 변화와 치료 병행으로 뼈 건강에 더 취약하다는 연구가 다수 있다.
남성 유방암 환자는 희귀하여 골다공증 연구가 부족하며, 성별 간 차이를 명확히 비교한 대규모 데이터 기반 연구가 필요했다.

2. Methods

(1) 연구설계

전국 단위 후향적 코호트 연구로 국민건강보험공단의 2009년 2015년 청구자료를 이용

(2) 대상자 선정

유방암 또는 DCIS 진단 후 1년 이내에 근처 수술을 받은 환자를 포함
수술 전 2년간 골다공증, 골절, 골다공증 치료제 사용이력이 있는 환자 및 선행 치료를 받은 환자 등은 제외

(3) 최종 분석군

총 80,611명(남 299명, 여 80,362명)
성향점수매칭(1:5 비율, 기준: 나이, 치료형태, CCI 등)을 통해 남성 294명, 여성 1,470명을 비교 대상으로 설정

(4) 변수 정의

골다공증은 ICD-10(M80~M82) 코드와 관련 치료제 처방 기준으로 정의
고관절 및 척추 골절은 골다공증 관련 주요 합병증으로 별도 분석

(5) 통계 분석

기초 특성은 T-검정 및 X^2검정을 사용했으며, Kaplan-Meier 곡선과 로그 순위 검정으로 누적 발생률을 비교
Cox 비례위험 회귀모델을 통해 골다공증 및 골절 발생의 위험인자를 도출

(6) 보정 요인

다변량 분석에서는 연령, 내분비치료, 항암치료, 방사선치료, 스테로이드 사용, CCI 등을 모두 포함

(7) 하위 분석

호르몬 내분비 치료를 받은 환자군만을 대상으로 한 별도 분석도 시행되었고, 골다공증 및 골절 발생률을 성별로 재비교

3. Results

(1) 기본 특성

매칭 전 여성의 평균 연령은 더 낮았고, 골다공증 진단률이 높음
매칭 후에도 여성의 골다공증 진단률은 27.6%로 남성(4.8%)보다 유의미하게 높았다.

(2) Kaplan-Meier 분석

골다공증 누적 발생률은 매칭 전후 모두 여성에서 지속적으로 높았고 성별 간 격차는 유의미함

(3) Cox 회귀 분석 결과

성별, 연령, 스테로이드 사용, 내분비치료 시행, 높은 CCI가 골다공증 발생의 유의한 위험인자로 나타남
특히 여성 성별은 매칭 후에도 HR 6.825(95% CI 4.006–11.628)로 가장 강력한 인자임

(4) 골절

전체 골절 발생률은 매칭 후 성별 차이가 없었음,
골다공증 환자 중 고관절 또는 척추 골절 발생은 여성에서 남성보다 유의하게 많았음(여 4.01% vs. 남 1.02%, p = 0.011)

(5) 내분비치료 하위분석

치료 받은 환자군 중 여성의 골다공증 발생률은 28.27%로 남성보다 5배이상 높았음.
호르몬 치료를 받은 여성의 골다공증 발생 위험은 남성보다 6.4배 높았음.

(6) 연령

전반적으로 나이 증가가 골다공증 및 골절 위험과 강하게 연관
특히 고관절/척추 골절에서 HR 1.915로 높게 나옴

4. Conclusion

여성 유방암 환자는 남성보다 골다공증 및 관련 골절(고관절/척추) 위험이 유의하게 높다.
내분비치료, 고령, 스테로이드 사용 등은 골다공증 발생을 촉진하는 주요 위험요인이다.
유방암 생존자에 대해 성별 맞춤형 골다공증 선별, 예방, 치료 전략이 필요하다.
장기 추적을 통해 성별 차이를 명확히 규명한 최초의 한국 단위 대규모 연구로 임상적 함의가 크다.

5. Discussion

여성은 AI 사용, 조기 폐경 유발 항암치료, 원래 낮은 골밀도 등으로 인해 골다공증 위험이 본질적으로 높다.
남성은 타목시펜을 주로 사용하고 AI는 드물어 골 손실이 상대적으로 적으며, 일반적으로 뼈 밀도가 더 높다.
골절은 여성에서 고관절/척추 부위 중심으로 증가하며, 치료 이후 5년 이상 장기적으로 발생률이 높아진다.
본 연구는 골다공증 발생률이 높아지는 시점과 치료의 영향을 시간 흐름에 따라 세밀히 보여주었다.
실제 임상에서는 AI 치료 중인 여성이나 폐경 여성은 초기부터 정기적인 BMD 검사와 예방적 치료가 필요하다.
향후 연구에서는 남성 유방암 환자에 대한 데이터 축적과 골다공증 정밀 평가(예: T-score 기반)가 필요하다.
골건강 관리를 위한 성별 특화 접근법을 통해 유방암 생존자의 삶의 질을 높일 수 있다.

[Review] Blood pressure measurement using only a smartphone

지승민 — Fri, 7 Nov 2025 15:46:13 +0900

0. Abstract

Hypertension is an immense challenge in public health. As one of the most prevalent medical conditions worldwide, it is a major cause of premature death. At present, the detection, diagnosis and monitoring of hypertension are subject to several limitations. In this review, we conducted a literature search on blood pressure measurement using only a smartphone, which has the potential to overcome current limitations and thus pave the way for long-term ambulatory blood pressure monitoring on a large scale. Among the 333 articles identified, we included 25 relevant articles over the past decade (November 2011–November 2021) and analyzed the described approaches to the types of underlying data recorded with smartphone sensors, the signal processing techniques applied to construct the desired signals, the features extracted from the constructed signals, and the algorithms used to estimate blood pressure. In addition, we analyzed the validation of the proposed methods against reference blood pressure measurements. Wefurther examined and compared the effectiveness of the proposed approaches. Among the 25 articles, 23 propose an approach that requires direct contact between the sensor and the subject and two articles propose a contactless approach based on facial videos. The sample sizes in the identified articles range from three to 3000 subjects, where 8 articles used sample sizes of 85 or more subjects. Furthermore, 10 articles include hypertensive subjects in their participant pools. The methodologies applied for the evaluation of blood pressure measurement accuracy vary considerably among the analyzed articles. There is no consistency regarding the methods for blood pressure data collection and the reference blood pressure measurement and validation. Moreover, no established protocol is currently available for the validation of blood pressure measuring technologies using only a smartphone. We conclude the review with a discussion of the results and with recommendations for future research on the topic.

해당 연구는 10년간 발표된 스마트폰만을 이용한 혈압 측정 기술을 쳬계적으로 검토하여 각 연구 방법을 비교 및 검증함.
333편 중 기준을 충족한 25편을 분석한 결과, 23편은 손가락·가슴 등 신체 접촉을 이용했고 2편은 얼굴 영상을 활용
대부분의 연구는 스마트폰 카메라를 이용한 광용적맥파(PPG)기반이며, 평균 절대 오차는 약 5~10mmHg 수준으로 보고되어 임상적 활용의 가능성을 보엿따.
연구 간에 실험 설계, 표본 규모, 교정 방식이 달라 결과 비교가 어렵고, 통일된 검증 프로토콜이 부재하다는 점이 큰 한계임
스마트폰을 활용한 혈압 모니터링은 저비용 대중 접근성이 높지만, 신뢰성 확보를 위해 대규모 임상 검증과 표준화가 필요

1. Short Background

고혈압은 세계 약 13억 명의 성인에게 영향을 미치는 만성질환으로 증상이 없어 조기 발견이 어렵고 심혈관 질환 신부전 등이 주요 사망원인이 됨
기존 혈압 측정 방식인 커프 기반 장비는 간혈적이고 착용이 불편하며, 백의고혈압 가면고혈압 인해 실제 혈압과 차이가 발생
스마트폰은 전 세계적으로 보급률이 높고, 고성능 카메라 센서 프로세서를 갖추고 있어 혈류 신호를 감지할 수 있는 충분한 기술적 기반을 가진다.
연구자들은 스마트폰을 화용해 손가락 얼굴 가슴 등 다양한 부위에서 생체 신호를 수집하고 혈압을 예측하려는 시도를 지속해왔으며 이 연구는 그 성과를 종합적으로 정리 한다.

2. Methods

연구진은 PRISMA 가이드라인을 따라 체계적 문헌 고찰을 수행했으며, 검색 데이터베이스로 IEEE Xplore, PubMed, Embase, Google Scholar 네 곳을 사용
검색 기간은 2011년 11월부터 2021년 11월까지로 최근 10년간의 스마트폰 기반 혈압 측정 연구를 모두 포함
총 333편의 논문이 검색되었으며, 중복 문헌(151편)을 제거한 뒤 180편을 1차 평가 대상으로 남김.
이후 스마트폰만 사용하지 않는 연구(추가센서 활용)와 리뷰 논문 비영어 논문 접근 불가 논문을 단계적으로 제외하여 최종 25편을 분석 대상으로 확정
기준은 다음과 같음
- 스마트폰 단독으로 혈압을 측정
- 혈압 예측 결과를 수치로 제시했을 것
- 실험 설계나 검증 방식이 명확히 기술되어 있을 것
각 논문에서 다응 항목들을 추출 및 비교 함
- 연구 대상자 수, 연령, 성별, 피부톤 등 인구학적 특성
- 사용된 신호 유형 (PPG, TOI, PCG, SCG 등)
- 신호 전처리 방식 및 특징(feature) 추출 방법
- 혈압 예측 모델(회귀, SVM, CNN 등)의 종류
- 교정(calibration) 절차 및 기준(reference) 혈압 측정 장비
- 성능 지표 (MAE, SD, 상관계수 r, AAMI 기준 통과 여부 등)

연구진은 각 논문의 주요 결과를 표로 정리하고 정확도와 일관성을 비교 평가함
결과적으로 본 연구의 방법은 “다중 데이터베이스 검색 → 단계적 제외 기준 적용 → 스마트폰 단독 혈압 연구 선별 → 주요 기술 요소·알고리즘·성능 비교”라는 절차로 이루어짐

3. Results

(1) 선정 연구 개요

총 25편의 논문이 최종 분석 대상으로 채택되었으며, 이 중 23편은 손가락 가슴 등의 신체 접촉을 필요로 하는 contact-base 방식 2편은 스마트폰 카메라로 얼 굴 영상을 쵤영해 혈류 변화를 분석하는 contactless 방식
연구 대상자 수는 3명에서 3000명까지 광범위했으며, 약 40%가 50명 미만의 소규모 실험이었다.
10편 이상에서 고혈압 또는 심혈관계 질환 환자를 포함시켜 임상적 타당성을 검증

(2) 데이터 흭득 유형

PPG: 카메라와 LED를 이용해 혈액량 변화를 광학적으로 측정 손가락 접촉식, 비접촉식이 있다.
TOI: 얼굴 영상을 이용해 얼굴 표면의 혈색소 농도 변화를 영상 데이터 기반으로 추출하는 방법으로 비접촉식이다.
PCG: 스마트폰 마이크로폰을 이용해 심장 잡읍을 녹음하는 방법, 가슴 부위에 스마트폰을 대고 S1 S2 심음 신호를 흭득
SCG: 스마트폰 가속도계를 이용해 심장 박동 시 발생하는 체동을 측정하는 방법, 가슴 부위에 스마트폰을 부착해 판막 개폐 시진동을 기록함.

(3) 신호 전처리 및 정제

대부분의 연구에서 원시 신호는 0.5 ~ 4Hz 대역통과 필터를 적용하여 호흡 잡음과 조명 변동을 제거
일부 이상치 제거와 베이스라인 보정을 병행했고, 신호 세그먼트를 주기별로 정렬하여 노이즈 비율을 낮춤
얼굴 영상 기반 연구에서는 RGB 채널을 분리 비교했으며, Green채널이 헤모글로빈 흡수율이 높아 가장 안정적인 파형을 보임

(4) 특징 추출 및 알고리즘 모델링

각 연구는 파형에서 피크·기울기·파고·면적·주기 등을 정량화해 혈압 예측에 활용되었으며 다양한 양한 머신러닝 기법이 적용
여러 논문이 Pulse Transit Time (PTT) 혹은 Pulse Wave Velocity (PWV) 를 활용했는데, 이는 심장 신호(PCG·SCG)와 말단 PPG 신호 사이의 시간 지연이 혈압과 음의 상관관계를 갖는다는 이론에 기반

(5) 교정 전략

대부분의 연구는 초기 한 번의 표준 혈압계 측정 값을 이용해 스마트폰 예측값을 보정하는 방식을 사용
개인별 교정을 수학적 함수 혹은 딥러닝 으로 자동화했지만, 개인차 (혈관 탄성·나이 등) 로 인한 오차 보정에는 여전히 제한됨

(6) 검증 프로토콜 및 평가 지표

모든 연구가 참조 혈압(Reference BP)을 동시에 측정해 비교했으며, 검증 기기로는 수은혈압계·옴론 디지털혈압계 등이 사용
평가지표로는 Mean Absolute Error (MAE), Standard Deviation (SD), Pearson Correlation Coefficient (r), Bland–Altman plot 등이 활용
일부 연구는 AAMI 또는 ISO 기준(±5 mmHg ±8 mmHg)을 통과했지만 대부분은 부분 충족 또는 미달

(7) 정량 결과

수축기혈압(SBP)의 MAE는 약 5 ~ 10 mmHg, 이완기혈압(DBP)은 약 4 ~ 8 mmHg 수준
SCG·PCG 신호 조합형 모델이 PTT 단독 모델보다 약간 높은 정확도를 보임

(8) 결과 해석 및 비교

접촉식 방법은 정확도가 높지만 손가락 압력·자세 등 외부 변수에 취약했고, 비접촉식 방법은 편의성이 높으나 조명·피부톤 등 환경 요인에 큰 영향을 받음
연구 간 데이터 수집 환경과 보정 방식이 상이해 직접 비교는 어렵지만, 스마트폰만으로도 혈압을 유의하게 예측할 수 있음을 모든 연구가 공통적으로 보여줌
여러 논문은 스마트폰 전용 혈압 검증 프로토콜 부재를 명시적 한계로 언급하며, 국제적 표준 수립의 필요성을 결과 강조

4. Conclusion

이번 문헌 고찰을 통해, 스마트폰만으로 혈압을 측정하려는 다양한 연구들이 이미 존재하며 기술적으로 실현 가능함이 입증
스마트폰 카메라, 마이크, 가속도계 내장 센서를 활용하여 PPG, PCG, SCG, TOI 신호를 얻고 혈압을 추정하는 방식들이 제안
연구 간 실험 설계, 데이터 수집 환경, 교정방법, 검증 절차가 일관되지 않아, 결과 간의 직접적인 비교와 재현성이 어려움
스마트폰 혈압 측정 기술은 비침습적·저비용·확장성 높은 혁신적 대안이지만, 의료기기 수준의 정확도와 재현성을 확보하기 위한 표준화·임상적 근거 구축이 필수적
연구자들은 스마트폰이 보조적 가정용 혈압 모니터링 도구로 발전할 잠재력을 인정하면서도, 의료적 진단 목적의 활용에는 아직 시기상조라고 명확히 밝힘

5. Discussion

본 논문은 스마트폰 혈압 측정 기술이 모바일 헬스케어의 새로운 축으로 발전할 수 있는 가능성을 보여줌
기존 커프(cuff) 기반 측정보다 훨씬 저비용·비침습적이며 장기 모니터링이 가능함
조명, 피부색, 손가락 압력, 움직임, 온도 등의 환경 요인에 매우 민감하여 신호 품질이 불안정
연령, 혈관 탄성, 체형 차이를 반영하는 Adaptive AI 모델 개발이 필요.
카메라·가속도계·마이크 데이터를 통합 분석해 PTT, PWV등 다양한 생리적 지표를 동시에 활용하는 복합 모델이 제시

[Review] Evaluating clinical AI summaries withlarge language models as judges

지승민 — Thu, 6 Nov 2025 13:54:22 +0900

0. Abstract

Electronic Health Records (EHRs) contain vast clinical data that are difficult for providers to synthesize. Generative AI with Large Language Models (LLMs) can summarize records to reduce cognitive burden, but ensuring accuracy requires reliable evaluation. Human review is the gold standard but is costly and slow. To address this, we introduce and validate an automated LLM-based method to assess real-world EHR multi-document summaries. Benchmarking against the validated Provider Documentation Summarization Quality Instrument (PDSQI), our LLM-as-a-Judge framework demonstrated strong inter-rater reliability with human evaluators. GPT-o3-mini achieved an intraclass correlation coefficient of 0.818 (95% CI 0.772–0.854), a median score difference of 0 from humans, and completed evaluations in 22 seconds. Overall, reasoning models excelled in inter-rater reliability, particularly for evaluations requiring advanced reasoning and domain expertise, outperforming nonreasoning, task-trained, and multi-agent approaches. By automating high-quality evaluations, a medical LLM-as-a-Judge provides a scalable, efficient way to identify accurate, safe AI-generated clinical summaries.

전자 건강 기록은 병원에 있는 환자들의 많은 정보를 담고 있지만, 그 양이 너무 많아서 의사들이 모두 파악하는데 어려움
이 문제를 해결하기 위해, AI를 이용해 환자 기록을 요약하는 기술이 개발되고 있지만 정확하게 요약했는지 평가 방법 필요
이 연구에서는 AI가 만든 요약을 평가할 수 있는 자동화된 방법을 제시
GPT-o3-mini는 사람 전문가들과 비교했을 때 높은 일치도를 보였으며, 평가 결과는 매우 정확했음
사람 평가자보다 훨씬 더 빠르게 평가를 완료가 가능했음을 보여줌

1. Short Background

전자 건강 기록은 환자의 건강 상태와 치료 과정에 관한 중요한 정보를 담고 있지만 이 정보의 양이 매우 방대함
의사들은 이 방대한 정보를 검토하는 데 많은 시간을 소비하게 되며, 중요한 세부사항을 놓칠 위험이 커짐
Generative AI와 특히 대형 언어 모델(LLM)의 발전은 이러한 문제를 해결할 수 있는 가능성을 열어줌
현재까지의 자동 평가 지표(예: ROUGE, BERT Score 등)는 대부분 기본적인 자연어 처리 작업을 위한 지표
의료 AI 요약의 정확성을 평가할 수 있는 새로운 자동화된 평가 방법이 필요

2. Methods

(1) PDSQI-9 도구

연구에서는 의료 요약을 평가하기 위해 PDSQI-9이라는 기존의 평가 도구를 사용
사람이 의료 요약의 품질을 평가하는 데 사용하는 기준이지만, LLM을 평가자로 사용하여 정확한 평가가 가능한지 확인
LLM을 자동 평가 시스템으로 사용하여 AI가 생성한 요약을 검토
검증의 주요 기준은 Intraclass Correlation Coefficient (ICC)로, 인간 평가자와 LLM 평가자 간의 일치도를 측정하는 지표

(2) 데이터 세트

연구에서는 University of Wisconsin Hospitals and Clinics (UW Health)에서 제공된 실제 환자들의 기록을 기반 데이터에서 EHR에서 생성된 임상 요약을 사용하여 실험을 진행
사용된 데이터는 훈련 세트(160개의 요약)와 테스트 세트(40개의 요약)로 분할되어 실험이 진행

(3) 실험 설계

해당 연구에서는 GPT-4o, GPT-o3-mini, DeepSeek-R1, Mixtral 8 × 22B, Llama 3.1 8B 성능을 비교
평가 전략
- 제로샷(Zero-Shot): LLM에게 사전 지식 없이 요약을 평가하도록 요청하는 방식
- 퓨샷(Few-Shot): LLM에게 몇 개의 예시를 제공하고 그에 맞춰 평가하도록 요청하는 방식
- 슈퍼바이즈드 파인 튜닝(Supervised Fine-Tuning, SFT): 모델을 특정 데이터에 맞게 미세 조정하는 방식
- 직접 선호 최적화(Direct Preference Optimization, DPO): LLM이 평가한 여러 요약 중 선호하는 요약을 선택하도록 최적화하는 방법
- 멀티 에이전트(Multi-Agent): 여러 개의 LLM을 사용하여 상호 협력을 통해 최종 평가를 내리는 방식
데이터는 진료 기록 (환자의 여러 의무 기록들), AI가 만든 요약문 (평가 대상), PDSQI-9 기준표
AI는 이 정보를 읽고, 9개 항목에 대해 1~5점(낙인 여부는 0 또는 1점)을 JSON 형식으로 내보내도록 프로그래밍

3. Results

(1) 단일 LLM 평가자 실험 결과

각 모델은 테스트용 40개 요약에 대해 9개 항목 점수를 출력함
신뢰도 평가지표 ICC를 기반으로 전문가 7명이 평가한 점수의 중앙값과 비교함
가장 좋은 성능의 모델은 GPT-o3-mini (5-shot) 모델이 최고 성능을 보임 ( ICC = 0.818)
사람 전문가들과 거의 동일한 수준의 평가 일치도를 보여줌
LLaMA 모델은 학습 후 성능이 향상됨 → 미세조정(SFT, DPO)의 효과가 큼.
반면, Mixtral 모델은 원래 성능이 좋아서 미세조정 효과가 작음.

(2) 다중 에이전트 평가자 실험 결과

여러 LLM 평가자들이 서로 다른 관점을 가지고 점수를 제시함.
이 결과를 오케스트레이터 에이전트가 종합해서 최종 점수를 결정함.
오케스트레이터는 GPT-o3-mini 모델이 맡음.
결과는 ICC= 0.768 이었으며, 다중 의견을 반영하므로 다양성을 보장하지만, GPT-o3-mini 단독 평가자보다 약난 낮은 일치도를 보임

(3) 외부 데이터셋 검증

본 연구에서 개발한 평가 프레임워크가 다른 의료 요약 과제에도 통용될 수있는지 확인함
Prosum 2023 ICU 기록 데이터를 활용
GPT-o3-mini (5-shot): ICC = 0.710 (95% CI: 0.662–0.752)
이 결과는 본 실험과 유사한 수준의 신뢰도를 유지

(4) 시간, 비용, 오류, 편향 분석

속도 및 비용
- GPT-o3-mini(5-shot)의 평가 속도: 평균 22초
- 사람 평가자는 평균 600초 소요되며 AI가 사람보다 약 25배 빠르다는걸 입증함
학습 비용
- Mixtral 8×22B SFT 학습: 약 24시간, 80GB H100 GPU 2개 사용 DPO 학습: 약 60시간
- Mixtral은 비용이 많이 들지만 성능은 기본적으로 우수했음
편향 및 오류 분석
- 일부 모델은 자기 자신이 생성한 요약을 더 높게 평가하는 경향이 있었음.
- GPT-o3-mini와 GPT-4o 간의 편향 차이는 통계적으로 유의미하지 않았음 (p > 0.2)
- 전반적으로 큰 편향이 없음으로 확인함
모델별 평가 성향
- GPT-o3-mini는 인간과 매우 유사한 평가 기준을 적용함 특히 종합성, 조직성, 인용 정확성 항목에서 사람과 매우 흡사
- GPT-4o는 대체로 더 후하게 평가하는 경향이 있음: 예: 요약의 종합성이 부족해 보여도 5점 만점 부여하는 경우 있음.

4. Conclusion

이 논문은 AI가 만든 임상 요약을 평가하는 작업을, 또 다른 AI가 맡을 수 있는지를 실험한 연구임
평가 기준으로는 의사들이 실제로 사용하는 PDSQI-9 (9가지 요약 품질 기준)을 활용함.
실험 결과, GPT-o3-mini라는 모델은:
- 전문가 평가자들과 거의 일치하는 점수를 줌 (ICC 0.818)
- 평가 시간도 사람보다 25배 빠름 (22초 vs 600초)
- 평가 비용도 매우 저렴함 (약 $0.05)
이 모델은 다른 임상 데이터셋(ProbSum 2023)에서도 잘 작동함, 일반화 가능성 높음
앞으로는 AI가 만든 요약을 또 다른 AI가 평가하는 시스템이 가능해지며,
이는 시간, 비용, 인력 부담을 줄이면서 의료 현장에서 신뢰도 높은 요약 품질 검증이 가능함을 의미

5. Discussion

이번 연구는 AI가 신뢰성 있는 평가자가 될 수 있음을 입증함
사용된 요약은 단일 기관(UW Health)에서 생성됨 → 다른 환경에서 재검증 필요
PDSQI-9는 모든 평가 항목에 동일한 가중치를 둠 → 실제로는 항목마다 중요도가 다를 수 있음
GPT-o3-mini는 상업적 제약도 적고, 빠르고 저렴하게 평가할 수 있어서 실무에 활용 가능성이 높음.
GPT 등 최신 모델의 성능은 계속 바뀌기 때문에, 지속적인 업데이트와 검증이 필요함

[Review] Deep-Learning Model for Real-Time Prediction of Recurrence in Early-Stage Non–Small Cell Lung Cancer: A Multimodal Approach (RADAR CARE Study)

지승민 — Wed, 5 Nov 2025 17:40:03 +0900

0. Abstract

The surveillance protocol for early-stage non–small cell lung cancer (NSCLC) is not contingent upon individualized risk factors for recurrence. This study aimed to use comprehensive data from clinical practice to develop a deep-learning model for practical longitudinal monitoring.
A multimodal deep-learning model with transformers was developed for real-time recurrence prediction using baseline clinical, pathological, and molecular data with longitudinal laboratory and radiologic data collected during surveillance. Patients with NSCLC (stage I to III) who underwent surgery with curative intent between January 2008 and September 2022 were included. The primary outcome was predicting recurrence within 1 year after the monitoring point. This study demonstrates the timely provision of risk scores (RADAR score) and determined thresholds and the corresponding AUC.
A total of 14,177 patients were enrolled (10,262 with stage I, 2,380 with stage II, and 1,703 with stage III). The model incorporated 64 clinical-pathological-molecular factors at baseline, along with longitudinal laboratory and computed tomography imaging interpretation data. The mean baseline RADAR score was 0.324 (standard deviation [SD], 0.256) in stage I, 0.660 (SD, 0.210) in stage II, and 0.824 (SD, 0.140) in stage III. The AUC for predicting relapse within 1 year of the monitoring point was 0.854 across all stages, with a sensitivity of 86.0% and a specificity of 71.3% (AUC = 0.872 in stage I, AUC = 0.737 in stage II, and AUC = 0.724 in stage III).
This pilot study introduces a deep-learning model that uses multimodal data from routine clinical practice to predict relapses in early-stage NSCLC. It demonstrates the timely provision of RADAR risk scores to clinicians for recurrence prediction, potentially guiding risk-adapted surveillance strategies and aggressive adjuvant systemic treatment.

초기 비소세포 폐암(NSCLC)에 대한 재발 예측을 위해 딥러닝 모델을 개발하고, 임상 데이터에서 실용적인 장기 모니터링에 적용하는 것이 목표임
본 연구에서는 트랜스포머를 이용한 멀티모달 딥러닝 모델을 개발하여 기본적인 임상, 병리학적, 분자학적 데이터와 영상 데이터를 바탕으로 재발을 예측함.
64개의 임상-병리학-분자적 요인과 실험실 및 CT 영상 해석 데이터를 기반으로 재발 예측을 수행 했으며 모델은 1년 이내 재발 예측에 AUC 0.854를 기록했으며, 예민도 86.0%, 특이도 71.3%를 보임
이 연구는 멀티모달 데이터를 사용한 딥러닝 모델이 초기 비소세포 폐암에서 재발 예측에 효과적임을 보여줌

1. Short Background

대한민국에서 비소세포 폐암(NSCLC)은 폐암의 대부분을 차지하며, 수술로 완치가 가능하지만 재발 위험이 여전히 높음
현재는 모든 환자에게 동일한 검사 간격으로 추적 검사를 진행하지만, 개인별 재발 위험을 반영하지 못하는 한계가 있음
폐암 환자 중 일부는 수술 후 금방 재발해 생존율이 낮으므로, 이를 미리 예측할 수 있는 정확한 AI 모델이 꼭 필요 함
최근 의료 데이터(혈액, 영상, 유전자 등)가 축적되면서 AI 기반 예측 모델 개발이 가능해짐
본 연구는 이러한 데이터를 종합해 AI가 실시간으로 폐암 재발 가능성을 예측하는 모델(RADAR)을 제시함

2. Methods

(1) 연구 대상자

본 연구에는 2008년 1월부터 2022년 9월까지 수술적 절제를 받은 비소세포 폐암(NSCLC) 환자들이 포함
최종적으로 14,177명의 환자가 포함되었습니다 (병기 I: 10,262명, 병기 II: 2,380명, 병기 III: 1,703명)
환자는 모두 완치 목적으로 수술을 받았으며, 재발 여부를 추적하기 위해 수술 후 정기적인 영상 및 혈액 검사를 포함한 장기 추적관찰이 이루어짐
전체 환자는 무작위로 8:2 비율로 훈련용(11,341명)과 검증용(2,836명)으로 나눔

(2) 입력 데이터 구성

임상/병리/유전 정보 (Single-point, 고정값)
- 성별 나이 병기 조직형, 종양 크기 유전자 변이 여부 포함
- 총 64개 항목을 포함하며, 모두 수술 시점 기준의 고정값임
- 원 핫 인코딩 후 130차원 벡터로 변환하여 모델에 입력
혈액검사 시계열 (Time-series, 수치 데이터)
- CBC, LFT, 전해질 검사 등 주요 혈액검사 항목 포함.
- 수술 이후 최대 2년간의 시계열 데이터를 사용하며, 총 24개 타임스탬프(약 30일 간격)로 구성됨.
- 각 시점마다 52개의 검사 수치를 포함함.
CT 판독 소견 시계열 (Time-series, 텍스트 데이터)
- 수술 후 추적 관찰 기간 동안 촬영된 흉부 CT의 판독 보고서를 사용.
- CT 소견은 ClinicalBERT 모델로 전처리하여 768차원 임베딩 벡터로 변환.
- CT도 24개 타임스탬프 기준으로 정렬되어 시계열 형태로 입력됨.

(3) 결측치 및 전처리 방법

혈액 및 CT 데이터에서 결측치는 LOCF 방식으로 처리함
시계열 데이터는 시간축 정렬후, 타임스탬프별 누락된 값은 직전 시점의 값을 복사해 채움
임상 병리 정보는 단일 값이므로 결측이 거의 없으며, 누락시 미포함 변수로 처리

(4) 모델 구조 및 처리 방식

입력데이터를 각각의 모듈에서 처리 후 벡터화하여 통합 함
임상/병리 모듈 (단일값 처리): 단일 시점의 임상/병리 데이터는 Fully Connect Layer 하나로 처리됨
혈액검사 모듈(시계열 수치): 2개의 Transformer Encoder를 사용하여 시계열 패턴을 학습함
- 각 인코더는 Head 수 4개, Feed-Forward 네트워크 크기 128로 구성됨.
CT 판독 모듈 (시계열 텍스트): 2개의 Transformer Encoder를 사용하되, 더 복잡한 구조를 적용함.
- 각 인코더는 Head 수 12개, Feed-Forward 네트워크 크기 1536으로 설계됨.
세 모듈에서 나온 각각의 벡터를 하나로 연결하고 Fully Connect Layer를 통과시켜 0~1 범위의 재발 확률을 예측함

(5) 학습 방식 및 설정

각 모듈(임상/혈액/CT)을 독립적으로 학습시키며, 하나의 모듈을 학습할 때 나머지 모듈 파라미터는 고정
Epoch 설정: CT 463회, 혈액 73회, 임상/병리 21회로 설정됨.
Optimizer는 AdamW를 사용했고, 학습률은 1e-4, 배치 크기는 500임.
손실 함수는 Binary Cross Entropy를 사용하며, 불균형 데이터 문제를 보정하기 위해 재발 클래스(positive)에 높은 가중치(15.087), 비재발 클래스(negative)에 낮은 가중치(0.517)를 부여함.

(6) 라벨 정의 및 출력

모델은 환자의 특정 시점 데이터를 입력받아 그 시점으로부터 1년 이내 재발할 확률을 예측함
하나의 환자에 대해 여러 개의 RADAR Score가 생성되며, 이를 시계열로 추적할 수 있음.

(7) 평가 지표 및 분석 방법

평가 지표는 AUC, 민감도, 특이도, F1 score 등임
ROC 곡선 기반 최적 임계값 Yuden 지수 또는 (0,1) 거리 기준으로 정함
환자당 다수 관찰치가 있는 점을 반영해 GEE (Generalized Estimating Equations) 방식도 함께 사용함.
RADAR 점수와 재발률의 관계를 로지스틱 회귀로 분석하고, 생존 분석에서는 Kaplan-Meier 곡선 및 Cox 회귀를 사용함.

3. Results

(1) 연구 대상 구성

최종 분석 대상은 총 14,177명의 환자였으며,
병기별로는 1기 10,262명(72.4%), 2기 2,380명(16.8%), 3기 1,703명(12.0%)이었다.
무작위로 훈련 세트 11,341명, 검증 세트 2,836명으로 8:2 비율로 나눔.
전체 환자에서 재발한 환자는 2,874명(20.3%), 비재발 환자는 11,303명이었다.
환자당 평균 흉부 CT 판독문 12.4개(총 177,246건), 혈액검사 15.1건이 추적 자료로 포함되었음.

(2) RADAR 점수 분포

수술 시점 기준으로 산출한 RADAR 점수(기초 위험도)
- 1기 환자 평균 0.324 (SD 0.256)
- 2기 환자 평균 0.660 (SD 0.210)
- 3기 환자 평균 0.824 (SD 0.140)
병기별로 위험 점수가 뚜렷이 증가하며, 병기와 RADAR 점수가 정비례함.

(3) 모델 예측 성능 (AUC 기준)

전체 집단에서의 AUC (Area Under the Curve): 0.854
- 민감도(Sensitivity): 86.0%
- 특이도(Specificity): 71.3%
병기별로 보면:
- 1기 AUC = 0.872
- 2기 AUC = 0.737
- 3기 AUC = 0.724
특히 재발률이 낮은 1기 환자에서 매우 높은 예측 정확도를 보임.

(4) 분자유형별 성능

EGFR 변이 보유 환자군의 AUC: 0.864

(5) RADAR 점수와 실제 재발 간의 관계

RADAR 점수가 0.1 증가할 때마다,
- 전체 환자에서 1년 내 재발 확률이 약 1.27배 증가
- 병기 I: OR 1.43
- 병기 II: OR 1.34
- 병기 III: OR 1.15
RADAR 점수가 높을수록 실제 재발 확률이 유의하게 증가함을 보임.

(6) 고 중 저 위험군 분류 및 생존 분석

첫번 째 RADAR 점수를 기준으로 환자들을 3등급으로 나눔
고위험군 저위험군에 비해 1년 내 재발/사망 위험이 9.67배 높음
병기별로 유사한 패턴 확인됨
- 병기 I 고위험군: HR 5.83
- 병기 II 고위험군: HR 2.40
- 병기 III 고위험군: HR 2.38
RADAR 점수 기반 위험 분류는 병기와 상관없이 강력한 예후 예측 도구임을 입증.

(7) 시간 흐름에 따른 RADAR 패턴 분석

환자의 재발 위험 점수(RADAR Score)가 시간이 지남에 따라 어떻게 바뀌는지 4가지 패턴으로 분류
항상 고점 유지형 (High–High) → 실제 재발률 가장 높음
고점 → 저점 감소형 (High–Low) → 초기 위험도는 높았지만 이후 안정
저점 → 고점 상승형 (Low–High) → 추적 중 위험도 상승, 재발 위험 주의
항상 저점 유지형 (Low–Low) → 재발률 매우 낮음
이런 패턴 분류를 통해 재발 시점 예측, 감시 주기 조정, 보조치료 판단 가능.

4. Conclusion

본 연구는 실제 임상 데이터를 기반으로, 조기 비소세포폐암(NSCLC) 환자의 1년 내 재발을 실시간으로 예측하는 딥러닝 모델(RADAR)을 제시함
다양한 유형의 데이터를 통합해 개인별 맞춤형 감시 전략을 가능하게 하며, 기존의 일괄적 추적 방식을 대체할 수 있는 기반을 마련함
RADAR 점수는 병기와 무관하게 재발 위험을 예측할 수 있어, 정밀 의료에 기여할 수 있음.
의료진이 재발 가능성이 높은 환자를 조기에 식별하고, 적극적 감시 또는 보조치료를 시행하는 데 유용함.

5. Discussion

기존 추적 프로토콜은 병기 위주로 정해져 있었지만, 개인의 실제 재발 위험을 반영하지 못함.
RADAR 모델은 실제 의료 환경에서 수집된 검사, 영상, 병리 데이터를 활용해 정교한 예측을 가능하게 함.
특히 병기 I 환자에서도 고위험군을 선별할 수 있다는 점이 임상적으로 매우 유의미함.
다만 단일 기관 연구이므로 외부 검증이 필요하며, Prospective Study와 다양한 의료기관에서의 재현성 검증이 앞으로의 과제임.
향후에는 이 모델을 활용해 감시 주기를 조절하거나 보조치료 시작 시점 결정에도 활용할 수 있음.

[Review] Recommender Systems based on Parallel and Distributed DeepLearning

지승민 — Sun, 2 Nov 2025 03:20:51 +0900

0. Abstract

As individuals have become overloaded with information, Recommender Systems (RS) were created to provide machine generated recommendations. Significant advancements in RS have been made thanks to Machine Learning methods; Deep Learning (DL) in particular has become extremely popular. Despite the fact that Deep neural networks (DNNs) upgrade notably the performance of RS, they make them larger and more memory-intensive systems. To that end, the solution is adding (data or model) parallel and distributed algorithms to DL RS. In this paper, we present our large-scale, multistaged, hybrid RS that processes a million-scale dataset, as well as the most noteworthy parallel or/and distributed DL systems. Finally, we outline directions regarding the future evolution of our RS by adding some features and ideas from such systems.

딥러닝은 이미지 텍스트 추천 분야 등 다양한 영역에서 성공적으로 활용되고 있음.
그러나 딥러닝 기반 추천시스템은 매우 대규모 파라미터와 연산량을 가지므로 학습 비용이 높음
이 연구는 병렬 및 분산 딥러닝 기술을 활용 RS 연구들을 체계적으로 검토 후 대규모 인용 데이터를 이용한 학술 추천 시스템을 설계함
최종 목표는 추천 시스템의 정확도와 학습 효율성을 동시에 향상시키는 것임

1. Short Background

정보 과잉 시대에 사람들은 필요한 정보를 빠르게 구분하기 어려워 추천 시스템의 필요성 증가
추천 시스템은 사용자의 선호도를 기반으로 개인화 추천을 제공하여 의사 결정을 도움
DL 기반 RS는 기존 협업 필터링보다 사용자 아이템 상호작용을 정교하게 모델링 가능
하지만 GPU 메모리 제약과 긴 학습시간 문제를 가져서 단일 장비에서는 비효율적
이를 해결하기 위해 병렬 및 분산 기술이 적용되고 있음.

2. Methods

(1) Deep Learning Systems

Gunduz: 발화(음성) 특징셋을 평행 입력 레이어로 분기해 각 분기에서 동시에 심층 특징을 추출한 뒤 병합하는 9-층 CNN으로 파킨슨병을 분류
Shambour: Yahoo! Movies·TripAdvisor의 다기준 평점을 딥 오토인코더(AEMC)로 학습해 입·출력 동차원 구조의 은닉 표현으로 비선형 관계를 포착하고 최신 기법 대비 예측 정확도를 향상
Wang et al. (CSRM): 현재 세션을 RNN+어텐션으로 표현하는 IME와 이웃 세션 협업 정보를 끌어오는 OME를 병렬 모듈로 두고 게이팅 융합(GRU 기반)하여 익명 세션의 다음 아이템 예측을 개선
Da’u et al. (ADRS): 리뷰에서 어텐티브 CNN으로 사용자·아이템 잠재 특징을 뽑고 상호 어텐션으로 세밀한 상호작용을 모델링한 뒤 예측층으로 추천 정확도를 높임
딥러닝 기반 RS 연구들은 병렬 CNN, Autoencoder, 세션 메모리, Attention 등 다양한 구조를 활용해 추천 품질과 개인화 수준을 향상시키고자 함.

(2) Parallel and Distributed Deep Learning Systems

DLRM (Naumov 등, 벤치마크/구성): 거대 희소 임베딩 테이블과 소형/대형 MLP를 상호 작용시키는 RS 아키텍처로, HPC 최적화 연구에서 단일 소켓 110× 성능 향상과 64 소켓까지의 확장 효율이 보고함
GPipe (Huang et al.): 네트워크를 레이어 구간별로 분할해 마이크로배치 파이프라이닝으로 여러 가속기에서 거의 선형적으로 속도를 높이는 파이프라인 병렬화 라이브러리를 제시하고, 이미지 분류·다국어 번역에 대규모 적용
PyTorch Micro-batch Pipeline (Kim et al.): GPipe의 체크포인팅 기반 마이크로배치 파이프라인을 PyTorch eager 환경에 구현하여 파이프라인 경사 계산을 가능케 하고 AmoebaNet-D·U-Net 등에서 효율을 입증
DL-RS의 대규모 학습은
- 데이터 병렬성(Data Parallelism): 샘플 단위로 분할
- 모델 병렬성(Model Parallelism): 파라미터 단위로 분할
- 파이프라인 병렬성(Pipeline Parallelism): 레이어 단위로 분할을 조합해 수행해야 함.

3. Results

실험 전반에서 병렬 및 분산 학습은 전통적인 단일 학습 방식보다 모델 수렴 속도, 예측 정확도, 자원 활용률 모두 우수
데이터 병렬화(Data Parallelism)는 학습 속도를 향상시키는 데 효과적이었고, 모델 병렬화(Model Parallelism)는 대규모 모델의 메모리 한계를 극복하는 데 유용
파이프라인 병렬화(Pipeline Parallelism)는 GPU의 처리율(Throughput)을 높여 대형 모델 학습 시 가장 높은 효율성을 보였음
세 방식의 결합(Hybrid Parallelism, 예: DLRM + GPipe 구조)은 속도·정확도·확장성의 균형점으로 평가
따라서 연구진은 병렬 및 분산 학습은 단순한 하드웨어 최적화가 아니라, 추천 모델 자체의 품질을 향상시키는 핵심 기술 요소라고 결론
백만 건 규모의 학술 논문 데이터를 효율적으로 처리할 수 있는 대규모 추천 시스템을 예시로 시스템 구조를 추천
기존의 단순 협업 필터링 기반 추천이 아니라, 클러스터링(Clustering) + 그래프 모델링(Graph Modeling) + 딥러닝(Deep Learning) 을 결합한 다단계(hybrid) 구조로 설계

단계 적용 기법 주요 기능

1단계 – 내용 기반 필터링 (CBF)	TF-IDF, Cosine Similarity	논문 제목, 초록, 키워드에서 텍스트 특징을 추출하고, 주제적 유사성을 계산
2단계 – 클러스터링 및 그래프 모델링	K-means, Elbow Method, Weighted Graph	연구 분야(Field of Study, FoS) 정보를 기반으로 유사 논문을 군집화하고, FoS 간 공동출현(co-occurrence) 그래프 생성
3단계 – 딥러닝 기반 협업 필터링 (CATA++)	Autoencoder, Attention Mechanism	논문 간 비선형 관계를 학습하고, 사용자의 선호 패턴을 반영해 추천 점수 예측

4. Conclusion

본 논문은 기존의 병렬·분산 딥러닝 기반 추천 시스템 연구들을 분석하고,실제 적용 사례로 대규모 학술 논문 추천 시스템(Academic RS) 을 제시
딥러닝 기반 RS 연구들은 CNN, Autoencoder, Attention 등 다양한 구조를 사용해 사용자와 아이템 간의 복잡한 관계를 더 잘 학습하려는 방향으로 발전
데이터의 양이 커질수록 학습 속도와 메모리 한계가 문제가 되므로 병렬 및 분산 학습 기법이 필수적임을 강조
본 연구의 사례 시스템은 클러스터링, 그래프 모델링, 딥러닝을 결합한 하이브리드 RS 구조로 설계되었으며,
AMiner 학술 데이터(약 535만 논문, 4,822만 인용 관계) 를 효율적으로 처리할 수 있음
특히, TF-IDF 기반의 텍스트 분석과 K-means 기반의 분야별 군집화, 그리고 CATA++ 딥러닝 모델을 조합함으로써 논문 간 유사도 계산 및 추천 정확도를 향상
병렬·분산 딥러닝 기술은 단순히 RS의 계산 효율성을 높이는 수준을 넘어, 대규모 데이터에서도 높은 품질의 추천을 가능하게 하는 핵심 기술임을 확인

5. Discussion

병렬 및 분산 딥러닝은 추천 시스템의 학습 시간 단축뿐 아니라 모델 품질 향상에도 기여함을 논의
RS의 대규모 데이터 학습에는 세 가지 병렬화 방식이 중요하다:
- 데이터 병렬화(Data Parallelism) — 데이터를 여러 장비에 나눠 학습, 속도 향상.
- 모델 병렬화(Model Parallelism) — 큰 모델을 여러 GPU에 분할, 메모리 부담 완화.
- 파이프라인 병렬화(Pipeline Parallelism) — 레이어 단위로 병렬 처리, 자원 활용률 향상.
세 가지 방식을 혼합(Hybrid) 해야 가장 효율적이다. 예를 들어, DLRM 구조에서는 Embedding Table은 모델 병렬, Fully Connected Layer는 데이터 병렬, 전체 네트워크는 파이프라인 병렬로 구성
정량적 성능 지표(Precision, Recall, F1 등)가 상세히 제시되지 않았고, 사용자 피드백 기반의 실시간 평가가 부족
다양한 하드웨어를 아우르는 Heterogeneous Distributed Learning, Federated Learning 기반 추천 구조로의 확장이 필요

[Review] Decoding AI Complexity: SHAP Textual Explanationsvia LLM for Improved Model Transparency

지승민 — Sat, 1 Nov 2025 21:09:21 +0900

0. Abstract

With the continuous advancement of artificial intelligence (AI), particularly in widespread domains such as healthcare and environmental applications, there is an increasing demand for model interpretability. Understanding the decisionmaking process of models contributes to building trust in them. Hence, the development of Explainable AI (XAI) has become crucial. This study proposes an approach to generate text via a large language model (LLM) for interpretation to enhance the interpretability of SHAP (Shapley Additive exPlanations) plots. The goal is to make the interpretability of model decisions accessible even to non-IT experts through textual explanations.

인공지능의 발전으로 특히 의료 및 환경 분야에서 모델 해석 가능성의 중요성이 커짐
기존의 시각화 중심 XAI 방법은 비전문가에게 난해할 수 있어, 대중적 신뢰 확보에 어려움 존재
본 연구는 SHAP 그래프를 LLM을 이용하여 자연어 설명으로 자동 변환하는 방법을 제안
텍스트 설명을 통해 모델의 판단 근거를 쉽게 이해 할 수 있게 하여, AI 모델의 투명성과 신뢰도 증진 목표

1. Short Background

AI 모델의 복잡성이 증가하며, '블랙박스' 모델에 대한 불신 존재하며, 민감한 도메인에서는 결과의 해석 가능성이 필수적임
SHAP 같은 시각화 툴은 전문가에게는 유용하나, 일반 사용자에게 난해한 정보로 인식함
특히 SHAP global plot은 특성 중요도와 영향력을 시각화하지만, 언어적 설명이 부족해 정보 격차 발생.

2. Methods

본 연구의 핵심 방법은 SHAP 시각화 결과를 언어적 설명으로 자동 변환하는 체계를 설게하는 것
저자들은 SHAP 기반 수치 데이터를 정량화하고, LLM에 입력하여 자연어 텍스트를 생성하는 절차를 제안

(1) SHAP 전역 중요도 수치 추출

SHAP(Shapley Additive Explanations) 기법을 이용하여, AI 모델의 예측 결과에 각 특성이 얼마나 기여했는지를 계산
SHAP의 전역(Global) 중요도는 모든 데이터 포인트에서 피처의 SHAP 기여도의 절댓값을 합산하여 구함
계산된 중요도 값은 “피처 이름 - 중요도” 형식으로 정리되며 모델이 어떤 피처를 더 신뢰하고 의존하는지를 보여주는 핵심 지표

(2) 피처 값과 SHAP 값 간의 상관관계 분석

각 피처의 원래 값과 해당 SHAP 값 간의 선형 관계를 Pearson 상관계수로 계산
값이 +1에 가까우면 양의 상관관계, -1에 가까우면 음의 상관관계, 0에 가까우면 상관성이 거의 없는 것으로 해석

(3) 통계 정보를 구조화하여 테이블로 정리

SHAP 중요도 값과 상관계수 값은 언어 모델(ChatGPT)이 이해할 수 있도록 CSV 혹은 표(table) 형식으로 재구성
각각의 표는 주제별로 구분되며, 대표적으로 두 가지 테이블이 생성
① 피처 중요도 테이블 (Feature vs. Importance)
② 피처 상관관계 테이블 (Feature vs. Correlation)
ChatGPT가 시각화 없이도 핵심 정보를 해석할 수 있도록 도와줌

(4) LLM에 테이블 입력 후 텍스트 설명 자동 생성

정리된 표들을 ChatGPT와 같은 대형 언어 모델(LLM)에 프롬프트와 함께 입력
ex) “아래의 피처 중요도 및 상관관계 테이블을 바탕으로, 각 특성이 예측 결과에 어떤 영향을 주는지 100단어 이내로 설명해주세요.”
chatGPT는 표의 수치 데이터를 바탕으로 문장을 생성하며, 어떤 특성이 중요한지 ,어떤 특성이 예측에 긍정적 혹은 부정적으로 작용하는지 상관관계의 방향과 강도 등을 사람이 읽기 쉬운 문장으로 정리
생성된 문장은 전문가가 아니더라도 모델의 작동 원리와 판단 근거를 이해할 수 있게 해주며, XAI(설명 가능한 AI)의 실효성을 높이는 데 기여

3. Results

SHAP 플롯을 자동으로 설명 문장으로 바꾸는 방법의 유효성을 검증하기 위해 실험을 수행함
실험은 환경 분야의 수질 예측 모델을 대상으로 진행되며 두 가지 실제 수질 데이터셋을 사용하고, XGBoost를 적용함

(1) 사용 데이터 및 모델 세팅

해당 논문에서는 환경 분야의 두 수질 데이터셋( Kaggle의 Water Potability Dataset, 다양한 수질 특성이 포함된 Water Quality Dataset)이 사용됨
예측 모델로는 XGBoost가 활용되었으며, 모델 예측 결과를 SHAP(Global) 그래프로 시각화함
두 모델의 예측 정확도는 각각 0.765(데이터셋 1)와 0.965(데이터셋 2)로 측정됨

(2) SHAP 플롯 분석 및 비교

Fig. 1의 왼쪽 플롯은 정확도가 낮아 SHAP 값 분포가 흐릿하고 피처별 영향력이 불분명함
반면, 오른쪽 플롯은 SHAP 값이 명확히 분리되어 각 피처의 영향력과 방향성이 뚜렷하게 드러남
오른쪽 SHAP 플롯은 해석 가능성이 훨씬 높은 형태를 보임

(3) 피처 중요도 설명 결과 (Table 2)

SHAP 중요도를 추출하여 표로 구성한 뒤, ChatGPT에 “100단어 이내로 요약하라”는 프롬프트와 함께 입력함
예시 데이터로는 “aluminum: 4523.131”, “mercury: 265.849”와 같은 중요도 수치가 포함
ChatGPT는 aluminum이 가장 중요한 피처이며 mercury는 상대적으로 덜 중요하다고 해석
생성된 문장은 피처 간 상대적 영향력을 요약하며, 실제 의사결정 활용 가능성을 언급하는 등 실용적 표현도 포함

(4) SHAP-피처 상관관계 설명 결과 (Tables 3, 4)

SHAP 값과 피처 값 간의 Pearson 상관계수를 계산하여, 해당 관계를 ChatGPT에 설명하도록 요청함
왼쪽 플롯은 정확도 0.765이며 대부분 상관계수 값이 ±0.2 이하로 낮아 명확한 해석이 어려웠음
오른쪽 플롯은 0.965이며 강한 양/음의 상관관계를 보인 피처들이 뚜렷하게 구분되었음.

(5) 결과 종합 및 해석

모델 정확도가 높을수록 SHAP 값이 명확하고, 상관관계도 뚜렷하게 나타나 LLM 설명 품질이 향상
입력 데이터의 구조와 수치 품질이 좋을수록 ChatGPT는 보다 정밀하고 일관된 문장을 생성
특히 오른쪽 플롯처럼 정보가 선명할 경우, ChatGPT는 각 피처의 기여 방향과 강도를 효과적으로 요약

4. Conclusion

본 연구는 SHAP(Shapley Additive Explanations) 기반의 설명을 LLM(Large Language Model 을 통해 텍스트 형태로 자동 생성하는 새로운 접근 방식을 제안
제안된 방법은 비전문가도 이해할 수 있도록 복잡한 AI 모델의 예측 근거를 언어적 설명으로 변환한다는 점에서 의미있음
두 개의 데이터셋을 활용한 실험 결과, LLM 기반 SHAP 해석 문장 생성이 충분히 실행 가능하고 신뢰할 만한 수준의 품질보임
본 연구는 XAI의 실질적 활용을 확장할 수 있는 기반을 마련하였으며, 향후 의료, 금융 등 다양한 영역에 적용 가능

5. Discussion

기존의 SHAP 시각화는 전문가 중심의 분석 도구로 제한되어 있었으나, LLM을 활용함으로써 비전문가 사용자도 결과를 언어적으로 이해할 수 있는 환경이 마련
LLM은 SHAP 값의 수치적 의미를 자연어로 변환하여, 각 변수가 모델 결과에 미치는 영향을 직관적으로 설명할 수 있었음
LLM의 출력은 원래의 SHAP 수치를 기반으로 하지만, 모델이 “사실적 근거” 대신 언어적 추론을 추가할 가능성이 존재
정량적 검증 지표(예: BLEU, ROUGE, human evaluation)를 통해 신뢰성을 보완할 필요가 있음
다양한 ML/DL 모델의 SHAP 해석에도 일반화 가능

[Review] Enhancing the Interpretability of SHAP Values Using Large Language Models

지승민 — Sat, 1 Nov 2025 19:01:19 +0900

0. Abstract

Model interpretability is crucial for understanding and trusting the decisions made by complex machine learning models, such as those built with XGBoost. SHAP (SHapley Additive exPlanations) values have become a popular tool for interpreting these models by attributing the output to individual features. However, the technical nature of SHAP explanations often limits their utility to researchers, leaving non-technical end-users struggling to understand the model's behavior. To address this challenge, we explore the use of Large Language Models (LLMs) to translate SHAP value outputs into plain language explanations that are more accessible to non-technical audiences. By applying a pre-trained LLM, we generate explanations that maintain the accuracy of SHAP values while significantly improving their clarity and usability for end users. Our results demonstrate that LLM-enhanced SHAP explanations provide a more intuitive understanding of model predictions, thereby enhancing the overall interpretability of machine learning models. Future work will explore further customization, multimodal explanations, and user feedback mechanisms to refine and expand the approach.

복잡한 머신러닝 모델이 어떤 이유로 특정 결과를 내렸는지 설명하는게 중요함
SHAP이라는 기법은 각 요소(나이, 성별 등)이 결과에 얼마나 영향을 줬는지 숫자로 알려줌
하지만 SHAP 결과는 너무 기술적이이서 일반인들은 이해하기 어려움
이 연구는 대형 언어 모델(LLM)을 사용해 SHAP 설명을 쉽고 평이한 문장으로 바꾸는 방법을 소개함
그 결과, 전문가가 아니어도 모델의 판단 이유를 이해할 수 있게됨

1. Short Background

인공지능 모델이 점점 복잡해지면서 왜 그런 결과가 나왔는지 설명하는 게 더 어려워짐
특히 의료, 금융처럼 중요한 분야에서는 결과를 납득할 수 있어야 신뢰할 수 있음
SHAP은 각 입력 정보가 결과에 얼마나 기여했는지 보여주지만 숫자와 그래프로만 보여줘서 비전문가는 이해하기 어려움.
그렇기 때문에 SHAP 결과를 자연어로 풀어서 보여줄 필요가 있음.

2. Methods

(1) SHAP 값 이해하기

SHAP(SHapley Additive exPlanations)는 머신러닝 모델의 출력 예측값이 각 입력 피처에 얼마나 영향을 받았는지 수치로 표현해주는 방법
예측 결과는 마치 게임의 총 점수와 같고, 각 피처는 그 점수에 기여한 플레이어처럼 다뤄짐
협력 게임 이론에 따라 각 피처가 없을 떄와 있을때의 예측 차이를 모든 가능한 조합에서 평균하여 SHAP 값을 계산
수학적으로는 매우 공정하고 정밀한 방식이지만, 설명은 숫자 형태로만 제공되기 때문에 일반 사용자가 이해하기 어려움

(2) LLM을 활용한 설명 방식

SHAP 값의 수치 기반 설명을 누구나 이해할 수 있는 무장으로 바꾸는 것,
즉, '성별은 생존 확율에 +0.24 기여했다' -> 여성이어서 생존 확률이 높아졌습니다. 같은 형식으로 변환

(3) 절차별 설명 - 입력 구성

SHAP 값은 모델이 하나의 예측을 한 결과에 대해 계산되며, 이 값을 LLM이 읽을 수 있도록 다음과 같은 형식으롤 정리
EX) [("성별", 0.24), ("객실 등급", 0.15), ("나이", -0.10)]
각 피처 이름과 SHAP 값을 튜플(쌍)의 목록 형태로 표현

(4) 모델 선택

논문에서는 자연어 처리 성능이 우수하며 프롬프트에 따라 문맥에 맞는 텍스트 생성 가능한 LLM으로 Mistral 7B를 선택
로컬에서 동작하므로 속도 빠르고 보안 우수

(5) 프롬프트 설계

LLM은 입력만 보면 뭘해야 할지 모르므로 '어떻게 설명하라" 는 프롬프트가 반드시 필요함
ex) "다음 특성들이 모델의 예측에 어떤 영향을 미쳤는지 설명해줘. 일반 사용자도 이해할 수 있도록 쉬운 말로 작성해줘."
이 프롬프트 뒤에 정리된 SHAP 값 목록을 붙여서 LLM에 전달

(6) 설명 생성

LLM은 입력된 SHAP 값과 프롬프트를 기반으로 자연스러운 문장을 생성
ex) '이 승객은 여성이고 1등석에 탑승했기 때문에 생존 확률이 높습니다. 다만 나이가 많아 약간의 위험 요소로 작용했습니다.'
이렇게 생성된 문장은 숫자에 익숙하지 않은 사람도 직관적으로 이해 가능

(7) 시스템 구현 방법

실행 환경 구성 은 Mistral 7B 모델을 로컬 컴퓨터에 설치해 실행
전체 프로세스를 하나의 Python 파이프라인으로 구성
- 머신러닝 모델이 입력 데이터를 받아 예측 실행
- SHAP 라이브러리로 해당 예측의 SHAP 값을 계산
- 각 피처와 SHAP 값을 튜플로 정리
- 미리 정의한 프롬프트와 함계 LLM에 입력
- LLM이 설명 문장을 생성
- 결과를 사용자에게 보여줌
LLM이 생성한 문장은 사람이 읽기 좋게 (문법 오류 수정, 중복된 내용 제거, 불필요하게 긴문장은 요약 ) 등등 하여 다듬음

3. Results

(1) 실험 목적

본 연구의 목표는 SHAP 값 을 대형 언어 모델을 활용하여 일반인이 이해할 수 있는 문장으로 바꾸는 것이 실제로 가능 확인
실제 머신러닝 모델에 SHAP값을 적용하고 그 결과를 LLM(Mistral 7b)을 통해 문장으로 변환하여 평가함

(2) 사용된 데이터 셋

Titanic 데이터셋은 머신러닝에서 널리 사용되는 공개 데이터로, 탑승객의 정보와 생존 여부를 포함함

(3) 예측 모델 구성: XGBoost

Titanic 데이터를 바탕으로 XGBoost 모델을 훈련시킴.
훈련된 모델은 각 승객에 대해 생존 확률을 예측함

(4) SHAP 값 계산

각 예측 결과에 대해 SHAP 값을 사용하여 특성별 영향력을 수치화함.

(5) SHAP 값을 LLM 입력 변환

SHAP 값을 다음처럼 LLM이 이해할 수 있는 형태로 변환
- ex) [ ("성별", 0.25),("좌석 등급", 0.15), ("나이", -0.05)]
이 리스트와 함께 프롬프트(prompt) 문장을 함께 입력함
- ex) "다음 특성들이 모델 예측에 어떤 영향을 주었는지 일반인이 이해할 수 있도록 설명해줘."

(6) LLM 설명 생성 (Mistral 7B 출력 예시)

SHAP 값을 직접 언급하지 않고, 자연어로 간결하게 해석
원래 SHAP 값의 의미는 유지하면서도 이해하기 쉬움
설명의 흐름도 자연스럽고 실제 사람이 쓴 듯함
ex) “이 승객은 여성이고 1등석에 탑승했기 때문에 생존 확률이 높아졌습니다. 하지만 나이가 많아 생존 가능성이 다소 낮아졌습니다.”

사용자는 기술 용어 없이 다음과 같은 쉽고 명확한 문장으로 예측 결과를 이해할 수 있게 됨:

4. Conclusion

복잡한 SHAP 값을 LLM을 이용해 쉽게 풀어 설명하는 방법이 효과적임을 확인함.
제안된 방식은 SHAP의 정확성을 유지하면서도 비전문가도 이해할 수 있게 해줌.
특히 의료나 금융처럼 설명이 중요한 분야에서 활용 가능성이 높음.
모델 개발자와 일반 사용자 사이의 이해 격차를 줄이는 데 기여함.

5. Discussion

다만 프롬프트 설계, 계산 자원, 설명 신뢰성 등 몇 가지 한계도 존재
LLM이 생성한 설명을 맹신하지 않도록 사용자 교육과 검증이 필요함
사용자 피드백 반영과 분야별 튜닝을 통해 더욱 정밀하고 신뢰할 수 있는 설명 시스템을 구축할 수 있음

[Review] Enhancing EHR-based pancreatic cancer prediction with LLM-derived embeddings

지승민 — Fri, 24 Oct 2025 15:03:38 +0900

0. Abstract

Pancreatic cancer (PC) is often diagnosed late, as early symptoms and effective screening tools are lacking, and genetic or familial factors explain only ~10% of cases. Leveraging longitudinal electronic health record (EHR) data mayoffer apromisingavenuefor early detection. We developed apredictive modelusinglargelanguagemodel(LLM)-derivedembeddingsofmedicalconditionnamestoenhance learning from EHR data. Across two sites—Columbia University Medical Center and Cedars-Sinai Medical Center—LLM embeddings improved 6–12 month prediction AUROCs from 0.60 to 0.67 and 0.82 to 0.86, respectively. Excluding data from 0–3 months before diagnosis further improved AUROCsto0.82 and 0.89. Our model achieved a higher positive predictive value (0.141) than using traditional risk factors (0.004), and identified many PC patients without these risk factors or known genetic variants. These findings suggest that the EHR-based model may serve as an independent approach for identifying high-risk individuals.

본 연구는 전자의무기록(EHR)을 이용하여 췌장암을 조기에 예측하는 모델을 개발하는 것을 목표로 함
Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC)의 데이터를 OMOP Common Data Model 형태로 통합하여 사용
각 환자의 진단 코드를 대형 언어 모델(LLM)에서 생성한 임베딩(GPT, Mistral)과 그래프 기반 임베딩(RGCN)으로 변환함
Transformer 구조를 이용해 췌장암 발생을 0–60개월 전에 예측하는 모델을 학습
LM 임베딩 기반 모델은 기존 RGCN 모델보다 AUROC, AUPRC, PPV가 향상되어 EHR에서의 의미적 표현이 예측 성능에 기여함을 보임

1. Short Background

췌장암은 증상이 늦게 나타나 조기 진단이 어려운 치명적 질환이다.
전자의무기록(EHR)에는 환자의 장기적인 진단 정보가 축적되어 있으나, 기존 연구들은 단순 코드(one-hot) 입력에 의존해 질병 간 의미적 관계를 반영하지 못함
대형 언어 모델(LLM)은 언어의 의미적 관계를 벡터로 표현할 수 있어, 질병명 간의 연관성을 반영.
본 연구는 LLM에서 생성된 의미 임베딩을 이용해 진단 시퀀스를 Transformer 모델에 입력하고, 췌장암 조기 예측 성능을 개선하는 가능성을 탐색함

2. Methods

(1) 데이터 수집

본 연구의 데이터는 환자 개인정보는 완전히 비식별화(de-identified) 되었으며, Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC) 기관에서 수집된 EHR(전자의무기록) 데이터를 사용함
병원마다 데이터 구조가 달라 병합이 어려워, 연구팀은 OMOP Common Data Model (CDM) 형식으로 데이터를 변환

(2) 연구 대상자

구분	선정 기준	제외 기준
Case (췌장암 환자)	ICD 진단 코드 중 ‘malignant neoplasm of the pancreas’ 보유자	다른 암 병력 존재자
Control (비암 환자)	전체 환자 중, 암 관련 텍스트(“malig”, “adenocarcinoma”)가 없는 사람	최근 2년 내 진단 기록이 있는 사람, 5개 미만 진단 보유자, 18세 미만·100세 초과

즉, control 그룹은 암이 전혀 없고 최근 병원 방몬도 없느 일반 환자군이다.
췌장암 환자는 최초 진단 시점을 기준으로 데이터가 정렬 시켰다.
규모는 CUMC: case 3,300명 / control 785,335명, CSMC: case 1,781명 / control 484,515명, 총 127만명 이상의 환자데이터 사용.

(3) 데이터 입력 구조

모델 입력은 [Hypertension → Diabetes → Pancreatitis → Abdominal pain → Pancreatic cancer]
형태의 시계열 리스트(sequence) 로 구성된다.
Control 환자의 경우에는 암 진단이 없으므로, 무작위 기준일(최근 진료일)을 기준으로 과거 5년 병력을 동일하게 구성한다.

(4) 질병 코드의 벡터화

RGCN (그래프 방식)
- 질병 간 관계(상위-하위 구조)를 그래프로 연결
- ex) 췌장암 -> 소화기계 암 -> 악성종량
- 이 관계를 학습하여 각 질병을 의미적으로 가까운 숫자로 표현
GPT 임베딩 (언어 모델 방식)
- OpenAI의 GPT 모델에 질병명을 넣고, “이 단어의 의미를 숫자로 표현하라”고 시켜 생성된 벡터 사용.
- 작은 버전(32차원)과 큰 버전(1,536차원)을 비교해 성능 차이를 검토.
Mistral 임베딩 (고차원 언어 모델)
- Salesforce의 Mistral-7B 언어 모델을 사용해 4,096차원의 풍부한 벡터로 질병 간 의미를 표현.
- GPT보다 더 세밀한 의미 관계를 포착.

(5) 인공지능 모델 구조

Transformer는 “시간 순서가 있는 데이터”를 잘 이해하는 모델임
환자의 진단 시퀀스 전체를 입력받아, 어떤 패턴이 암으로 이어지는지를 학습한다.
두 가지 구조로 실험 진행
- 멀티라벨 모델: 0~3, 3~6, 6~12, 12~36, 36~60개월 전 위험을 한 번에 예측.
- 이진 모델: 특정 시점(예: 6~12개월 전)만 따로 예측.

(5) 모델 학습 및 평가

학습 데이터와 테스트 데이터를 병원별로 나누어 교차 검증을 진행했다.
평가 지표는 다음과 같다.
- AUROC: 암과 비암을 얼마나 잘 구분하는지.
- AUPRC: 드문 질병(췌장암) 예측에서의 정밀도-재현율 성능.
- PPV: 모델이 “이 사람은 암이 생길 것 같다”고 했을 때 실제로 맞는 비율.
추가 분석으로 나이 차이가 결과에 영향을 주는지 검토했으나, 통계적으로 유의한 차이는 없었다.

3. Results

(1) 전체 개요

연구팀은 Transformer 기반 예측 모델을 이용해 Columbia University Medical Center(CUMC)와 Cedars-Sinai Medical Center(CSMC)의 EHR 데이터를 분석
임베딩 유형, 임베딩 크기(32~4096차원), 학습 방식(freezing vs fine-tuning) 이 성능에 어떤 영향을 미치는지를 비교

(2) 임베딩 크기와 학습 방식의 영향

임베딩 차원이 커질수록 전반적으로 예측 성능(AUROC, AUPRC)이 향상되었으며, 더 많은 차원 정보가 질병 간 관계를 더 잘표현했지만 Mistral(4096차원) 은 가장 크지만 모든 구간에서 성능이 크게 향상되진 않았다.
fine-tuning 은 저차원(32차원) 임베딩에서는 효과가 컸으나,1536차원 이상에서는 성능 향상이 거의 없었다.

(3) 임베딩 종류별 성능 비교

GPT 임베딩(OpenAI) 이 대부분의 예측 구간에서 가장 높은 성능을 보임
Mistral 임베딩 은 F1-score 기준으로는 약간 더 높았으나 (p=0.035), 전체적인 AUROC/AUPRC는 GPT보다 낮았다.
RGCN 임베딩(그래프 기반) 은 GPT보다는 낮지만, 랜덤 초기화 Baseline보다는 확실히 나았다.

(4) 기관 간 비교 (CUMC vs CSMC)

CSMC 모델이 CUMC보다 항상 더 높은 AUROC을 기록 ( CSMC: 0.824, CUMC: 0.724)
GPT 임베딩은 두 기관 모두에서 기본모델보다 향상된 성능을 보였으나, CUMC에서는 일부 구간에서 편차가 보임

(5) 데이터 누출(Data Leakage) 점검

암 진단 직전(0–3개월)의 데이터는 이미 ‘전조 증상’이 반영되어 누출 위험(leakage) 이 존재할 수 있음
따라서 실제 임상 조기진단에는 0–3개월 데이터 제외가 더 적절하다는 결론을 도출했다.

(6) 임상적 유용성 평가 (Clinical Utility)

전통적 위험요인(CA19-9, 당뇨, 췌장염) 및 유전자 변이와 비교했을 때 EHR 기반 모델이 훨씬 높은 PPV(양성예측도) 를 보임
민감도(sensitivity)는 다소 낮았지만 스크리닝 기준(threshold)을 조정해 개선가능 했음.
50% 민감도를 얻기 위해선 전체 인구의 약 15%만 선별 검사하면 되었고, 이는 전통적 위험요인(16% 검사 시 28–44% 민감도)보다 효율적
실제 췌장암 환자 중 절반 이상(>50%)은 전통적 위험요인으로는 걸러지지 않았지만 EHR 모델로는 탐지 가능했다.

4. Conclusion

본 연구는 EHR(전자의무기록) 데이터에 LLM 임베딩을 적용하여 췌장암 조기 예측 가능성을 검증한 최초의 사례 중 하나
GPT 및 Mistral 임베딩을 통해 진단 코드의 언어적 의미를 반영함으로써, 단순한 숫자열(one-hot) 표현보다 질병 간 관계를 더 잘 포착
Transformer 기반 모델은 질병 발생 순서를 학습하여 진단 6~36개월 전 단계에서도 췌장암 발생 위험을 감지
GPT 임베딩은 RGCN(그래프 기반)보다 일관되게 높은 성능을 보였고, 미세조정(fine-tuning)이 불필요할 만큼 안정적인 의미 표현을 유지
향후 이러한 LLM 기반 임베딩은 췌장암 외의 다양한 질병(예: 간암, 폐암, 심혈관 질환 등) 조기 탐지에도 확장 적용될 수 있음을 시사

5. Discussion

실제 임상적 증상(영상, 혈액검사, 유전정보 등)은 반영되지 않았다.
Control 그룹이 ‘최근 진단이 없는 일반 환자’이므로 완전한 건강인이라 보기 어렵다.
다기관 데이터와 다중 모달리티(검사, 영상, 유전자 등)를 통합해 멀티모달 LLM 기반 의료 예측 모델로 확장 필요.
모델의 해석 가능성(Explainability)을 강화하여 임상 의사가 “왜 이 환자가 고위험인지”를 이해할 수 있도록 지원

[Review] Large language models forecast patient health trajectories enabling digital twins

지승민 — Thu, 23 Oct 2025 18:10:25 +0900

0. Abstract

Generative artificial intelligence is revolutionizing digital twin development, enabling virtual patient representations that predict health trajectories, with large language models (LLMs) showcasing untapped clinical forecasting potential. We developed the Digital Twin—Generative Pretrained Transformer (DT-GPT), extending LLM-based forecasting solutions to clinical trajectory prediction. DT-GPT leverages electronic health records without requiring data imputation or normalization and overcomes real-world data challenges such as missingness, noise, and limited sample sizes. Benchmarking on non-small cell lung cancer, intensive care unit, and Alzheimer’s disease datasets, DT-GPToutperformedstate-of-the-art machine learning models, reducing the scaled mean absolute error by 3.4%, 1.3% and 1.8%, respectively. It maintained distributions and cross-correlations of clinical variables, and demonstrated explainability through a human-interpretable interface. Additionally, DT-GPT’s ability to perform zero-shot forecasting highlights potential advantages of LLMs asclinical forecasting platforms, proposing a path towards digital twin applications in clinical trials, treatment selection, and adverse event mitigation.

연구진은 인공지능 기술을 활용해 환자의 건강 상태가 앞으로 어떻게 변할지를 예측하는 모델인 DT-GPT를 개발함.
이 모델은 환자의 전자의무기록(EHR)을 입력받아, 별도 보정 없이도 정확한 예측이 가능함
폐암, 중환자실, 알츠하이머 환자 데이터를 테스트한 결과 기존 AI 예측 모델보다 더 정확하고 안정적인 결과를 냄
결과에 대한 설명 가능 기능과 학습하지 않은 항목도 예측할 수 있는 능력도 탑재함
향후 치료 방법 선택, 임상시험 설계, 부작용 에방 등에 활용 가능성이 높음

1. Short Background

환자의 과거 건강정보(검사, 치료, 진료기록 등)를 바탕으로 만든 가상환자를 이용해 미래 상태를 시뮬레이션하고 다양한 치료방법을 실험해볼수 있는 디지털 트윈 연구가 초기 진행 상태임
실제 병원 기록은 데이터가 빠져 있거나 들쭉날쭉하고 복잡하며 많은 모델이 이런 문제를 처리하기 위해 전처리가 필요
대규모 언어모델(LLM)은 의료 데이터의 시간적 변화를 예측하는 데 잠재력이 있음.
특히, 단일 시점 예측이 아닌 ‘시간에 따른 변화(trajectory)’를 예측하는 데 주목받고 있음.

2. Methods

(1) 데이터 구성

연구에서는 세 가지 서로 다른 의료 데이터셋을 사용함.

데이터셋	환자 수	대상	예측 내용
NSCLC 데이터 (폐암 환자)	약 16,500명	항암치료 중인 환자	치료 후 13주간의 혈액검사 수치 (6종 변수: WBC, Hb, Platelet 등)
MIMIC-IV 데이터 (중환자실 환자)	약 30,000명	입원 직후 24시간 생체 신호 기록	다음 24시간의 산소포화도(SpO₂), 호흡수, 마그네슘(Mg) 수치
ADNI 데이터 (알츠하이머 환자)	1,140명	초기 인지저하 또는 AD 환자	이후 24개월간(6개월 단위) 인지점수 변화(MMSE, CDR-SB, ADAS11)

(2) 데이터 처리 방식

실제 병원 데이터의 불완전한 현실을 반영 하기 위해 인위적 수정 최소화 결측치, 이상치는 가능한 그대로 유지
입력값으로 일반적인 AI처럼 숫자로 된 표 형태로 아니라, 자연어 문장 형태로 바꿔서 모델을 입력함
ex) 65세 여성, 항암 치료 3주차, 혈색소 12.3, 백혈구 5.1, 혈소판 210
이렇게 하면 언어모델이 '의미'를 이해하듯 환자 정보를 맥락적으로 처리할 수 있음.
각 환자의 데이터는 시간 순서대로 연결된 문장들로 표현됨

(3) 모델 구조와 학습 방법

사전학습된 의료 특화 LLM인 BioMistral-7B 사용
훈련과정의 입력은 환자의 과거 검사 및 진료 기록으로 하며 출력값은 다음 시점의 검사 결과나 상태 변화으로 함
학습 비율은 학습용 80%, 검증용 10%, 테스트용 10%으로 나눠서 학습을 진행함

(4) 모델 기능 (DT-GPT의 3대 특징)

시간에 따라 혈압, 혈당, 인지 점수가 어떻게 변할지를 예측. (시계열 예측)
학습하지 않은 새로운 변수도 예측 가능 (제로샷 예측)
예측값의 근거를 자연어로 실행 (설명 가능)

(5) 성능 평가

LightGBM, LSTM, Transformer 등 14종의 기존 AI 모델들을 비교함
예측된 값이 실제 값과 얼마나 비슷하게 분포하는지 분포 유사도와 예측값과 실제값의 평균차이인 MAE를 평가지표로 사용함
동일 데이터를 여러 모델을 비교하여 공정하게 평가했으며 얘축 반복 을 수행하여 불확실성도 함계 분석

3. Results

(1) DT-GPT의 전반적인 성능 요약

세 가지 데이터셋 모두에서 최고 성능 달성.
오차율 MAE이 가장 낮고, 통계적으로 유의미하게 개선됨
폐암(NSCLC)데이터 셋에서는 3.4% 향상, 중환자실(ICU)데이터 셋에서는 1.3% 향상, 알츠하이머(AD) 1.8% 향상
예측 오차가 데이터의 자연스러운 변동폭보다도 적어 매우 정밀한 예측을 할수있었음.

(2) 비교 모델의 결과 세부 분석

모델	특징	비고
LightGBM	기존 의료 예측 AI 중 가장 성능 우수	DT-GPT보다 정확도 약간 낮음
Transformer, LSTM	시계열 딥러닝 기반	복잡한 데이터에서 노이즈 영향 큼
PatchTST, Time-LLM	최신 LLM 기반 시계열 모델	변수 간 관계를 동시에 반영 못함
BioMistral-7B, Qwen3-32B	미세조정전의 원본 LLM	실제 예측 시 허상 오류 발생

MAE로 계산된 오차값 (낮을수록 정확함)

(3) 데이터별 세부 성능 (숫자 중심)

NSCLC (폐암 데이터)
- 항암치료 후 혈액 지표(Hb, WBC, Platelet 등)의 주간 변화를 예측
- DT-GPT의 예측 곡선이 실제 환자 데이터의 추세와 거의 일치
- 치료 주기, 약물 반응 등의 맥락을 잘 포착함
ICU (중환자실 데이터)
- 입원 24시간 내 산소포화도, 호흡수, 마그네슘 수치 등 예측
- DT-GPT는 생리학적 패턴(예: 산소포화도 저하 → 호흡수 증가)을 학습
- 응급 환경의 시계열 데이터를 안정적으로 처리함
ADNI (알츠하이머 데이터)
- 초기 인지검사 점수로부터 2년간의 인지 저하를 예측
- 실제 인지 기능 저하 곡선과 높은 유사도 유지
- 질병의 진행 경향(완만한 저하 vs 급격한 저하)을 구분 가능

데이터셋	DT-GPT 평균 MAE	기존 최고 모델	상대적 향상률	의미
NSCLC (폐암)	0.55 ± 0.04	LightGBM (0.57 ± 0.05)	+3.4%	항암 치료 후 혈액 수치 예측 향상
ICU (중환자실)	0.59 ± 0.03	LightGBM (0.60 ± 0.03)	+1.3%	24시간 생체신호 예측 정확도 향상
AD (알츠하이머)	0.47 ± 0.03	TFT (0.48 ± 0.02)	+1.8%	장기 인지 점수 변화 예측 개선

(4) 예측값의 통계적 일치도

예측값의 분포가 실제 환자 데이터 분포와 거의 동일
KS 통계검정 결과, DT-GPT만이 실제 분포 형태를 정확히 재현함
다른 모델(Transformer, TiDE, TCN 등)은 분포 왜곡 발생 DT-GPT는 평균값뿐 아니라 데이터의 형태 자체를 이해하고 재현함

(5) 변수 간 관계(상관성) 유지력

NSCLC: R² = 0.98, ICU: R² = 0.99, ADNI: R² = 0.99으로 결과 나왔으며 DT-GPT는 각 변수 간 상관관계(correlation)를 실제 환자 데이터와 유사하게 유지함
견고성 실험: 데이터를 축소 시켜 35000명 -> 5000명으로 줄여도 성능을 거의 유지함
오타 실험: 25단어 이상 오류가 생길 때까지 예측 정상 작동했으며 실제 병원 환경의 “불완전 데이터”에서도 안정적임을 보여줌
불확실성 실험: DT-GPT는 환자별로 10~30개의 예측 시나리오를 생성해 평균으로 중심값을, 분산으로 신뢰도를 계산
- 가장 신뢰도 높은 예측을 선택할 경우 평균 오차(MAE)가 26%(0.40 ± 0.02) 감소하여 환자별 미래 경로를 시뮬레이션하는 디지털 트윈 개념을 실현 가능
경증 빈혈(Hb 저하) , LDH 상승(암 진행 지표), 염증 관련 지표(WBC, Neutrophil 등)는 정확하게 맞춘 경우가 많았으며, 드문사건이나 회귀 사례에서는 데이터 부족으로 정확도 낮았음.
제로샷 예측 능력 실험: 학습하지 않은 69개의 새로운 변수도 예측 가능했으며 이 중 13개 변수는 기존 모델(LightGBM)보다 정확 그중 11개는 기존 학습 변수와 높은 상관을 가짐

(6) 설명 가능한 예측 (Explainability)

DT-GPT는 결과뿐 아니라 예측 이유를 텍스트로 설명 가능
총 27,730건의 예측 중 25,575건에서 영향 요인 자동 추출
주요 영향 요인 3가지:
1. 치료 종류 (Therapy) — 면역치료나 표적치료 환자는 Hb 수치 유지가 더 잘됨
2. ECOG 점수 (활동도) — 활동성이 높은 환자가 더 안정적인 혈액 수치 유지
3. 나이 (Age) — 고령일수록 Hb 수치 감소 경향
이 결과들은 기존 의학 문헌과 일치 → 의학적으로 해석 가능한 예측

4. Conclusion

DT-GPT는 의료용 디지털 트윈(digital twin) 개념을 실현하는 최초의 LLM 기반 예측 플랫폼임.
기존의 AI 모델보다 더 정밀하고 안정적인 환자 건강 예측 성능을 보였으며, 설명 가능한 인터페이스(Explainable Interface) 를 제공해, 결과뿐만 아니라 예측의 이유와 근거를 자연어로 설명 가능함.
DT-GPT는 학습 시 포함되지 않은 임상 변수(Zero-shot variables) 에 대해서도 예측이 가능했음.
이러한 결과는 LLM이 임상 예측 플랫폼으로 발전할 잠재력을 보여주며, 향후 임상시험, 치료 선택, 부작용 예측 등의 실제 의료 현장에도 활용될 수 있음을 제시함

5. Discussion

현재 LLM 모델은 한 번에 다룰 수 있는 입력·출력 길이가 제한되어 있으며 더 큰 컨텍스트 윈도우를 가진 모델이 필요함
완전한 제로샷 방시에서 벗아 퓨샷 학습으로 확장하면 더 넓은 임상 변수 예측이 가능해질 것으로 기대됨
LLM을 시간 예측에 특화시킨 새로운 접근법(Time-LLM 등)을 임상 환경에 맞게 적용할 수 있음.
의료 데이터의 편향(bias)이 모델에 그대로 반영될 수 있음.특히 소수 인종이나 희귀 질환 환자 데이터 부족으로 인해
모델이 특정 집단에 대해 부정확하게 예측할 위험이 존재함.
이를 해결하려면 대규모·다양한 임상 데이터 수집과 의료진 교육 및 알고리즘 개선이 병행되어야 함
최종적으로 연구진은, “LLM 기반 디지털 트윈이 의료 시스템의 핵심 도구가 될 것이다”라고 전망