Notice
Recent Posts
Recent Comments
Link
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Archives
Today
Total
관리 메뉴

Seung-MinJi

[Review] Internet search and medicaid prescription drug data as predictors of opioid emergency department visits 본문

Paper

[Review] Internet search and medicaid prescription drug data as predictors of opioid emergency department visits

지승민 2025. 10. 21. 14:16

0. Abstract

The primary contributors to the opioid crisis continue to rapidly evolve both geographically and temporally, hampering the ability to halt the growing epidemic. To address this issue, we evaluated whether integration of near real-time social/behavioral (i.e., Google Trends) and traditional health care (i.e., Medicaid prescription drug utilization) data might predict geographic and longitudinal trends in opioid-related Emergency Department (ED) visits. From January 2005 through December 2015, we collected quarterly State Drug Utilization Data; opioid-related internet search terms/phrases; and opioid-related ED visit data. Modeling was conducted using least absolute shrinkage and selection operator (LASSO) regression prediction. Models combining Google and Medicaid variables were a better fit and more accurate (R2 values from 0.913 to 0.960, across states) than models using either data source alone. The combined model predicted sharp and state-specific changes in ED visits during the post 2013 transition from heroin to fentanyl. Models integrating internet search and drug utilization data might inform policy efforts about regional medical treatment preferences and needs.
  • 구글 검색어 데이터와 메디케이스 처방약 데이터를 결합하여, 아편류 관련 응급실(ED) 방문을 주별로 예측하는 모델을 개발함
  • 2005년 ~ 2015년 데이터를 바탕으로 LASSO 회귀 모델을 사용해 1~2분기 후 ED 방문 건수를 예측
  • 구글 또는 메디케이드 데이터 단독보다 두 데이터를 통합한 모델이 더 높은 예측 정확도(R^2 최대 0.96)를 보여줌
  • 특히 2013년 이후 펜타닐 확산 등 급격한 변화도 정확히 예측해냄
  • 이 방법은 지역별 의료 자원 배분 및 정책 대응을 향상시킬 수 있음.

 

1. Short Background

  • 아편류 위기로 인해 미국에서 매일 130명이 사망하며, 응급실 방문과 나록손 사용 요청도 급증 중
  • 기존 공중보건 데이터는 1년 이상의 시차가 있고 지역별 실시간 감시가 어렵다는 문제가 있음.
  • 인터넷 검색 데이터는 보건 지표 예측에 잠재력이 있으며, 지역 분석도 가능함.
  • 단독 사용에는 한계가 있어, 임상 데이터와 결합해 예측력을 향상시킬 필요가 있음.
  • 이 연구는 검색 데이터 + 메디케이드 처방 데이터의 통합 예측력을 평가하고자 함.

 

2. Methods

(1) 데이터 수집 범위

  • 구글 검색 트랜드에서 22개의 아편 관련 검색어(예시: fentanyl, heroin, oxycodone, methadone, suboxone)를 사용
  • 검색어는 이전 연구에서 사용된 용어를 기반으로 하되 2018년 10월 10일 Google Trends에서 최신 연관 검색어를 추가 확장
  • 각 미국 주(state)별로 분기 단위 데이터 수집 
  • State Drug Utilization Data (SDUD)에서 동일 기간(2005–2015) 동안의 데이터를 Medicaid 주별 처방 데이터 확보
  • 각 주별로 Google 검색량과 상관관계가 높은 상위 100개 약물(NDC 기준)을 선정하여 모델 입력 변수로 사용
  • Healthcare Cost and Utilization Project (HCUP)**에서 아편 관련 응급실 방문 건수를 분기별로 수집
  • 데이터 기간은 2005년 2분기 ~ 2016년 1분기(검색 데이터보다 1분기 늦게 시작·종료).

(2)  데이터 분석 설계

  • 인터넷 검색 데이터와 메디케이드 약제 데이터 중 단독 또는 결합하여 아편 관련 응급실 방문을 가장 잘 예측하는 모델을 찾음
  • 종속변수인(응급실 방문 수)는 카운트 데이터 이므로 Negative Binomial Generalized Linear Model (nbGLM) 사용
  • 예측 변수 선택에는 LASSO 회귀 기법을 적용하여, 22개 검색어 + 100개 약물 변수 중 예측력이 높은 변수만 자동 선택

(3) 모델 검증 절차

  • 10겹 교차 검증(10-fold cross-validation)으로 모델의 과적합을 방지하고 신뢰성 확보
  • 학습 데이터로 과거 분기 데이터를 사용하고, 1분기 후 및 2분기 후의 응급실 방문 건수를 예측하는 restrospective out-of-sample 예측 실험 수행
  • (1)각 주별 개별 모델,  (2)여러 주를 통합한 모델, (3)전체 데이터를 통합 모델  각각 3가지를 통합 비교

(4) 모델 성능 평가 및 추가 분석

  • 평가지표는 R^2(결정계수)와 RMSE(평균제곱근오차) 기준으로 정확도 평가
  • Google 검색 + Medicaid 처방 변수를 모두 포함한 모델이 가장 높은 정확도(R² 최대 0.96)
  • 모델 민감도 검증을 위해 전진·후진 단계적 회귀(stepwise regression) 수행.

 

3. Results

(1) 모델 성능 전반 요약

  • 구글 검색어 데이터와 메디케이드 약제 데이터 모두를 결합한 LASSO 회귀 모델 기반의 예측 결과가 가장 높은 정확도 (R^2=0.913~0.960)를 보임
  • 단독 데이터(검색어만 또는 약제 데이터만 사용)는 상대적으로 낮은 성능.
  • 결합 모델은 1분기 후 2분기 후 예측 모두 일관된 우수 성능을 보임

(2) 모델별 성능 비교

  • 결과적으로 행동 데이터(검색)임상 데이터(처방) 가 상호보완적으로 작용함을 입증

(3) 지역별 주요 패턴

  • 예측력이 높은 주요 변수인 검색어와 약물은 주마다 달랐음.
  • 주별 LASSO 모델은 각 지역의 특이적 트랜드을 반영할 수 있었음.
  • 결합 모델은 2013년 이후 “heroin → fentanyl” 전환기의 급격한 변화를 정확히 추적함

(4) 혼합모델 및 풀링모델 결과 비교

  • 혼합 모델과 풀링 모델은 LASSO 주별 모델에 비해 낮은 예측력
    • 혼합 모델: 주별 차이를 일부 반영하지만 정확도 낮음
    • 풀링 모델: 모든 주 데이터를 통합하므로 지역별 특성이 사라짐
  • 주별 LASSO 모델이 가장 현실적이고 정확한 접근으로 평가됨

(5) 추가 분석 (민감도 검증)

  • 전진, 후진 단계적 회귀 분석 수행으로 LASSO 결과의 안정성을 검증함.
  • 두 데이터셋 통합 모델이 단독 모델보다 항상 우수함을 재확인
  • 모델이 선택한 변수들은 대부분 실제 사회·임상 변화(예: opioid 처방 규제 강화, fentanyl 검색 급증)와 일치

 

4. Conclusion 

  • 결합 모델(구글 검색 + 메디케이터 데이터)은 아편 관련 응급실 방문 예측에서 가장 높은 정확도를 보임 (R^2 = 0.913 ~0.960)
  • 이 모델은 2013년 이후의 heroin → fentanyl 전환기처럼 급격한 변화까지 반영할 수 있었음
  • 단독 데이터(검색 또는 처방 데이터만 사용)는 예측력이 떨어졌으며, 두 데이터의 결합이 예측력 향상에 필수적임이 입증됨
  • 본 연구는 단순한 통계 모델을 넘어 공중보건 정책 및 지역 자원 배분을 위한 조기 경보체계로 활용될 수 있음을 시사함
  • 인터넷 행동 데이터와 임상 데이터의 융합이 보건 감시 체계의 새로운 패러다임을 제심

 

5. Discussion

  • 기존 공중보건 시스템은 데이터 갱신이 느리고(1년 이상 지연), 지역 단위 예측이 어려움
  • 본 연구는 실시간 또는 준실시간 데이터를 통해 그 한계를 극복할 가능성을 제시함
  • 각 주별로 예측력이 높은 변수(검색어나 약물 종류)가 다르므로 지역 맞춤형 대응 정책이 필요함
  • 분석 대상 주는 11개에 불과하며 메디케이드 처방 데이터는 민간 보험 데이터를 포함하지 않음.
  • 검색하는 사람이 실제 약물을 사용하는 사람과 일치하지 않을 수 있음.
  • SNS·모바일 데이터, 병원 내 실시간 EHR 데이터 등 다른 비정형 데이터를 결합해 예측 모델을 확장할 수 있음.