Notice
Recent Posts
Recent Comments
Link
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Archives
Today
Total
관리 메뉴

Seung-MinJi

[Review] Recommender Systems based on Parallel and Distributed DeepLearning 본문

Paper

[Review] Recommender Systems based on Parallel and Distributed DeepLearning

지승민 2025. 11. 2. 03:20

0. Abstract

As individuals have become overloaded with information, Recommender Systems (RS) were created to provide machine generated recommendations. Significant advancements in RS have been made thanks to Machine Learning methods; Deep Learning (DL) in particular has become extremely popular. Despite the fact that Deep neural networks (DNNs) upgrade notably the performance of RS, they make them larger and more memory-intensive systems. To that end, the solution is adding (data or model) parallel and distributed algorithms to DL RS. In this paper, we present our large-scale, multistaged, hybrid RS that processes a million-scale dataset, as well as the most noteworthy parallel or/and distributed DL systems. Finally, we outline directions regarding the future evolution of our RS by adding some features and ideas from such systems.
  • 딥러닝은 이미지 텍스트 추천 분야 등 다양한 영역에서 성공적으로 활용되고 있음.
  • 그러나 딥러닝 기반 추천시스템은 매우 대규모 파라미터와 연산량을 가지므로 학습 비용이 높음
  • 이 연구는 병렬 및 분산 딥러닝 기술을 활용 RS 연구들을 체계적으로 검토 후 대규모 인용 데이터를 이용한 학술 추천 시스템을 설계함
  • 최종 목표는 추천 시스템의 정확도와 학습 효율성을 동시에 향상시키는 것임

 

1. Short Background

  • 정보 과잉 시대에 사람들은 필요한 정보를 빠르게 구분하기 어려워 추천 시스템의 필요성 증가
  • 추천 시스템은 사용자의 선호도를 기반으로 개인화 추천을 제공하여 의사 결정을 도움
  • DL 기반 RS는 기존 협업 필터링보다 사용자 아이템 상호작용을 정교하게 모델링 가능
  • 하지만 GPU 메모리 제약과 긴 학습시간 문제를 가져서 단일 장비에서는 비효율적
  • 이를 해결하기 위해 병렬 및 분산 기술이 적용되고 있음.

 

2. Methods

(1) Deep Learning Systems

  • Gunduz: 발화(음성) 특징셋을 평행 입력 레이어로 분기해 각 분기에서 동시에 심층 특징을 추출한 뒤 병합하는 9-층 CNN으로 파킨슨병을 분류
  • Shambour: Yahoo! Movies·TripAdvisor의 다기준 평점을 딥 오토인코더(AEMC)로 학습해 입·출력 동차원 구조의 은닉 표현으로 비선형 관계를 포착하고 최신 기법 대비 예측 정확도를 향상
  • Wang et al. (CSRM): 현재 세션을 RNN+어텐션으로 표현하는 IME와 이웃 세션 협업 정보를 끌어오는 OME를 병렬 모듈로 두고 게이팅 융합(GRU 기반)하여 익명 세션의 다음 아이템 예측을 개선
  • Da’u et al. (ADRS): 리뷰에서 어텐티브 CNN으로 사용자·아이템 잠재 특징을 뽑고 상호 어텐션으로 세밀한 상호작용을 모델링한 뒤 예측층으로 추천 정확도를 높임
  • 딥러닝 기반 RS 연구들은 병렬 CNN, Autoencoder, 세션 메모리, Attention 등 다양한 구조를 활용해 추천 품질과 개인화 수준을 향상시키고자 함.

(2) Parallel and Distributed Deep Learning Systems

    • DLRM (Naumov 등, 벤치마크/구성): 거대 희소 임베딩 테이블과 소형/대형 MLP를 상호 작용시키는 RS 아키텍처로, HPC 최적화 연구에서 단일 소켓 110× 성능 향상과 64 소켓까지의 확장 효율이 보고함
    • GPipe (Huang et al.): 네트워크를 레이어 구간별로 분할해 마이크로배치 파이프라이닝으로 여러 가속기에서 거의 선형적으로 속도를 높이는 파이프라인 병렬화 라이브러리를 제시하고, 이미지 분류·다국어 번역에 대규모 적용
    • PyTorch Micro-batch Pipeline (Kim et al.): GPipe의 체크포인팅 기반 마이크로배치 파이프라인을 PyTorch eager 환경에 구현하여 파이프라인 경사 계산을 가능케 하고 AmoebaNet-D·U-Net 등에서 효율을 입증
    • DL-RS의 대규모 학습은
      • 데이터 병렬성(Data Parallelism): 샘플 단위로 분할
      • 모델 병렬성(Model Parallelism): 파라미터 단위로 분할
      • 파이프라인 병렬성(Pipeline Parallelism): 레이어 단위로 분할을 조합해 수행해야 함.

S

3. Results

  • 실험 전반에서 병렬 및 분산 학습은 전통적인 단일 학습 방식보다 모델 수렴 속도, 예측 정확도, 자원 활용률 모두 우수
  • 데이터 병렬화(Data Parallelism)는 학습 속도를 향상시키는 데 효과적이었고, 모델 병렬화(Model Parallelism)는 대규모 모델의 메모리 한계를 극복하는 데 유용
  • 파이프라인 병렬화(Pipeline Parallelism)는 GPU의 처리율(Throughput)을 높여 대형 모델 학습 시 가장 높은 효율성을 보였음
  • 세 방식의 결합(Hybrid Parallelism, 예: DLRM + GPipe 구조)은 속도·정확도·확장성의 균형점으로 평가
  • 따라서 연구진은 병렬 및 분산 학습은 단순한 하드웨어 최적화가 아니라, 추천 모델 자체의 품질을 향상시키는 핵심 기술 요소라고 결론
  • 백만 건 규모의 학술 논문 데이터를 효율적으로 처리할 수 있는 대규모 추천 시스템을 예시로 시스템 구조를 추천
  • 기존의 단순 협업 필터링 기반 추천이 아니라, 클러스터링(Clustering) + 그래프 모델링(Graph Modeling) + 딥러닝(Deep Learning) 을 결합한 다단계(hybrid) 구조로 설계

단계 적용 기법 주요 기능

1단계 – 내용 기반 필터링 (CBF) TF-IDF, Cosine Similarity 논문 제목, 초록, 키워드에서 텍스트 특징을 추출하고, 주제적 유사성을 계산
2단계 – 클러스터링 및 그래프 모델링 K-means, Elbow Method, Weighted Graph 연구 분야(Field of Study, FoS) 정보를 기반으로 유사 논문을 군집화하고, FoS 간 공동출현(co-occurrence) 그래프 생성
3단계 – 딥러닝 기반 협업 필터링 (CATA++) Autoencoder, Attention Mechanism 논문 간 비선형 관계를 학습하고, 사용자의 선호 패턴을 반영해 추천 점수 예측

 

4. Conclusion 

  • 본 논문은 기존의 병렬·분산 딥러닝 기반 추천 시스템 연구들을 분석하고,실제 적용 사례로 대규모 학술 논문 추천 시스템(Academic RS) 을 제시
  • 딥러닝 기반 RS 연구들은 CNN, Autoencoder, Attention 등 다양한 구조를 사용해 사용자와 아이템 간의 복잡한 관계를 더 잘 학습하려는 방향으로 발전
  • 데이터의 양이 커질수록 학습 속도와 메모리 한계가 문제가 되므로 병렬 및 분산 학습 기법이 필수적임을 강조
  • 본 연구의 사례 시스템은 클러스터링, 그래프 모델링, 딥러닝을 결합한 하이브리드 RS 구조로 설계되었으며,
    AMiner 학술 데이터(약 535만 논문, 4,822만 인용 관계) 를 효율적으로 처리할 수 있음
  • 특히, TF-IDF 기반의 텍스트 분석과 K-means 기반의 분야별 군집화, 그리고 CATA++ 딥러닝 모델을 조합함으로써 논문 간 유사도 계산 및 추천 정확도를 향상
  • 병렬·분산 딥러닝 기술은 단순히 RS의 계산 효율성을 높이는 수준을 넘어, 대규모 데이터에서도 높은 품질의 추천을 가능하게 하는 핵심 기술임을 확인

 

5. Discussion

  • 병렬 및 분산 딥러닝은 추천 시스템의 학습 시간 단축뿐 아니라 모델 품질 향상에도 기여함을 논의
  • RS의 대규모 데이터 학습에는 세 가지 병렬화 방식이 중요하다:
    • 데이터 병렬화(Data Parallelism) — 데이터를 여러 장비에 나눠 학습, 속도 향상.
    • 모델 병렬화(Model Parallelism) — 큰 모델을 여러 GPU에 분할, 메모리 부담 완화.
    • 파이프라인 병렬화(Pipeline Parallelism) — 레이어 단위로 병렬 처리, 자원 활용률 향상.
  • 세 가지 방식을 혼합(Hybrid) 해야 가장 효율적이다. 예를 들어, DLRM 구조에서는 Embedding Table은 모델 병렬, Fully Connected Layer는 데이터 병렬, 전체 네트워크는 파이프라인 병렬로 구성
  • 정량적 성능 지표(Precision, Recall, F1 등)가 상세히 제시되지 않았고, 사용자 피드백 기반의 실시간 평가가 부족
  • 다양한 하드웨어를 아우르는 Heterogeneous Distributed Learning, Federated Learning 기반 추천 구조로의 확장이 필요