Seung-MinJi
[Review] Recommender Systems based on Parallel and Distributed DeepLearning 본문
Paper
[Review] Recommender Systems based on Parallel and Distributed DeepLearning
지승민 2025. 11. 2. 03:200. Abstract
As individuals have become overloaded with information, Recommender Systems (RS) were created to provide machine generated recommendations. Significant advancements in RS have been made thanks to Machine Learning methods; Deep Learning (DL) in particular has become extremely popular. Despite the fact that Deep neural networks (DNNs) upgrade notably the performance of RS, they make them larger and more memory-intensive systems. To that end, the solution is adding (data or model) parallel and distributed algorithms to DL RS. In this paper, we present our large-scale, multistaged, hybrid RS that processes a million-scale dataset, as well as the most noteworthy parallel or/and distributed DL systems. Finally, we outline directions regarding the future evolution of our RS by adding some features and ideas from such systems.
- 딥러닝은 이미지 텍스트 추천 분야 등 다양한 영역에서 성공적으로 활용되고 있음.
- 그러나 딥러닝 기반 추천시스템은 매우 대규모 파라미터와 연산량을 가지므로 학습 비용이 높음
- 이 연구는 병렬 및 분산 딥러닝 기술을 활용 RS 연구들을 체계적으로 검토 후 대규모 인용 데이터를 이용한 학술 추천 시스템을 설계함
- 최종 목표는 추천 시스템의 정확도와 학습 효율성을 동시에 향상시키는 것임
1. Short Background
- 정보 과잉 시대에 사람들은 필요한 정보를 빠르게 구분하기 어려워 추천 시스템의 필요성 증가
- 추천 시스템은 사용자의 선호도를 기반으로 개인화 추천을 제공하여 의사 결정을 도움
- DL 기반 RS는 기존 협업 필터링보다 사용자 아이템 상호작용을 정교하게 모델링 가능
- 하지만 GPU 메모리 제약과 긴 학습시간 문제를 가져서 단일 장비에서는 비효율적
- 이를 해결하기 위해 병렬 및 분산 기술이 적용되고 있음.
2. Methods
(1) Deep Learning Systems
- Gunduz: 발화(음성) 특징셋을 평행 입력 레이어로 분기해 각 분기에서 동시에 심층 특징을 추출한 뒤 병합하는 9-층 CNN으로 파킨슨병을 분류
- Shambour: Yahoo! Movies·TripAdvisor의 다기준 평점을 딥 오토인코더(AEMC)로 학습해 입·출력 동차원 구조의 은닉 표현으로 비선형 관계를 포착하고 최신 기법 대비 예측 정확도를 향상
- Wang et al. (CSRM): 현재 세션을 RNN+어텐션으로 표현하는 IME와 이웃 세션 협업 정보를 끌어오는 OME를 병렬 모듈로 두고 게이팅 융합(GRU 기반)하여 익명 세션의 다음 아이템 예측을 개선
- Da’u et al. (ADRS): 리뷰에서 어텐티브 CNN으로 사용자·아이템 잠재 특징을 뽑고 상호 어텐션으로 세밀한 상호작용을 모델링한 뒤 예측층으로 추천 정확도를 높임
- 딥러닝 기반 RS 연구들은 병렬 CNN, Autoencoder, 세션 메모리, Attention 등 다양한 구조를 활용해 추천 품질과 개인화 수준을 향상시키고자 함.
(2) Parallel and Distributed Deep Learning Systems
- DLRM (Naumov 등, 벤치마크/구성): 거대 희소 임베딩 테이블과 소형/대형 MLP를 상호 작용시키는 RS 아키텍처로, HPC 최적화 연구에서 단일 소켓 110× 성능 향상과 64 소켓까지의 확장 효율이 보고함
- GPipe (Huang et al.): 네트워크를 레이어 구간별로 분할해 마이크로배치 파이프라이닝으로 여러 가속기에서 거의 선형적으로 속도를 높이는 파이프라인 병렬화 라이브러리를 제시하고, 이미지 분류·다국어 번역에 대규모 적용
- PyTorch Micro-batch Pipeline (Kim et al.): GPipe의 체크포인팅 기반 마이크로배치 파이프라인을 PyTorch eager 환경에 구현하여 파이프라인 경사 계산을 가능케 하고 AmoebaNet-D·U-Net 등에서 효율을 입증
- DL-RS의 대규모 학습은
- 데이터 병렬성(Data Parallelism): 샘플 단위로 분할
- 모델 병렬성(Model Parallelism): 파라미터 단위로 분할
- 파이프라인 병렬성(Pipeline Parallelism): 레이어 단위로 분할을 조합해 수행해야 함.
S
3. Results
- 실험 전반에서 병렬 및 분산 학습은 전통적인 단일 학습 방식보다 모델 수렴 속도, 예측 정확도, 자원 활용률 모두 우수
- 데이터 병렬화(Data Parallelism)는 학습 속도를 향상시키는 데 효과적이었고, 모델 병렬화(Model Parallelism)는 대규모 모델의 메모리 한계를 극복하는 데 유용
- 파이프라인 병렬화(Pipeline Parallelism)는 GPU의 처리율(Throughput)을 높여 대형 모델 학습 시 가장 높은 효율성을 보였음
- 세 방식의 결합(Hybrid Parallelism, 예: DLRM + GPipe 구조)은 속도·정확도·확장성의 균형점으로 평가
- 따라서 연구진은 병렬 및 분산 학습은 단순한 하드웨어 최적화가 아니라, 추천 모델 자체의 품질을 향상시키는 핵심 기술 요소라고 결론
- 백만 건 규모의 학술 논문 데이터를 효율적으로 처리할 수 있는 대규모 추천 시스템을 예시로 시스템 구조를 추천
- 기존의 단순 협업 필터링 기반 추천이 아니라, 클러스터링(Clustering) + 그래프 모델링(Graph Modeling) + 딥러닝(Deep Learning) 을 결합한 다단계(hybrid) 구조로 설계
단계 적용 기법 주요 기능
| 1단계 – 내용 기반 필터링 (CBF) | TF-IDF, Cosine Similarity | 논문 제목, 초록, 키워드에서 텍스트 특징을 추출하고, 주제적 유사성을 계산 |
| 2단계 – 클러스터링 및 그래프 모델링 | K-means, Elbow Method, Weighted Graph | 연구 분야(Field of Study, FoS) 정보를 기반으로 유사 논문을 군집화하고, FoS 간 공동출현(co-occurrence) 그래프 생성 |
| 3단계 – 딥러닝 기반 협업 필터링 (CATA++) | Autoencoder, Attention Mechanism | 논문 간 비선형 관계를 학습하고, 사용자의 선호 패턴을 반영해 추천 점수 예측 |

4. Conclusion
- 본 논문은 기존의 병렬·분산 딥러닝 기반 추천 시스템 연구들을 분석하고,실제 적용 사례로 대규모 학술 논문 추천 시스템(Academic RS) 을 제시
- 딥러닝 기반 RS 연구들은 CNN, Autoencoder, Attention 등 다양한 구조를 사용해 사용자와 아이템 간의 복잡한 관계를 더 잘 학습하려는 방향으로 발전
- 데이터의 양이 커질수록 학습 속도와 메모리 한계가 문제가 되므로 병렬 및 분산 학습 기법이 필수적임을 강조
- 본 연구의 사례 시스템은 클러스터링, 그래프 모델링, 딥러닝을 결합한 하이브리드 RS 구조로 설계되었으며,
AMiner 학술 데이터(약 535만 논문, 4,822만 인용 관계) 를 효율적으로 처리할 수 있음 - 특히, TF-IDF 기반의 텍스트 분석과 K-means 기반의 분야별 군집화, 그리고 CATA++ 딥러닝 모델을 조합함으로써 논문 간 유사도 계산 및 추천 정확도를 향상
- 병렬·분산 딥러닝 기술은 단순히 RS의 계산 효율성을 높이는 수준을 넘어, 대규모 데이터에서도 높은 품질의 추천을 가능하게 하는 핵심 기술임을 확인
5. Discussion
- 병렬 및 분산 딥러닝은 추천 시스템의 학습 시간 단축뿐 아니라 모델 품질 향상에도 기여함을 논의
- RS의 대규모 데이터 학습에는 세 가지 병렬화 방식이 중요하다:
- 데이터 병렬화(Data Parallelism) — 데이터를 여러 장비에 나눠 학습, 속도 향상.
- 모델 병렬화(Model Parallelism) — 큰 모델을 여러 GPU에 분할, 메모리 부담 완화.
- 파이프라인 병렬화(Pipeline Parallelism) — 레이어 단위로 병렬 처리, 자원 활용률 향상.
- 세 가지 방식을 혼합(Hybrid) 해야 가장 효율적이다. 예를 들어, DLRM 구조에서는 Embedding Table은 모델 병렬, Fully Connected Layer는 데이터 병렬, 전체 네트워크는 파이프라인 병렬로 구성
- 정량적 성능 지표(Precision, Recall, F1 등)가 상세히 제시되지 않았고, 사용자 피드백 기반의 실시간 평가가 부족
- 다양한 하드웨어를 아우르는 Heterogeneous Distributed Learning, Federated Learning 기반 추천 구조로의 확장이 필요