EuroSys'22-Fleche:an efficient GPU embedding cache for personalized recommendations
一、背景
DLRM由 稀疏的嵌入层 和密集的全连接层 组成
由嵌入表的不规则访问和稀疏访问导致的CPU端的DRAM带宽稀缺已经成为DLRM的主要性能瓶颈
现有缓存方案(static per-table cache structure)没有很好地利用GPU端cache。该缓存方案为每个嵌入表维护一
...