有偏图采样提升推荐效果

张开发

• 2026/6/6 9:51:48 • 15 分钟阅读

分享文章

有偏图采样以实现更好的相关产品推荐根据节点的连接度调整邻域大小和采样概率可将图神经网络嵌入的效用最高提升230%。作者Srinivas Virinchi2023年3月21日3分钟阅读会议WSDM 2023相关出版物BLADE基于有偏邻域采样的有向图神经网络正文电子商务网站经常推荐与客户查询相关的产品——例如为购买手机的用户推荐手机壳。产品关系信息通常用带有有向边的图来表示这意味着边所代表的关系可以仅单向流动例如向购买手机的用户推荐手机壳是有意义的但向购买手机壳的用户推荐手机可能并不需要。在去年发表于欧洲机器学习会议ECML的一篇论文中我们展示了图神经网络可以通过为每个图节点使用双重嵌入向量表示来捕捉产品相似性图的方向性一个嵌入表示该节点作为推荐源另一个嵌入表示该节点作为推荐目标。[示意图中心是一个图显示手机与相关产品如手机壳、电源适配器、屏幕保护膜之间的关系。左侧是传统图神经网络GNN中节点A的嵌入向量表示示意图右侧是BLADE中节点A作为推荐目标A-t和推荐源A-s的双重嵌入。]在今年的ACM网络搜索与数据挖掘会议WSDM上我们扩展了这项工作提出了一种新的有向图节点嵌入方法。具体来说我们根据图节点的度即该节点与其他节点的连接数量来定制嵌入过程。这使得我们能够利用高度连接节点的中心性同时扩大范围以收集稀疏连接节点的信息。[相关内容使用图神经网络推荐相关产品——每个节点的双重嵌入既作为源又作为目标和一种新颖的损失函数比先前方法提升了30%到160%的性能。]在实验中我们将新模型的性能与三个最先进的先前模型在六个不同的公共数据集上进行了比较每个查询分别推荐不同数量的产品5、10和20个。我们的模型全面优于其他模型根据命中率和平均倒数秩的衡量其与第二佳模型相比的优势范围从4%到230%。图神经网络图神经网络GNN是以图为输入并为每个图节点输出嵌入的神经网络这些嵌入不仅捕捉该节点的信息还捕捉其与其他节点关系的信息。这些嵌入可用于多种任务如链接预测、异常检测——或者在我们的案例中用于相关产品推荐。GNN嵌入是迭代的首先网络根据每个节点关联的信息这里是产品信息对其进行嵌入然后根据节点自身的第一轮嵌入及其连接节点的嵌入再次对每个节点进行嵌入。这个过程可以无限重复将嵌入节点的邻域扩展到两跳、三跳——直至整个图的大小。[相关内容改进互补产品推荐——新的建模方法使推荐准确率平均提高7%。]对于有许多密集连接高度数节点的图将所有邻居节点都纳入嵌入可能不切实际。在这种情况下GNN通常会在嵌入过程的每次迭代中对邻居进行采样。在典型的GNN实现中每个节点的邻域大小即纳入其嵌入的跳数是固定的通常为一跳或两跳。通常节点采样也是均匀的给定节点的每个邻居都有相等的概率被纳入该节点的嵌入。这种方法有其局限性。对于一个高度数节点一跳或两跳嵌入可能就足够了直接邻域包含了足够的信息来表征该节点。但对于一个低度数节点可能需要沿着更长的连接链来收集足够的信息以产生有用的嵌入。同样如果要嵌入的节点同时连接到一个高度数节点和一个低度数节点采样高度数节点通常更有成效因为它的嵌入了更多的邻域信息。因此均匀采样错失了丰富节点嵌入的机会。我们的方法称为BLADE有偏局部自适应方向感知解决了这两个局限性。它从我们之前提出的框架开始该框架为每个节点生成源嵌入和目标嵌入。[相关内容两篇亚马逊论文获AAAI最佳论文奖亚军——研究如何在搜索空间巨大时构建推荐算法以及如何在COVID-19文献上执行自然语言搜索。]然而其嵌入的范围会根据被嵌入节点的入度入边方向上的度数而变化。在论文中我们展示了如何使用幂律分布来计算邻域大小该幂律分布考虑了节点的入度和图中所有节点的最小入度。我们还展示了如何通过考虑图中所有节点的入度来估计幂律系数。我们还提供了一种机制通过在嵌入过程中考虑节点的出度和入度来加权采样节点邻居的概率。除了在六个公共数据集上测试我们的方法外我们还在两个大型内部数据集上进行了测试。在这些数据集上我们的模型带来的改进同样显著与第二佳模型相比性能提升范围从40%到214%。更多细节可以在我们的论文中找到。研究领域搜索与信息检索标签图神经网络GNN、WSDM、推荐系统会议WSDM 2023相关出版物BLADE基于有偏邻域采样的有向图神经网络关于作者Srinivas Virinchi是某机构印度的应用科学家。FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

有偏图采样提升推荐效果

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

Flutter-OH（鸿蒙版Flutter）环境配置常见问题及解决方案总结

别再死记命令了！对比思科Cisco Packet Tracer和华为ENSP的链路聚合，搞懂原理才是关键

AI同事抑郁症诊断报告：大模型存在主义危机爆发

AI 驱动网络钓鱼主导数据泄露的机理、风险与防御体系研究 —— 基于阿联酋预警事件的实证分析

别再只盯着原始EEG信号了！用Python+PyTorch Geometric实战CR-GCN，搞定脑电情感识别

从CH341驱动入手，彻底搞懂Linux USB转串口驱动的三层架构（Serial/TTY/USB）

音视频-播放原理基础知识SDL

智能保险箱WiFi配网总失败？保姆级排查指南（附双频路由器设置）

解放Windows窗口限制：WindowResizer终极使用指南

三步打造完美Jellyfin番剧库：Bangumi插件实战指南

PHP FTP：深度解析与最佳实践

python sendgrid