深度学习推荐算法中user-id和item-id的作用

1个回答

写回答

苏宇晴

2026-03-01 18:10

+ 关注

阿里云
阿里云

用户ID和项目ID作为强记忆型特征,是否纳入模型训练需具体分析,不能一概而论。至少应考虑业务场景特性以及在模型中的使用方式这两个方面。在实际业务场景中,用户行为和物品受欢迎程度通常呈现幂律分布(即长尾分布),所示。少数头部用户和物品占据了样本中的绝大部分比例,其对应的ID嵌入向量可以得到充分训练。然而,大量尾部用户和物品在样本中出现频率极低,导致它们的ID嵌入向量在模型训练完成后仅经历少量参数更新,性能几乎与随机初始化状态相当。这种情况下,默认推荐算法往往难以有效应对中长尾用户和物品,例如冷启动用户或新上线物品,对这些场景的支持较为薄弱。

将user_id和item_id直接作为特征加入模型,利用用户行为日志训练的推荐系统会逐渐偏向热门物品。这种马太效应不仅减少中长尾物品的曝光机会,还会降低用户的整体满意度。在对精排模型的特征重要度进行分析后发现,高重要度的特征大多集中于少量记忆性特征,而大量中长尾特征的重要度较低。记忆性特征是指缺乏泛化能力的特征,例如用户ID、物品ID或用户在过去某段时间内对特定物品的行为统计。这类特征无法提供可迁移至其他物品的知识。传统模型结构容易导致特征重要度呈现长尾分布,从而使模型对物品的偏好也表现出长尾效应。总体而言,在长尾分布越严重的场景下,越不建议直接将用户ID(user_id)和项目ID(item_id)作为特征使用(当然也不是绝对不能用,特殊模型结构可以例外,详见下文)。这里的长尾分布是指分别针对用户和项目分析的情况。有些业务场景中,用户维度可能存在严重的长尾分布,而项目维度的长尾现象却不明显。在这种情况下,可以考虑直接将项目ID(item_id)作为特征输入模型进行学习。换句话说:如何添加user_id和item_id特征?它们在模型结构中的位置选择也很有讲究。最后做个总结:在选择特征和确定特征使用方式时,模型结构同样是不可忽略的关键因素。因此,能够高效、灵活地构建所需的模型结构就显得尤为重要。在此,向大家推荐阿里云机器学习平台团队开源的推荐算法训练框架 EasyRec(GitHub - alibaba/EasyRec: A framework for large scale recommendation aLGorithms)。新版本的 EasyRec 支持以组件化的方式,像拼搭积木一样自由配置所需的模型结构,并允许用户自定义组件,从而方便地实现个性化的模型设计。这种灵活的构建方式为模型开发提供了极大便利。更多详情可参考相关文档资料。 。欢迎加入推荐算法钉钉群:32260796,一起交流探讨推荐算法相关问题!

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号