深度学习推荐算法中user-id和item-id的作用

1个回答

苏宇晴

2026-03-01 18:10

阿里云

用户ID和项目ID作为强记忆型特征，是否纳入模型训练需具体分析，不能一概而论。至少应考虑业务场景特性以及在模型中的使用方式这两个方面。在实际业务场景中，用户行为和物品受欢迎程度通常呈现幂律分布（即长尾分布），所示。少数头部用户和物品占据了样本中的绝大部分比例，其对应的ID嵌入向量可以得到充分训练。然而，大量尾部用户和物品在样本中出现频率极低，导致它们的ID嵌入向量在模型训练完成后仅经历少量参数更新，性能几乎与随机初始化状态相当。这种情况下，默认推荐算法往往难以有效应对中长尾用户和物品，例如冷启动用户或新上线物品，对这些场景的支持较为薄弱。

将user_id和item_id直接作为特征加入模型，利用用户行为日志训练的推荐系统会逐渐偏向热门物品。这种马太效应不仅减少中长尾物品的曝光机会，还会降低用户的整体满意度。在对精排模型的特征重要度进行分析后发现，高重要度的特征大多集中于少量记忆性特征，而大量中长尾特征的重要度较低。记忆性特征是指缺乏泛化能力的特征，例如用户ID、物品ID或用户在过去某段时间内对特定物品的行为统计。这类特征无法提供可迁移至其他物品的知识。传统模型结构容易导致特征重要度呈现长尾分布，从而使模型对物品的偏好也表现出长尾效应。总体而言，在长尾分布越严重的场景下，越不建议直接将用户ID（user_id）和项目ID（item_id）作为特征使用（当然也不是绝对不能用，特殊模型结构可以例外，详见下文）。这里的长尾分布是指分别针对用户和项目分析的情况。有些业务场景中，用户维度可能存在严重的长尾分布，而项目维度的长尾现象却不明显。在这种情况下，可以考虑直接将项目ID（item_id）作为特征输入模型进行学习。换句话说：如何添加user_id和item_id特征？它们在模型结构中的位置选择也很有讲究。最后做个总结：在选择特征和确定特征使用方式时，模型结构同样是不可忽略的关键因素。因此，能够高效、灵活地构建所需的模型结构就显得尤为重要。在此，向大家推荐阿里云机器学习平台团队开源的推荐算法训练框架 EasyRec（GitHub - alibaba/EasyRec: A framework for large scale recommendation aLGorithms）。新版本的 EasyRec 支持以组件化的方式，像拼搭积木一样自由配置所需的模型结构，并允许用户自定义组件，从而方便地实现个性化的模型设计。这种灵活的构建方式为模型开发提供了极大便利。更多详情可参考相关文档资料。。欢迎加入推荐算法钉钉群：32260796，一起交流探讨推荐算法相关问题！

举报有用（0）分享收藏

深度学习推荐算法中user-id和item-id的作用

1个回答

苏宇晴

热门话题

相关问题