
阿里云
将user_id和item_id直接作为特征加入模型,利用用户行为日志训练的推荐系统会逐渐偏向热门物品。这种马太效应不仅减少中长尾物品的曝光机会,还会降低用户的整体满意度。在对精排模型的特征重要度进行分析后发现,高重要度的特征大多集中于少量记忆性特征,而大量中长尾特征的重要度较低。记忆性特征是指缺乏泛化能力的特征,例如用户ID、物品ID或用户在过去某段时间内对特定物品的行为统计。这类特征无法提供可迁移至其他物品的知识。传统模型结构容易导致特征重要度呈现长尾分布,从而使模型对物品的偏好也表现出长尾效应。总体而言,在长尾分布越严重的场景下,越不建议直接将用户ID(user_id)和项目ID(item_id)作为特征使用(当然也不是绝对不能用,特殊模型结构可以例外,详见下文)。这里的长尾分布是指分别针对用户和项目分析的情况。有些业务场景中,用户维度可能存在严重的长尾分布,而项目维度的长尾现象却不明显。在这种情况下,可以考虑直接将项目ID(item_id)作为特征输入模型进行学习。换句话说:如何添加user_id和item_id特征?它们在模型结构中的位置选择也很有讲究。最后做个总结:在选择特征和确定特征使用方式时,模型结构同样是不可忽略的关键因素。因此,能够高效、灵活地构建所需的模型结构就显得尤为重要。在此,向大家推荐阿里云机器学习平台团队开源的推荐算法训练框架 EasyRec(GitHub - alibaba/EasyRec: A framework for large scale recommendation aLGorithms)。新版本的 EasyRec 支持以组件化的方式,像拼搭积木一样自由配置所需的模型结构,并允许用户自定义组件,从而方便地实现个性化的模型设计。这种灵活的构建方式为模型开发提供了极大便利。更多详情可参考相关文档资料。 。欢迎加入推荐算法钉钉群:32260796,一起交流探讨推荐算法相关问题!
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号