正负采样
正负样本正样本正样本:曝光而且有点击的用户-物品二元组(用户对物品感兴趣)问题:少部分物品占据大部分点击,导致正样本大多是热门物品解决方案:过采样冷门物品,或降采样热门物品 过采样 up-sampling 让一个样本出现多次 降采样 down-sa...
正负样本正样本正样本:曝光而且有点击的用户-物品二元组(用户对物品感兴趣)问题:少部分物品占据大部分点击,导致正样本大多是热门物品解决方案:过采样冷门物品,或降采样热门物品 过采样 up-sampling 让一个样本出现多次 降采样 down-sa...
离散特征何为离散特征?性别:男、女国籍:中国、美国…英文单词:常见的英文单词有几万个物品ID:小红书有几亿篇笔记,每篇笔记都有一个ID用户ID:小红书有几亿个用户,每个用户有一个ID 离散特征的处理 建立字典:把类别映射成序号 中国->1...
传统ItemCF的局限性热门物品偏差:热门物品容易频繁共现,导致相似度虚高,比如书店里《哈利波特》和《新华字典》被大量客户购买,但二者并无实际关联 稀疏性问题:用户-物品交互数据稀疏时,传统相似度(如余弦)虽然可以用,但是计算不稳定。 Swing 的...
对ItemCF算法的整体理解请简述ItemCF的核心思想及其主要步骤 核心思想:当很多用户同时喜欢两个物品时,认为这两个物品具有较高的相似度。 计算物品相似度:基于用户-物品交互记录(如点击、评分等)计算所有物品之间的相似度。 召回阶段逻辑 找到用...