亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技 术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的 研究与应用中,很多优秀的方法被提出,很多技术难题被攻克。在今天的互联网应用中,越来越多“聪明”的推荐系统被开发出来,并被广大用户信赖和使用。

解析智能推荐系统开发中十大关键要素

智能推荐系统充分运用了机器学习、数据挖掘、搜索引擎、自然语言处理等相关领域的技术。但推荐系统并不神秘,事实上,推荐在我们身边无处不在。对广 大软件开发工程师们来说,能够投身于推荐系统的研发,是一件既有趣又充满挑战的工作。想要成功的开发一套效果良好的推荐系统,有一系列值得重视的关键点, 文本对此进行了总结,具体列举如下。

1 充分运用显式\隐式反馈数据

数据是一切推荐系统的基础。良好的推荐效果一定是来自于丰富而准确的数据。这些数据既包括了用户(user)和待推荐物品(item)相关的基础信 息(注:item和具体的推荐场景相关,可以是商品、影片、音乐、新闻等,如果是进行好友推荐,那么item也可以是user本身),另一方面,user 和item之间在网站或应用中发生的用户行为和关系数据也非常重要。因为这些用户行为和关系数据能真实的反映每个用户的偏好和习惯。采集这些基础数据,并 做好清洗和预处理,是整个推荐系统的基石。

用户行为数据,又可细分为两部分:显式反馈数据(explicit feedbacks)和隐式反馈(implicit feedbacks)数据。显式反馈是指能明确表达用户好恶的行为数据,例如用户对某商品的购买、收-藏、评分等数据。与之相反,隐式反馈数据是指无法直 接体现用户偏好的行为,例如用户在网站中的点击、浏览、停留、跳转、关闭等行为。通过挖掘显式反馈数据能明确把握用户的偏好,但在很多应用中,显式反馈数 据通常很稀疏,导致对用户偏好的挖掘无法深入。这个问题在一些刚上线的应用、或者偏冷门的物品或用户身上反映尤其明显。在这种情况下,用户的隐式反馈数据 就显得尤为重要。因为虽然用户在网站中的点击等行为很庞杂,但其中蕴藏了大量信息。在2006-2008年间进行的国际著名推荐竞赛Netflix Prize中,冠军队成员Yehuda Koren发现将用户租用影片的记录,转换为特征向量注入奇异值分解算法(SVD)用于影响用户兴趣向量,能够很好的提高推荐准确率。

基础数据的预处理对推荐效果的提升也非常有帮助。以2012年的ACM KDD-Cup(国际数据挖掘竞赛)为例,训练样本中,负样本的数量居然达到了总样本数量的92.82%,但是通过仔细分析这些负样本,发现其中有大量样 本存在噪音,通过一系列的Session分析和筛选方法,从中保留了11.2%的样本进行后续推荐挖掘,不仅成功提高了推荐精度,而且大大减少了运算量。 所以充分利用各类显式和隐式数据,并做好数据的预处理,保证输入数据的质量,是第一个关键点。

2 多种方法的融合

经过多年的发展,很多种推荐算法被提出来。常见的推荐方法,从大类上分,有基于历史行为(Memory-based)的方法、基于模型 (Model-based)的方法、基于内容(Content-based)方法等。在Memory-based方法这个方向,又可进一步细分为基于物品 的协同过滤算法(item-based collaborative filtering)、基于用户的协同过滤算法(user-based collaborative filtering)、关联规则(association rule)等;Model-based方法常用的包括Random Walk、pLSA、SVD、SVD++等。每种方法在具体实施时,针对不同的问题又有很多不同的实现方案,例如在基于物品的协同过滤算法(item- based collaborative filtering)中,item之间相似度计算公式(Similarity)也可能有很多很多种变化。

在系统推荐的结果以外,还有一类传统的方式是通过专家进行推荐。这些专家可以是一些有经验的编辑,也可以是社区中意见领袖等。这些领域专家推荐的结果,在很多实际应用中,可以作为算法推荐结果的有益补充。

事实上,在实践中并没有任何一种方法在实践中始终占据压倒性的优势,它们各有千秋,分别有其各自合适的应用场景,因此因地制宜根据不同的场景,挑选 不同的方法,并有机的结合起来,能让推荐效果得到极大的提升。常见的融合方法包括Restricted Boltzmann Machines(RBM), Gradient Boosted Decision Trees(GBDT),Logistic Regression(LR)等,这方面历次推荐竞赛中有很多相关文章,可以看到为了提升推荐效果,将不同算法的结果能够取长补短,各自发挥价值,是极为 有效的。



来源:互联网分析
全国咨询热线:0769-22321006 零风险购买软件 零风险购买软件 网上在线咨询 关闭
0769-22321006