解析智能推荐系统开发中十大关键要素

陈运文 发表于 2013-05-14 16:56:30

亚马逊的CEO Jeff Bezos曾经说过，他的梦想是“如果我有100万个用户，我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想，即通过数据挖掘技术，为每一个用户实现个性化的推荐结果，让每个用户更便捷的获取信息。为了实现这个梦想，过去十余年间，无数顶尖技术专家和工程师投身于推荐算法和技术的研究与应用中，很多优秀的方法被提出，很多技术难题被攻克。在今天的互联网应用中，越来越多“聪明”的推荐系统被开发出来，并被广大用户信赖和使用。

解析智能推荐系统开发中十大关键要素

智能推荐系统充分运用了机器学习、数据挖掘、搜索引擎、自然语言处理等相关领域的技术。但推荐系统并不神秘，事实上，推荐在我们身边无处不在。对广大软件开发工程师们来说，能够投身于推荐系统的研发，是一件既有趣又充满挑战的工作。想要成功的开发一套效果良好的推荐系统，有一系列值得重视的关键点，文本对此进行了总结，具体列举如下。

1 充分运用显式\隐式反馈数据

数据是一切推荐系统的基础。良好的推荐效果一定是来自于丰富而准确的数据。这些数据既包括了用户（user）和待推荐物品（item）相关的基础信息（注：item和具体的推荐场景相关，可以是商品、影片、音乐、新闻等，如果是进行好友推荐，那么item也可以是user本身），另一方面，user 和item之间在网站或应用中发生的用户行为和关系数据也非常重要。因为这些用户行为和关系数据能真实的反映每个用户的偏好和习惯。采集这些基础数据，并做好清洗和预处理，是整个推荐系统的基石。

用户行为数据，又可细分为两部分：显式反馈数据（explicit feedbacks）和隐式反馈（implicit feedbacks）数据。显式反馈是指能明确表达用户好恶的行为数据，例如用户对某商品的购买、收-藏、评分等数据。与之相反，隐式反馈数据是指无法直接体现用户偏好的行为，例如用户在网站中的点击、浏览、停留、跳转、关闭等行为。通过挖掘显式反馈数据能明确把握用户的偏好，但在很多应用中，显式反馈数据通常很稀疏，导致对用户偏好的挖掘无法深入。这个问题在一些刚上线的应用、或者偏冷门的物品或用户身上反映尤其明显。在这种情况下，用户的隐式反馈数据就显得尤为重要。因为虽然用户在网站中的点击等行为很庞杂，但其中蕴藏了大量信息。在2006-2008年间进行的国际著名推荐竞赛Netflix Prize中，冠军队成员Yehuda Koren发现将用户租用影片的记录，转换为特征向量注入奇异值分解算法（SVD）用于影响用户兴趣向量，能够很好的提高推荐准确率。

基础数据的预处理对推荐效果的提升也非常有帮助。以2012年的ACM KDD-Cup（国际数据挖掘竞赛）为例，训练样本中，负样本的数量居然达到了总样本数量的92.82%，但是通过仔细分析这些负样本，发现其中有大量样本存在噪音，通过一系列的Session分析和筛选方法，从中保留了11.2%的样本进行后续推荐挖掘，不仅成功提高了推荐精度，而且大大减少了运算量。所以充分利用各类显式和隐式数据，并做好数据的预处理，保证输入数据的质量，是第一个关键点。

2 多种方法的融合

经过多年的发展，很多种推荐算法被提出来。常见的推荐方法，从大类上分，有基于历史行为（Memory-based）的方法、基于模型（Model-based）的方法、基于内容（Content-based）方法等。在Memory-based方法这个方向，又可进一步细分为基于物品的协同过滤算法（item-based collaborative filtering）、基于用户的协同过滤算法（user-based collaborative filtering）、关联规则（association rule）等；Model-based方法常用的包括Random Walk、pLSA、SVD、SVD++等。每种方法在具体实施时，针对不同的问题又有很多不同的实现方案，例如在基于物品的协同过滤算法（item- based collaborative filtering）中，item之间相似度计算公式（Similarity）也可能有很多很多种变化。

在系统推荐的结果以外，还有一类传统的方式是通过专家进行推荐。这些专家可以是一些有经验的编辑，也可以是社区中意见领袖等。这些领域专家推荐的结果，在很多实际应用中，可以作为算法推荐结果的有益补充。

事实上，在实践中并没有任何一种方法在实践中始终占据压倒性的优势，它们各有千秋，分别有其各自合适的应用场景，因此因地制宜根据不同的场景，挑选不同的方法，并有机的结合起来，能让推荐效果得到极大的提升。常见的融合方法包括Restricted Boltzmann Machines（RBM）， Gradient Boosted Decision Trees（GBDT），Logistic Regression（LR）等，这方面历次推荐竞赛中有很多相关文章，可以看到为了提升推荐效果，将不同算法的结果能够取长补短，各自发挥价值，是极为有效的。

来源：互联网分析

上一篇：Windows Azure涉足云计算教学与科..

下一篇：云计算如何影响数字化营销？

此文关键字：云计算云应用