BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

用MongoDB和Spark实现电影推荐

| 作者 张天雷 关注 4 他的粉丝 发布于 2014年12月24日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

MovieWeb是一个电影相关的网站,它提供的功能包括搜索电影信息、排名或者电影明星资料等。它拥有10000部电影的信息,70000个用户,和超过1千万的电影评分。借用它的搜索目录,用户可以通过类型分类、排名和片名浏览等方式检索电影。但如何解决电影智能推荐的问题呢?近日MongoDB分享了他们结合Hadoop的经验

MovieWeb基于Python。在构建电影推荐系统时,使用flask和PyMongo读取数据,应用Python网页应用浏览电影和评分推荐;使用Spark应用来运算处理实际的推荐,并用MLLib实现协同过滤;然后搜集电影评分的数据,并创建和训练数据模型,而后处理用户和电影的数据集,再反向应用训练过的模型来尝试预测电影排名。以上完成后,将预测结果写入MongoDB,接下来那些网页应用就可以将预测的排名展示出来,再收取新一轮的预测。其中用到的工具有Apache Hadoop 2.3.0(HDFS和YARN),Spark1.0和用于管理数据的MongoDB。

MovieWeb的工作流程:

以BSON的格式快速建立数据库;在HDFS中储存该BSON;将BSON读取到Spark应用中;用已有的排名评分训练模型;建立“用户—影片”对;为所有“用户—影片”对预测排名;将预测结果写入MongoDB采集库;网页应用展示推荐;每周重复一次以上工作。这不是一项MapReduce的工作,其代码量很少,加上引入语法基本上也只需要150行左右的代码。

Spark的环境建立和架构建立的执行语句如下:

$ export SPARK_JAR=spark-assembly-1.0.0-hadoop2.3.0.jar
$ Export HADOOP_CONF_DIR=/usr/local/Hadoop/etc/Hadoop
$ bin/spark-submit
 --master yarn-cluster
 --class com.mongodb.hadoop.demo.Recommender demo-1.0.jar
 --jars mongo-java-2.12.2.jar,mongo-hadoop-1.2.1.jar
 --driver-memory 1G
 --executor-memory 2G
 --num-executors 4

功能实现之后的推荐系统中,“您可能喜欢的影片”一栏,那些根据预测推荐的影片是基于用户正在浏览的影片的第一个所属类别。例如影片《非常嫌疑犯》,第一类别为“犯罪”,则浏览该片时所推荐的电影也都属于这一类别。当用户表现出需求时,系统就会自动为用户过滤类别,再将筛选出来的结果进入给用户的推荐广播之中。


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT