BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Pinterest使用MemSQL和Spark Streaming进行实时数据分析

| 作者 Srini Penchikala 关注 38 他的粉丝 ,译者 楚晗 关注 0 他的粉丝 发布于 2015年4月20日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

Pinterest是一家提供可视化书签工具的公司,这种工具可以帮助人们发现并保存有创意的想法,目前这家公司正使用实时数据分析来达到以数据驱动决策的目的。实验中使用了MemSQLSpark这样的技术,用以分析来自全球的用户实时行为信息。

通过MemSQL和Spark,Pinterest创建了一条数据管道。这条管道通过Apache Kafka 使数据流入MemSQL,并且通过Spark Streaming API向Spark输入数据(译者注:数据流向是Kafka -> Spark -> MemSQL ,见图1)。这个方案对了解全球用户如何使用Pins(译者注:即可视化书签)提供了实时性的洞察。这有助于Pinterest成为一个更好的推荐引擎,它可以显示相关的Pins,人们会在不同的场景下来使用这种服务,比如为购物、去某个地方和烹饪食谱做个计划。

Pin的行为数据(engagement data)先被送入到Kafka主题(Topic)中,接着它被Spark streaming作业消耗掉。作业中每个Pin会进行过滤,然后加上其地理位置和Pin的类别来充实其信息。接着再通过MemSQL Spark 连接器(MemSQL Spark Connector)将充实后的信息持久化到MemSQL数据库中以提供查询服务。MemSQL Spark 连接器提供了Spark读写MemSQL数据库的工具,它使用MemSQL RDD(Resilient Distributed Dataset)从MemSQL读取数据。

综上所述,这个方案框架可以支持实时地收集、存储和处理用户行为数据。同时,它也可以帮助获得下面这些能力:

  • 高性能事件日志:即使用一个叫Singer的代理来收集事件日志,然后把它们运送到集中的数据仓库中。
  • 可靠的日志传输和存储:即通过Apache kafka和一个叫Secor的持久化服务来可靠将这些事件写入到长期数据存储Amazon S3中。Secor在设计上克服了S3的弱最终一致性模型(weak eventual consistency model)的缺陷,没有数据丢失而且支持水平扩展和可选的基于日期的数据分片。
  • 基于实时数据的快速查询:即在实时事件到达时就对它们执行SQL查询。

查看英文原文Real-time Data Analytics at Pinterest using MemSQL and Spark Streaming

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT