BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

rss
他的粉丝

雅虎开源语义数据Web爬虫:Anthelion

作者 孙镜涛 关注 2 他的粉丝 发布于  2015年12月26日 1

整个Web世界正在发生剧烈的转变,包含语义注解的Web页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo创建了Anthelion项目,一个旨在爬取语义数据的Nutch插件,最近,该项目已在GitHub上开源。

他的粉丝

Aragog:Pinterest的爬虫框架

作者 谢丽 关注 10 他的粉丝 发布于  2015年12月1日

为了在Pin上展示有用的信息(如产品价格、位置数据)、做出更好的推荐及打击垃圾邮件,Pinterest需要充分利用Pin链接的Web页面中的内容。为此,他们构建了爬虫框架Aragog,用于处理数以十亿计的URL。近日,Pinterest核心基础设施团队工程师Varun Sharma撰文介绍了该框架。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT