BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

百度第三代 Spider 背后的万亿量级实时数据处理系统
录制于:

| 作者 颜世光 关注 1 他的粉丝 发布于 2017年2月9日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
37:07

概要
Spider系统是百度搜索引擎的主要数据来源,每天处理着数万亿次的链接分析,和数百亿次的互联网资源采集。在过去,这其中多数工作由MapReduce系统完成,处理延时达到天级。从2014年开始,我们对Spider系统进行了大规模重构,以搜索结果更新延迟从周级缩短到分钟级为目标,设计实现了海量实时数据库Tera。以此为基础,构建了每天实时处理几万亿链接与网页更新的百度第三代Spider系统。区别于上一代系统,新系统的核心流程全部实时化,从互联网上出现一篇新网页,到基于历史分析与机器学习快速发现链接,到基于链接价值的抓取调度,再到对网页进行分类、筛选每个步骤都在几秒钟内完整,以保证新网页能在分钟级更新到搜索结果中。

个人简介

颜世光,百度搜索基础架构团队技术负责人。2011年加入百度,从事Spider系统架构相关研发,期间主持了百度第三代Spider系统的设计与实现。 当前主要研究方向为大规模分布式系统,是百度海量数据库Tera、百度文件系统BFS和集群操作系统Galaxy的主要作者。 热衷开源,先后推动了百度多个重量级系统对外开源。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT