BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

互联网信息获取技术实践与云端爬虫养成记
录制于:

| 作者 费良宏 关注 4 他的粉丝 发布于 2015年11月12日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
43:11

概要
在当前这个大数据泛滥的时代里,很多人在热衷于掌握大数据管理和处理时却忽略了其中的关键 - 数据本身。全球互联网数据的总存储量已经远远超过10万亿GB的规模,因此在奢谈大数据之前是否应该将目光转移到一个古老而又现实的话题——互联网大数据的获取呢?抓取网站数据的程序被称之为“爬虫”,而想要开发出满足今天日益复杂的网络环境的爬虫可谓难之又难。本次分享将主要介绍如何开发出一个好爬虫,其中涉及到协议优化、网络对抗、并行处理、数据队列等因素,除此之外演讲中还将谈到Python代码、Scrapy架构以及AWS基础设施等相关内容。

个人简介

费良宏,现担任亚马逊AWS首席云计算技术顾问一职,目前专注于云计算以及互联网等技术领域,致力于帮助中国的开发者构建基于云计算的新一代互联网应用。费良宏拥有超过20年时间的IT行业以及软件开发领域工作经验,在此之前曾经任职于Microsoft、Apple等知名企业任职架构师、技术顾问等职务,并参与过多个大型软件项目的设计、开发与项目管理。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT