BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

陈钢:生物信息行业发展得比IT互联网还惊人

| 作者 包研 关注 0 他的粉丝 发布于 2014年3月8日. 估计阅读时间: 11 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

二十一世纪将迎来生物技术的时代,但是没有谁能准确预测这一行业何时迎来爆发。在云计算、大数据等IT技术的支撑,生物技术得到快速发展。InfoQ专访了华大科技云平台副总监陈钢,同时作为QCon北京2014大会《大数据处理与大数据应用》专题的讲师,陈钢将会分享数据分析技术如何在医疗健康领域发挥巨大作用。以下为专访全文:

InfoQ:陈钢你好,向InfoQ的读者和QCon的听众介绍下自己吧。

陈钢:大家好,我是陈钢。2012年毕业于中南大学计算机系。之后一直深圳华大基因工作,主要从事生物数据分析和相关技术平台搭建相关的工作。

InfoQ:你是什么时候开始学习编程的,自己写的第一个程序是什么?

陈钢:最早是读初中的时候写过很简单的Basic程序,后来高中的时候学习过Visual Basic和文曲星上的编程。系统学习编程知识是在国防科大读大学的时候了。

InfoQ:你在国防科技大学读的专业是光电工程,这似乎与你现在的研究方向毫无关系。有趣的是,本科毕业后,你选择了中南大学计算机专业。读硕士期间,你还在清华大学生物信息学暑期学校学习。本科毕业后为什么选择计算机和生物信息专业?

陈钢:众所周知,国防科大的计算机专业非常强,其实光学工程和电子通讯方面的专业也很强,对学生要求很高。学到高年级的时候,我发现我学习相关的专业课程非常费力了,但当时对计算机方面的东西很感兴趣。本科阶段主要的计算机课程我都是课代表,大四的时候偶尔跑去计算机专业蹭课。稍作纠结后就选择继续攻读计算机专业了。为了提高考研的成功率,我选择了相对比较好考的中南大学计算机系。中南大学计算机系的整体实力跟国防科大相比有些差距,但我很幸运地遇到了几位很好的导师。

我最早遇到的导师是陈建二老师,他当时在中南大学有参数计算和生物信息两个研究组。他给我介绍了两个研究方向的基本情况,我其实听得似懂非懂。但觉着生物信息是个跨学科的方向,觉着比较有意思,就选择了这个方向。陈建二老师同时也把中南大学的王建新老师介绍给我。陈建二老师不在国内的时候,就是王建新老师指导我的工作。

那个时候对生物信息学不懂,于是就找各种机会学习。清华大学的这个生物信息暑期班是教育部和国家自然科学基金委资助的,当时在全国选了100多个研究生参加。现在这个暑期班上的同学还有很多工作在国内外的生物信息领域,非常活跃。除了清华的这个暑期班,我还参加过巴斯德研究院和香港大学在香港举办的一个EMBO资助的培训班,获益很多。去年在EMBO的资助下,华大基因在深圳也举办了大陆第一个这样的培训班。因为感激EMBO曾给予的资助,所以我很积极的参与了组织和教学工作。

读了两年硕士,导师就建议直接转读博士学位了。后来潘毅老师也到中南大学指导我们的工作,他在生物信息领域的经验进一步拓展了我对这个领域的认识。

InfoQ:在加入华大基因前,你在思博奥科、中南大学和德克萨斯大学医学部Andrzej的实验室工作过,谈谈这段经历。

陈钢:思博奥科是之前提到清华大学暑期班的一个同学创办的生物信息公司。研究生读到高年级后,一方面是经济原因,一方面也是想了解产业界生物信息的状况,所以兼职做了一些生物信息的项目。

中南大学的工作主要是管理学院的一个小型的HP集群,这为我熟悉科学计算服务器的运维积累了一些经验。

去到美国学习则是得益于国家留学基金委的资助。这个申请经历很有意思。在通过基本的审批后,我就到Linkedin上相关的group去发消息,说我得到了一些资助,要去美国访问一年,有没有这方面的PI(Principal Investigator,科研项目负责人)需要人?Andrzej发了邮件给我,还主动提供了一些资助。于是我就去了。那一年在美国涨了很多见识,也做了一些很有意思的工作。

InfoQ:你在博客上说:“每一个跟我接触过的猎头都建议我不要来华大,但我还是来了。对错我不知道,但至少现在觉得这里是个符合我性格和喜好的地方”。现在看来,选择华大基因是多么有远见的,但当时还是很纠结的吧?

陈钢:哈哈,我依然不能确定这是不是一个很有远见的选择。这个领域发展得比IT和互联网还惊人,我觉得任何人都很难做到有远见。

当时猎头的建议倒不是我纠结的地方,导师和家人建议我争取留校当老师倒让我很纠结。要知道,国内高校的博士生,所谓土博,要直接进入重点大学任教是很不容易的。当时张饶学院士到中南大学任校长,让人对中南大学的计算机学科抱以很高的期望。确实纠结了很久,最终在我夫人的支持下,还是觉得到外面去看看,在学校呆得太久了。

当然,当时华大基因研究院的副院长,现在华大科技的CEO李英睿同学的热情忽悠也是重要原因。

InfoQ:你折腾过各种开发工具和语言,做技术书籍翻译,还在Github上贡献,你怎么做到精力如此旺盛?

陈钢:我精力不旺盛,我总是处于睡不够的状态。最早做技术书籍翻译是为了在读书时自己养活自己,后来这变成了我的学习手段之一。Github上贡献非常不上档次,就不说了。

InfoQ:你的博客上列出了一些R语言和Linux大牛。包括他们在内,谁对你的影响最大?

陈钢:还是家人对我的影响大一些。如果说科研方面的话,读研期间的几位导师在研究方法和态度上对我产生了很大的影响。

InfoQ:你在设计软件架构时,有自己一套方法或原则吗?

陈钢:我并没有大型软件的架构设计经验,方法和原则就谈不上了。平时干活,坚持得比较多的原则是不重新发明轮子,仅此而已。

InfoQ:你在《程序员》杂志的文章《生命科学中的大数据》解释了为什么生命科学越来越成为大数据驱动的科学,在华大基因测序仪每天新增数十PB数据。仅仅搭建满足这一规模的基础设施平台就是很大的挑战。你认为在建立满足生命科学研究的基础设施与大数据平台,面临哪些难点?

陈钢:这个数字有问题,华大基因大概是一年产生数十PB的数据。个人觉得,跟常见的电商、社交、地质勘探等数据相比,生命科学的数据有些特点:

  1. 产生成本很高:一个人的全基因组测序的价格要数千美金,表观组、蛋白质组、代谢组等其它组学数据的价格都很高;
  2. 数据可靠性低:以测序仪为代表的高通量生物实验技术产生的原始数据都是有系统性错误的,这很麻烦。
  3. 数据不完整:生物的转录组、代谢组等数据都是不断变换的,受制于技术和成本,不可能获得完整的数据。甚至基因组也会发生变化,这是肿瘤的病因。但我们也很难检测到每个细胞的基因组。不完整的低分辨率的数据,得到的结果往往是错误的。
  4. 数据的相关性高且不确定:从实验中得到的诸如基因组、转录组等不同类型的数据之间是有很复杂的关系的,但到底是什么关系,我们不知道。甚至是只研究基因组,不同的基因或基因组上不同的位点之间也有很复杂的关系,但我们也不知道到底是什么关系。

生命科学数据的这些特点,都会给面向生命科学研究和应用的IT基础设施带来诸多挑战。

InfoQ:R语言、Hadoop、Spark、AWS、Google的GCE,类似Docker的虚拟化技术,包括这些技术在内,哪些技术将给生命科学研究更大的推力?

陈钢:不知道。国外的生物信息领域吸收和利用最新IT技术的速度要比国内快很多,国内更多的还在竞争仪器设备,而不是IT技术和数据分析。

InfoQ:说说你将在QCon北京2014大会上的分享吧。

陈钢:讲点生命科学的研究和应用,讲讲背后的基本算法和所利用的IT设施,希望能忽悠一些高手投身这个行业,加速这个行业的发展。

InfoQ:你觉得生物信息行业的机会来了吗?学计算的同学不用一股脑往互联网巨头那里扎堆了?

陈钢:机会是来了。年初,Google给DNANexus做了1500万美元的C轮投资,Seven Bridges的首轮融资应该也快了,这是两家纯粹的生物信息公司。国内的生物信息公司还没有看到非常突出的,但我相信很快就会有了。

不过,很早就有人说“21世纪是生物学的世纪”。这个行业什么时候爆发,谁也不知道。

InfoQ:你曾说,生命科学的发展正在从一个实验科学走向以数据驱动为主,实验为辅的理论科学。用不了3年在国内就很火。这个市场到底有多大?

陈钢:算不清。如果说是基于先进生物技术的医学健康市场,按照华大基因研究院院长汪建的估计,这是一个万亿级的市场。

具体到生物信息。前面提到的Google投资的DNANexus的主要业务方向之一是医学诊断。随着实验技术的标准化,各种医学健康的筛查和诊断会演变成数据分析的方法和基础设施的竞争,这个市场的想象空间是无穷的。2月27日,测序仪的国际巨头Illumina在北京大学附近开了一个第二代测序技术创新开发者大会,吸引了很多这个行业的创业者和感兴趣的投资人。

此专题详细信息,请见专题页面。关于此次QCon北京其他专题的详细信息,请移步至大会官网

需要特别注明的是,每年QCon大会门票都会在开幕前售罄,及早预定可提前确保席位,并享受更低折扣。3月26日前报名参加可享受9折优惠。团体购票(5人及以上)将享有更多优惠。详请咨询qcon【at】cn.infoq.com,或直接致电010-64738142。报名请点击报名页面。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT