BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

架构师(2018年8月)

| 作者 InfoQ中文站 关注 55 他的粉丝 发布于 2018年8月8日 都知道硅谷人工智能做的好,你知道 硅谷的运维技术 也值得参考吗?QCon上海带你探索其中的奥义

目录

热点| Hot

Kotlin生态调查结果出炉:超过6成的开发者用过Kotlin了

推荐文章 | Article

Stream从Python切换到Go的原因

专题 | Topic

腾讯大规模分布式机器学习系统无量是如何进行技术选型的?

GitHub的MySQL高可用性实践

运满满的技术架构演进之路

百度智能运维的技术演进之路

特别专栏|Column

面向大规模AI在线推理的可靠性设计

卷首语: 沃森于AI

DataPipeline创始人&CEO 陈诚

朋友圈最近看到一篇文章 ——《IBM沃森错开致命药,国内67家医院在用,秘密文件曝光严重bug》。虽然只是测试病例,但看上去沃森相当地不靠谱,给有出血症状的癌症病人开了容易导致出血的药品,严重时可致患者死亡。沃森是IBM花了150亿美元培养的AI学霸,成绩不尽如人意,部门不能盈利,失望在所难免。然而AI正如一个学习能力超强的小孩子,需要反复研习各种病例、新药,来提高判断的准确度。

无独有偶,最近也有另一篇报道说亚马逊AI的人脸识别系统遭到质疑,从535位美国参众两院议员中识别出28名“罪犯”,一时引起大量对于公共安全和执法准确率的担忧。亚马逊迅速在回应中提到在对Rekognition 系统人脸识别API的默认置信阈值被设置成了80%, 建议应该使用99%。然而这样设置的话确实可以大量减少“误判”,但是却会产生更多的“漏判”,结果仍然未必会让人满意。

大众在AlphaGo之后对于AI的想象都是有点像孙悟空,在菩提祖师那里混了7年,而后一夜悟道,从此速度一日千里。然而任何创新的技术都需要快速迭代、不断更新。我们对于新技术既不需要盲目追捧,也不用质疑攻击。人工智能之所以是人工的,不就是因为我们人类善于思考,可以辩证客观地看待问题吗?

数据的质量和模型都会对AI结果产生巨大的影响,这次我们来聊聊数据。 AI的判断,高度依赖于我们输入给它的“知识”,如果输入数据不够准确、不够完整,得出的判断不靠谱也在意料之中。大部分数据分析师,每天都要花费大量的时间和精力去“整”数据,无论是数据质量,还是数据的完整性,一致性都差强人意,最高精尖的工程师也要花大力气去做最基础的数据工作,AI能不能不以事小而不为,帮我们先解决了数据的事儿?

AI不是万能的,数据不是万能的,没有数据是万万不能的。我们对于世界的认识和认知,进行抽象提取,而后成为知识。数据是这一切的基础。数据失之毫厘,AI的结果差之千里。数据工程师和AI算法工程师是背靠背的一对兄弟,相辅相成,谁也离不开谁。

创办DataPipeline之初,我们以为数据的事儿比起AI,门槛没有那么高,但是适用面广,然而越做越敬畏。如果AI最终的目的是帮助人类解决各种各样的问题,那么数据就是这个大厦最坚实的基础,基础不牢,地动山摇。我们不能只要顶层的无敌视野,却不愿意为打地基付出汗水和努力。数据的工作繁杂,日复一日,各种重复,远不如AI的高大上,然而吃不饱肚子,怎么追求精神上的富足?

回过头来看沃森的误判,病人有严重的出血症状,这个重要的信息,这条数据,究竟在哪个环节被“丢”掉了?

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT