BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

DARPA宣布开源Memex搜索技术

| 作者 张天雷 关注 4 他的粉丝 发布于 2015年5月5日. 估计阅读时间: 4 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

Memex项目最早于2014年2月由美国国防部高级研究计划局(DARPA)发起。DARPA于2015年4月17日宣布了Memex项目,并开源各个组件,使得政府等机构和个人可以进行高度定制化的搜索。 Memex搜索引擎的研究发起者Chris White表示,“互联网比人们想得要庞大得多。据统计分析,Google、微软bing以及雅虎搜索只收录了网络上大约5%的内容。”“暗网”通常指互联网中无法被搜索引擎抓取到的部分(现在谷歌上已经能搜到一些暗网地址了)通常包含非法内容,包括不限于:色情、枪支弹药、毒品等。参与Memex项目的卡耐基梅隆大学教授Jeff Schneider之前表示,“该计划目前的重点是贩卖人口。但是用来研究人口贩运的算法也可以应用到其他领域。”

今年2月,美国国防部五角大楼的研究机构批准Scientific American新闻网对Memex进行了报道。美国国防部先进研究项目局的主管Dan Kaufman表示,“Memex的理念简化来说就是——如何挖掘不易被发现的东西。”目前,DARPA在Apache许可证下开源了Memex项目开发的工具。其中,大部分软件源代码托管在GitHub上。根据福布斯网站的公布,参与Memex项目的机构主要有:

  • Uncharted Software开发了前端接口TellFinder和DIG;
  • ArrayFire公司开发了通过GPU加速计算和网页搜索的软件库ArrayFile;
  • 卡耐基梅隆大学开发了TJBatchExtractor,用于在广告中提取名字、位置等数据信息;
  • Diffeo公司开发了Dossier Stack,主要负责分析用户的兴趣,为搜索结果的展示提供建议;
  • Hyperion Gray公司的爬虫用来复制用户与网站的交互情况;
  • Jet Propulsion Laboratory机构搭建了ImageCat、FacetSpace、LegisGATE和ImageSpace等四个组件,用于分析和操作图像和文字;
  • MIT林肯实验室编写了Text.jl、MITIE和Topic三个自然语言处理工具;
  • 纽约大学联合JPL和Continuum创建了Topic接口来帮组用户与爬虫进行交互;
  • Sotera Defense Solution创造了Data Wake,用于收集用户可以点击、可能点击或者已经点击过的链接;
  • SRI International开发了Hidden Service Forum Spider暗爬虫,用于从暗服务中抓取内容;
  • 斯坦福大学开发了DeepDive,用于把文字和多媒体转变成为知识库,从而在不同人和组织之间创建连接关系。

通过这诸多机构的参与,Christ White表示,他们想要动摇谷歌、雅虎和微软控制的搜索行业。不过,不论Memex的能力有多强大,其目的只是降低犯罪率,而不是侵犯大多数人的隐私。同时,它也有助于更好的理解互联网信息的庞大性。


感谢魏星对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT