InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

Wolfram|Alpha,菱形六十面体背后的细节

作者 Abel Avram 译者 郭晓刚 发布于 2009年5月25日

领域
语言 & 开发,
架构 & 设计,
运维 & 基础架构,
企业架构,
过程 & 实践
主题
声明 ,
架构 ,
调查 ,
方法论
标签
Wolfram|Alpha

Wolfram|Alpha尝试用符号计算使世界上的系统知识变得可计算。它的输入不是一组方程,而是语言。该系统的主要部分包括一个数据整理(data curation)管道,一个算法计算系统、一个语言学处理系统,还有一个自动化的呈现系统。

Wolfram|Alpha并不是那种返回已有网页的链接的搜索引擎,也不是像Wikipedia那样提供“大众化”知识叙述的海洋。它的目标是通过对提供给它的事实进行实时计算,去回答用户提出的问题。

Wolfram|Alpha不靠搜索Web来找答案,它的源数据也并非来自Web。它内部所用的数据经过整理和审核,大部分来自系统化的第一手来源。即使是实时数据(天气、股票、地震)也经过整理,并与有效数据作比较,如果发现偏差,就会特别标示出来(比如用虚线)。

Wolfram|Alpha用了“超过10T的数据,超过5万种算法和模型,还具有超过1千个领域的语言学处理能力”。作为Wolfram|Alpha引擎基础的Mathematica引擎从1986年开始持续发展,现在已经有超过5百万行的符号代码,运行在世界排名第66位的超级计算机上,每天可处理1.75亿条请求。服务由R Systems提供,可以每秒执行39.6T条数学运算,细节如下:

据Top500网站和Dell一份关于此系统的案例研究(PDF)所说,系统名为R Smarr,有4,608个处理器核心,用了576台“Harpertown” Xeon机器,共65,536GB内存,采用高速的InfiniBand数据传输连接。该系统同时使用了Red Hat Enterprise Linux和Microsoft Windows HPC Server两种操作系统。

Wolfram Research说,处理Alpha请求的将是位于同一地点的5套设备。项目中实际上包括两台超级计算机,合起来将近10,000个处理器核心以及数百T的硬盘。

数据通过统一的Mathematica语言接口以及一种按需加载机制取得,取回的数据表示成Mathematica表达式,这是一种S-expressions(符号表达式)。它的大量数据涵盖了很多领域:“数学、物理、化学、天文、地理、语言学、金融等等。”据作者所说,Wolfram|Alpha和Mathematica两种技术的区别在于:

Wolfram|Alpha在Web界面上给出简短、快速、一次性的结果。Mathematica是一个更深更广的计算环境,用户可以处理任意类型的复杂问题。对Wolfram|Alpha和Mathematica的扩展会使两者联系得更紧密。

目前Wolfram|Alpha的输入语言是英语,但计划未来支持其他语言。用户输入的的歧义性是这样解决的:

它将各种可能的理解作高低排列,然后对它认为最有可能的理解给出答案,并给出其他理解的答案链接。它在排列的时候还会考虑你所在的地理位置——比如离你较近的城市排位会较高。

地理位置根据用户的IP地址得出,数据来自GeoIP,精度为5英里。

每位用户分得的处理时间有限制。如果过了时限而请求还没处理完,它会返回部分的结果。计划中的Wolfram|Alpha专业版将没有计算时限列为特性之一。专业版的其他特性还有:

  • 可下载多种格式(例如电子表格、XML、3D模型、TeX等等。)
  • 可上传要分析的数据(例如电子表格、文字、图片、网页等等。)
  • 多种可选的显示格式
  • 保存个人或企业的偏好设置
  • 可存储实体定义
  • 动态交互能力
  • 会话历史

Wolfram未来还有更多计划:“提供给开发者的APIs专业版和企业版针对内部数据的定制版连接其他形式的内容部署到移动平台等新兴平台。”

以下是使用Wolfram|Alpha的一个例子,查询“Hurricane Katrina”会得到以下结果:

wa

每个带标题的段落被称为“pod”,其下又可以有“sub-pod”。在查询结果的底部还有信息来源的连接,以及将结果保存为PDF格式的选项。

Wolfram|Alpha的标志是一个菱形六十面体(rhombic hexecontahedron)。

最后为您提供一些有用的链接:Wolfram|Alpha博客(提供最新消息)社区网站参与者网站(反馈、贡献、建议等)

查看英文原文:Wolfram|Alpha, the Details Behind the Rhombic Hexecontahedron

译者 郭晓刚 是InfoQ中文站架构社区编辑,创建并终结过数家软件小企业,翻译过多本技术书籍。

深度内容

大规模视频网站的计费与流量管理

本次分享将会就大规模视频网站的计费与流量管理这个话题,从操作层面细细进行讲解和分析,为系统工程师们揭示平日里我们没有关心的另一些内容。同时也希望本次分享能揭示行业中的一些“潜规则”,让互联网行业的流量与带宽管理更为开放与简洁。
本次演讲视频录制于QCon杭州2011

专访Jeffrey Richter:Windows 8是微软的重中之重

Jeffrey Richter以其多本Windows核心技术的经典著作而闻名,同时,他深入掌握微软的.NET等一系列核心技术,2012年1月,Jeffrey Richter在北京接受了InfoQ中文站的专访,谈到Windows 8和WinRT编程,并就异步编程、Windows编程中的可扩展性、性能和安全性方面给出自己的建议。

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。