InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

使用微软Live实验室项目Pivot诠释海量数据

作者 Abel Avram 译者 李明(nasi) 发布于 2010年4月1日

领域
运维 & 基础架构,
架构 & 设计,
语言 & 开发
主题
数据访问 ,
微软 ,
架构 ,
Pivot ,
数据库 ,
调查

微软的Live实验室发布了一个叫做Pivot的新研究项目,该项目可以帮助用户诠释海量信息。目前看来,Web是孤立页面的巨型集合,而链接则从一个页面指向另一个页面。用户可以一种线性的方式,逐页浏览存在于这些页面中的大量信息。在单个浏览会话之中,很难能够看到信息的全貌。Pivot则试图以一种易于导航的方式组织这些信息,用户可以方便地自顶向下或者自底向上地进行浏览。

Pivot中的基础概念是“Collection”,它由相当数量的、拥有部分相同属性的数据条目组成。用户选择一些属性后,Pivot将会根据备选属性筛选显示的条目,帮助用户发现实际要寻找的信息。每个条目都有一个图像与之关联,事实上该图像由Pivot进行操控。当用户选择特定图像时,便可以跳到和图像相关联的Web页面上。

Collection的类型分为三种:

  • 简易型(Simple) – 最通用的类型,可以很方便地创建,最多能包含3000个条目,数据和视觉效果都是静态化的。
  • 连接型(Linked) – 复杂度中等,容量取决于存储空间,通常用于数千个条目的情况,在访问时一次性载入,视觉效果是静态化的。
  • 动态型(Dynamic) – 最难的类型,比如能够以交互的方式无限制地收集整个互联网的信息。数据是动态查找和载入的,视觉效果部分动态化。

定义的方式Collection是创建一个CXML文件,该文件采用Collection XML Schema来进行描述,与其相关的图像则是使用了深度缩放(Deep Zoom)格式

Pivot应用是一个使用Seadragon渲染引擎的.NET应用,该项目同样来自于Live实验室。Seadragon技术可以让用户平滑地浏览图形图像,甚至需要大量的数据和带宽时也是如此。其Silverlight的实现便是深度缩放,然而Seadragon还有一个Ajax版本,可以在没有安装插件的情况下正常工作。该应用的一些特性包括:

  • 导航的速度与对象的大小和数目无关。
  • 性能仅依赖于带宽与屏幕像素的比率。
  • 平滑,连续,过渡。
  • 速度快,可在任何分辨率的屏幕上几乎完美地进行缩放。

当用户找到自己所需的信息以后,他们只需要点击该链接,便可以跳到与图片相关联的网页上,Pivot则会通过嵌入IE的Trident引擎来显示该页面:

image 

创建Collection最快的方式之一,就是使用Excel的Pivot Collection工具。通过在电子表格中填写条目信息并导出,用户就可以获得一个Collection,可以存贮在任意的Web服务器上,通过Pivot进行浏览。

其他的工具包括深度缩放生成器深度缩放命令行工具集,都是用户创建关联到Pivot的Collection上的深度缩放图像的好用工具。对于生产级Collection,建议使用深度缩放工具程序库(DeepZoomTools.dll)来创建图像和CXML文件。

查看英文原文:Making Sense of Large Amounts of Data with Pivot

译者 李明(nasi) 毕业于东北大学,曾供职于百度网页搜索部,从事分布式网络爬虫及其国际化的研发工作。