InfoQ

文章

黄智生博士谈语义网与Web 3.0

作者 徐涵 发布于 2009年3月26日 下午6时0分

社区
Architecture,
SOA
主题
语义网
标签
Web 2.0,
采访,
元数据,
语义网

近两年来,“语义网(Semantic Web)”或“Web 3.0”越来越频繁地出现在IT报道中,这表明语义网技术经过近10年的研究与发展,已经走出实验室进入工程实践阶段。PowerSet、Twine、 SearchMonkey、Hakia等一批语义网产品的陆续推出,预示着语义网即将在现实世界中改变人们的生活与工作方式。在Web 3.0时代即将揭开序幕之际,正确理解、掌握语义网的概念与技术,对IT人士与时俱进和增加优势是必不可少的。为此,InfoQ中文站特地邀请到来自著名 语义网研究机构荷兰阿姆斯特丹自由大学的黄智生博士,请他为我们谈一谈工业界人士感兴趣的语义网话题,包括什么是语义网、语义网与Web 3.0的关系以及语义网如何给商业公司带来效益等。

InfoQ中文站:您是语义网方面的权威专家,能否先请您为我们消除概念上的困惑。现在有一个说法,即Web 3.0就是语义网。但是除了W3C定义的语义网以外,关于Web 3.0还有许多种其他说法,您认为谁才真正代表了Web 3.0?为什么?

黄智生博士(以下称黄博士):首先需要说明的是:我不认为自己是所谓的“权威”。纵观万维网的发展,总是年轻人在创造历史,他们 给人类社会带来了一次又一次的惊奇。且不说万维网之父Tim Berners-Lee在1989年构想万维网的时候仅仅三十出头。Web 1.0产生的雅虎和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0产生的Facebook等公司创始人的情况也大体如此。Web 3.0的情况也可能如此。我们甚至都不能完全指望通过现有的IT大公司的巨大投入来发展语义网。这些大公司往往受着过去成功经验的束缚,而且新技术采用的 是与以往完全不同的思路,从而会加深大公司对新技术的怀疑。当然,这也为年轻人书写历史创造辉煌提供了发展空间。

由于Web 1.0和Web 2.0技术的成熟,Web 3.0的想法实际上表达了现在人们对下一代万维网技术的种种期待。从这个意义上讲,Web 3.0并不等同于语义网。网络上对Web 3.0众说纷纭,都有一定的道理。但我有一定的理由相信,语义网技术是Web 3.0的重要技术基础。我于2008年底在国内一些大学巡回讲学报告中提到了Web 3.0技术所应该具备的一些基本特征。我们可以用这些基本特征来分析哪些才是Web 3.0最有希望的技术。这些基本特征是:

  1. 新颖性:它应不同于已有的Web 1.0和Web 2.0的技术,它能提供全新的一代网络服务模式(即解释为什么它不属于Web 1.0或Web 2.0)。
  2. 可行性:它在现有的网络环境下,经过努力是可能实现的,它并不存在不可逾越的技术障碍(即解释为什么它不属于Web 4.0或更高)。
  3. 迫切性:它提供的网络服务应是当前社会迫切需要的,它引入的技术是能够对社会产生重大影响的。(即解释它为什么应只属于Web 3.0)。

我们看到的语义网技术正好符合上述特征。新颖性:语义网提供语义数据描述分析能力,这是以往技术所不具备的。可行性:虽然在语义网上充满着许多技术挑战, 但我们相信经过努力这些技术障碍是可以跨越的(后面我还要对这个问题作进一步阐述)。迫切性:由于万维网上已产生了浩瀚的网络信息和知识资源,寻找人们所 需要的准确信息常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就说明了为什么语义网是成为Web 3.0最有希望的基础技术。

InfoQ中文站:过去,语义网常被定义为“an extension of the current web”,但现在提的更多的是“a web of data”。您认为这两种说法有何异同,为什么会出现两种定义?

黄博士:在语义网思想发展的初期,人们所主要期待的是,希望对现有网络信息资源做语义标注,使得人们能够更方便快捷地找到网络信 息。由于描述网络数据的需要,科学家们开发了一系列元数据描述语言,如RDF/RDFS等。出于对语义分析进一步细化的需要,科学家规定了本体描述语言 (如OWL),并开发了种种特定领域的本体(Ontology)。所谓本体,可以简单地将它理解成特定知识领域中满足共同约定的常识部分,这对于特定领域 信息分类是必要的一步。

最近这十年以来,信息领域的重大事件之一,就是人类已经产生了许许多多的本体。我们可以把这个过程理解成人类知识领域的一个概念标准化运动,这与以前的工 业标准化运动具有一样的重大意义。这个运动只需要人们完成一系列基本约定就可以产生巨大的社会效果,就像当年规定“红灯停,绿灯行”等交通规则是一样的道 理。虽然现在人们都可以自由构造自己所需要的本体,但许多特定领域都有权威的学术机构在构造这些领域的本体库。本体构造本着自然淘汰的原则,在大多数特定 领域只会留下一些被广泛接受的本体。

由于大量的本体和元数据的存在,人们发现这些数据本身就是人类知识的巨大资源。这就产生了“Web of Data”的思想,即通过这些结构化的知识数据把巨大的网络信息资源连接在一起,构成了人类知识的巨大宝库。所以说,“Web of Data”的思想实际上是“an extension of the current web”思想的具体描述和进一步补充。

InfoQ中文站:语义网技术是一项激动人心的技术,许多技术人员都很感兴趣,但是这门技术入门比较困难。能否请您谈谈,语义网入门需要哪些必备知识,有比较便捷的入门方法和入门书籍吗?

黄博士:如上所述,语义网与本体技术实际上是人类知识领域的概念标准化运动,这就涉及到逻辑描述(Description Logics)和推理技术。这对于许多工程人员来说,会产生一些畏惧感。国内的计算机人才培养,总体来说是计算能力的培养,在数理逻辑的训练上相对薄弱一 些,这就对国内一些技术人员来说会带来一些障碍。但好的方面是:到目前为止,许多语义网应用只需要用到元数据就可以了,逻辑推理方面的知识要求相对会少一 些。所以对于初涉语义网的工程技术人员,可以先掌握RDF/RDFS等基本技术和工具就可以了。语义网入门知识只需要看看一些入门书,如Grigoris Antoniou和Frank van Harmelen合著的《语义网基础教程》(中国科技大学陈小平教授团队译)就可以了。

InfoQ中文站:语义网思想的诞生已经有十个年头了,您认为语义网技术离广泛应用还有多远?目前还有哪些障碍需要跨越?

黄博士:由万维网之父Tim Berners-Lee提出的语义网与本体技术,为解决万维网上浩瀚的信息资源处理提供了技术基础。欧盟和美国政府已经在语义网与本体技术上投入了大量的 研究资金,其技术已经在垂直搜索技术和专业语义信息处理等方面成为了国际标准,已经在生命科学领域(如大规模基因本体库)、出版领域(如Dubin Core标准和知识分类本体库)、医疗保健领域(如癌症本体库)和文化传承领域(如博物馆与艺术家本体库等)产生了许多应用。国际IT大公司如雅虎、 eBay和IBM等已经在语义网上投入了许多研究力量。

语义网技术已经深入到人类知识领域的方方面面。现在已经很难找到哪个领域可以宣称与语义网没有关系。且不用说生命科学领域,食品与农业领域已有许多研究人员在作语义网相关的工作,就是在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面都有人在开发本体产品。

以前的语义网工作总体来说是在打基础。许多人想看的是类似于谷歌这样规模的语义网技术大公司的产生,才能相信语义网的实际效果。这就需要等到语义网技术深 入到我们每个人生活或工作的方方面面。正由于这样,有一定数量的人对语义网的技术潜力仍持观望或怀疑的态度。值得注意的是,语义网技术是涉及到人类未来高 效地获取网络信息的革命性的方式,将对人类文明产生巨大的影响。这就像要建造摩天大楼的许多工作是在打地基一样。地基打得越深,楼才能盖得越高。没有看到 地面上起高楼,就不相信在盖楼的想法显然是天真的。实际上,从去年开始,语义网技术的摩天大楼已经在地面上初见端倪。根据美国著名市场研究公司 Gartner的2007五月份报告,到2012年,70%的公开网页将带有一定程度的语义标注,20%将使用更强的基于语义网的本体。最近这十年来所建 的本体大多数是英文的,中文的本体仍然是寥寥无几。如果我们只是等到看到经济效益后才愿意去追赶新技术的话,有可能让我们中国人又一次失去占领科学制高点 的机会。

当然,现有的语义网技术是由传统的知识库方法发展而来的,还存在着许多引入入胜的技术挑战,包括如何高效地处理海量语义数据,如何对海量语义数据和知识进 行高效推理和管理的等传统方法尚未充分解决的问题。近年来,它们已成为语义网领域的研究热点,产生了一些有发展前景的解决方案。相信经过科学家的不懈努 力,这些技术障碍是能够被跨越的。

InfoQ中文站:许多工业界人士对语义网非常感兴趣,但又想不出语义网如何给公司带来效益。能否请您谈谈,对工业界而言,语义网技术能够带来什么,以及有哪些应用场景吗?

黄博士:诚然,对于许多工业界人士来说,他们最关心的是如何给公司带来经济效益,而不是思想产品。语义网能带来经济效益的应用实 际上不胜枚举,其巨大的技术潜力之一是,它能够代替大量的人工干预和分析数据的枯燥工作,如对海关的大量进出口数据进行预处理和筛选,如价格比较网站和信 息推荐网站等。这些应用都具有以下特征:它需要人工低智能化的干预,而不能完全被自动化处理,否则效果会较差。如音乐下载推荐网站,现有使用的技术,要么 是简单的字符串匹配来决定推荐信息,要么是分析以往用户的下载习惯来决定,要么是人工预先安排推荐的信息。语义网技术在这些方面能够取得最佳的效果。有意 思的是,本来有希望发挥语义网潜力的价格比较网站,在使用语义网技术方面却发展得很慢,其原因是商家不喜欢价格比较网站把自己逼到价格被动的境地,故不积 极配合采用语义网技术。

语义网的另一个巨大的技术好处是,数据和知识独立于具体的应用系统和平台。本体数据不是为特定的应用系统而设计的。这样,当技术人员需要特定知识来开发具 体应用系统的时候,只要把别人已经产生的特定知识数据直接拿来使用就可以了。最普遍被使用的本体知识之一,就是时空知识,如地理知识本体。对于一个企业信 息系统来讲,很重要的一项工作就是客户管理,其免不了要涉及到用地名知识库等对客户材料进行智能化管理。所以语义网技术在企业管理方面也有巨大的应用发展 空间。

InfoQ中文站:能否请您介绍几个成功的语义网应用?

黄博士:这取决于你如何来定义“成功”。如果“成功”被定义为存在像谷歌这样产值百亿规模的语义网技术公司,那么到目前为止还没 出现这样的公司。如上所述,人类的语义网技术大厦仍处于打地基阶段。但是,如果把“成功”理解为被某个特定领域的人普遍使用,那么在生命科学领域存在许多 本体应用的例子,如大规模基因本体库建立和使用可以看成是一个很好的例证。去年年底,在语义网领域出现了一些令人瞩目的应用系统,如DBpedia Mobile在手机上的应用,把维基百科上的知识与地理本体相结合提供智能导游和照片语义数据共享等。芬兰政府资助的FinnONTO项目计划在若干年内 把整个国家的医疗信息系统语义网化。当一种技术将深入到一个国家的每一人的生活之中的时候,我们所理解的“成功”已经离它不远了。

作者简介

黄智生博士, 现任荷兰阿姆斯特丹自由大学计算机系高级研究员(senior researcher), 东南大学计算机科学与工程学院兼职教授,江苏科技大学计算机科学与工程学院兼职教授和计算机科学首席学科带头人。于1994年获得荷兰阿姆斯特丹大学组织 管理计算机中心博士学位,多年从事语义网与本体技术、人工智能逻辑和推理技术的研究。现主持欧盟第七研究框架中大型语义网LarKC项目中的海量语义推理 技术的研究,发表过论文和论著近百篇(本)。他参与实现的Eculture项目获得2006年国际语义网技术挑战赛冠军。


给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家加入到InfoQ中文站用户讨论组中与我们的编辑和其他读者朋友交流。

2.0还没有完全成熟,这个只是一个概念,要搞起来,估计需要2代人 发表人 zhimeng wangzm 发表于 2009年3月29日 下午7时53分
3.0不是2.0的继承者,而是2.0的终结者 发表人 阳 光 发表于 2009年4月4日 下午9时43分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 wf z 发表于 2009年4月6日 上午3时3分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 军 张 发表于 2009年4月6日 上午5时49分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 zhimeng wangzm 发表于 2009年4月16日 上午1时3分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 存吉 巩 发表于 2009年4月18日 下午11时24分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 shen jianfeng 发表于 2009年4月22日 上午2时40分
Re: 3.0不是2.0的继承者,而是2.0的终结者 发表人 存吉 巩 发表于 2009年4月23日 上午2时5分
《Ken :用IM聚合Web信息的知识组织平台》 发表人 zhaowei 赵维 发表于 2009年4月7日 下午9时39分
  1. RT,2.0现在还在不停的翻新,3.0要成熟,要被大家接受,估计要等下代人了,除非他有让人眼前一亮的效果出来,而成本却基本不用多余消耗,这样才有可能迅速普及,否则你只有玩概念的份。
    就像SOA一样,通过一堆的概念总结,但是拿到中国软件行业了,却能应用的对戏甚少。概念光玩时不行的,必须有先行者走出来才行,呵呵。

  2. 返回顶部

    3.0不是2.0的继承者,而是2.0的终结者

    2009年4月4日 下午9时43分 发表人 阳 光

    您没看到互联网发展的速度吗? 自行车还在不断翻新呢,但并不会阻碍汽车的发展。为什么您喜欢跟在先行者后边呢,人家先行了,你跟在后边能得到什么呢?看看facebook,wiki。当然先行也意味着巨大的风险,但如果我有眼光,我愿意做先行者

  3. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月6日 上午3时3分 发表人 wf z

    google 的终结者,web发展的必然趋势,必然导致利益的重新分配,市场的重新洗牌。

  4. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月6日 上午5时49分 发表人 军 张

    不论前景如何,但很敬佩这些先行者,最讨厌那种说别人炒概念的那种人,什么东西不是在概念的炒作下慢慢的应用起来的呢?

  5. 返回顶部

    《Ken :用IM聚合Web信息的知识组织平台》

    2009年4月7日 下午9时39分 发表人 zhaowei 赵维

    按照黄智生博士的新颖性、可行性和迫切性的评价说法,我的“Ken :用IM聚合Web信息的知识组织平台”应该才是这里所设想的系统,hi.baidu.com/ygzw_ksl/blog,欢迎各位评测!

  6. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月16日 上午1时3分 发表人 zhimeng wangzm

    呵呵,我没说他炒作,只是说,这个东西,如果要走起来,要付出太多的努力,没有别的意思ok?不要我没说赞成的话,难道就是在反对作者?
    你看我的第一篇回帖有说他炒作吗?我只是说概念光玩是不行的,还是需要先行者,而我是务实派的,不是领导潮流的人,仅此而已,别什么事都上纲上线的,讨论,本来就积极方和不积极方,难道都是一片祥和和大好才行?呵呵

  7. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月18日 下午11时24分 发表人 存吉 巩

    在国内到处都是这种务实者,而先行者连凤毛麟角都称不上

  8. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月22日 上午2时40分 发表人 shen jianfeng

    国内很多务实者!?感觉像笑话

  9. 返回顶部

    Re: 3.0不是2.0的继承者,而是2.0的终结者

    2009年4月23日 上午2时5分 发表人 存吉 巩

    请注意务实前面是有定语的

深度内容

模块化Java:声明式模块化

本文是模块化Java系列文章的第4篇,介绍的是声明式模块化。文中描述了组件如何以声明的方式来定义并组织在一起,而无需让代码依赖于OSGI API。

Ian Robinson和Jim Webber谈论基于Web的整合

本采访是在伦敦举行的QCon2009上记录的,Ian Robinson和Jim Webber探讨了如何将Web作为整合平台以及REST在理论上和实践中的好处。

项目管理修炼之道(精选版)

项目管理对于项目成败至关重要,但实践中每个项目都有自己的独特性,没有现成的解决方案可以套用。书中从应对实际风险的角度出发,讲述了从项目启动、项目规划到项目结束的整个管理流程,展示了作者的思考过程。本迷你书从原书中精选出5个章节。

那是鸟,还是飞机?不,那是超人!

在这个演讲中,Fred将会揭示敏捷的一些外在因素,并会重点关注敏捷获得成功的内在原因。从案例研究和真实的项目经验来看,Fred认为:工具、管理体系都不能让你变得敏捷。敏捷的成功,植根于士气高涨、充分授权的工作者身上,他们能够以不同以往的方式思考问题。

访谈和书摘:Eben Hewitt的新书《Java SOA Cookbook》

Java SOA Cookbook

Eben Hewitt的新书《Java SOA Cookbook》从Java实现的角度讨论了面向服务架构。Eben在书中讨论了SOA基础、工具、最佳实践和SOA治理等主题。

Mark Richard的《Java消息服务》第二版

Mark Richards的新书《Java消息服务》第二版覆盖了JMS的许多主题, 包括发布和订阅模式以及点对点模式,消息过滤和事务等。InfoQ与Mark谈论了跟他的新作。

模块化Java:动态模块化

本文是“模块化Java”系列文章的第三篇,讨论动态模块化,内容涉及如何解析bundle类、bundle如何变化、以及bundle之间如何通信。

让测试也敏捷起来

对于测试组织来说,敏捷方法带来的快速迭代却让测试本身变得困难起来:缺乏“足够详细的文档”,缺乏“仔细设计用例的时间”等等。在本演讲中,段念将与大家探讨如何在敏捷过程中进行测试。