和Google互补的搜索引擎Wolfram|Alpha
Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。
作者 Ryan Slobojan 译者 郭晓刚 发布于 2008年1月24日 下午10时0分
Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,今天它发布了2.3版。InfoQ采访了项目管理委员会(PMC)成员以及提交者,Grant Ingersoll,以深入了解这次发布的版本以及Lucene未来的计划。
Ingersoll认为这次的版本中最大的变化是新的索引算法,它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说,单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括:
Document、Field和Token的实例现在可在索引分析中重用,因此不但提升了分析的速度,还减少了索引过程中的内存分配次数。 setMaxBufferedDocs已被更直观的setRAMBufferSizeMB所取代。 另外,2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译。这里是完整的更新说明。
Ingersoll还谈论了Lucene未来的计划,他说下一版将会是2.9。2.9版是相对改动较小的版本,有些部分会被标为废弃,还会为了给Lucene 3.0做准备而进行一些清理。3.0版是一个重大的版本,包括把代码库迁移到JDK5,以之作为最低要求。3.0的其他主要特性还有待决定。
采访中还讨论了Lucene社区的总体情况。Ingersoll表示Lucene和Solr结合得很紧密,而与Nutch、Tika以及Hadoop也有相当良好的相互沟通。Ingersoll还谈论了一个名为Mahout的项目,他正在启动该项目:
这是一个单独的项目,但对Lucene用户也会有好处。JIRA中已经有一些Lucene的补丁实现了ML算法。这个项目的目标是提供商业质量的大规模机器学习(machine learning,ML)算法。它以Hadoop为基础建立,遵循Apache许可证。我已经观察到不少人对这个项目感兴趣,希望在接下来这个月能把项目启动起来。
Ingersoll说,通过建立Mahout项目,他希望能够“进一步揭开Google这类公司提供的类似功能的秘密,并刺激在这个领域中的创新”。如果对这个新项目感兴趣,可以阅读一下它的项目计划和孵化提案。
查看英文原文:Lucene 2.3: Large indexing performance improvements, new machine-learning projectWolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。
Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。
罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。
Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。
中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。
HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。
4 条回复
关注此讨论 回复