InfoQ

InfoQ

News

マイブックマーク

ブックマークするためにログイン または 会員登録 する

ブックマークされました!

ブックマークがエラーになりました。もう一度お願いします。

Apache Solr:Luceneをベースに構築された拡張性のあるクラスタ化検索サーバ

作者 Ryan Slobojan , 翻訳者 沼田 暁子 投稿日 2008年11月19日

セクション
デベロップメント,
設計/アーキテクチャ
トピック
Java ,
検索
タグ
Lucene ,
Apache Solr

Apache Lucene(リンク)をベースにしたオープンソースのエンタプライズ向け検索サーバであるApache Solrプロジェクト(リンク)は、先頃バージョン1.3をリリースした。InfoQではSolrの作者であるYonik Seeley氏(リンク)と話をし、このリリースの詳細とSolrがエンドユーザに提供する機能について聞いた。

Seeley氏はまず、「検索ボックスやファセット・ブラウジング(誘導ナビゲーション)、あるいはその2つを組み合わせたものを必要とするほとんどの人」が対象であると説明し、Solrの重要な機能を挙げた。

  • 標準に基づいたオープンなインタフェース - Solr検索サーバへの問い合わせや結果の取得では、XML、JSON、HTTPがサポートされている。
  • 簡単な管理 - SolrサーバはHTMLのインタフェースで管理することができ、サーバの情報はJMXで公開され、Solrの設定はXMLで行われる。
  • ファセット検索 - 問い合わせ結果は自動的にカテゴリーに分類される。
  • 検索ヒットのハイライト機能の統合 - 検索結果の中で一致した単語は、自動的にハイライトされる。
  • 拡張性 - 他のサーバへの高速でインクリメンタルな更新とスナップショットの分散/複製。
  • 拡張可能なプラグインのアーキテクチャ - (カスタム・リクエスト・プロセッサや問い合わせ結果のフォーマットのような)新しい機能をプラグインとして簡単にSolrサーバに追加することが出来る。

Seeley氏は、このリリースの主な新機能についても示した。

  • 分散検索 - インデックスは透過的に複数のシャード(shard)に分けられ、ひとつのSolrサーバは、それぞれの設定とスキーマをもつ複数のインデックスをサポートすることが出来る。そしてSolrサーバを停止することなく主要な設定の変更を行うことが出来る。
  • 拡張された問い合わせ機能 - 新しいJavaクライアント(SolrJ)や、特定の問い合わせでどのドキュメントが最初に出現するかを直接設定する機能、類似文書検索、検索タイムアウト、日付ファセッティング、スペルチェックなど、いくつかの新機能が盛り込まれている。
  • 拡張されたデータインポートツール- データベースやその他の構造化データソースをインポートすることが可能で、インポートした値をマッピングしたり変換することができる。
  • さらなるカスタム拡張点 - 新しい更新プロセッサ・チェーンがあり、インデックス作成中にドキュメントを変更したりリダイレクトすることが可能である。検索コンポーネント・チェーンは問い合わせ結果やカスタムクエリパーサ、プラグ可能な機能を変更したり追加する。
  • 性能の向上 - インデックスの作成速度は大幅に改善し、バイナリの応答フォーマットや、もっと高速なdelete-byクエリが組み込まれた。

包括的な変更ログも入手可能である(リンク)

Seeley氏はSolrのスケーリングや能力、関連機能の詳細について語り、次のように述べた。

Solrは既に、何億もの文書コレクションがあるところにデプロイされています。そして、分散検索の追加により、Solrは十億の文書コレクションを扱えるはずです。

Solrには素晴らしい全文関連性があり、Luceneをベースに構築されていて、キーワードの近接度によるブースティングや最近のドキュメントに対するブースティング、編集上のブースティング、そして数値フィールドの値に対する任意の関数にもとづくカスタムスコアリングさえも簡単に提供します。

AOL ではSolrを利用してチャンネルを動かしています:音楽、NFLスポーツ、AOLレシピ、リファレンスセンター、リアル・エステート、自動車などが例としてあるしょう。SolrはNetflixやZappos、Gamespot、Internet Archiveの検索機能も動かしています。他にも*たくさんの*大きなユーザを知っていますが、Solrを使用していることは公式に述べられていません。

Solr の今後の予定について尋ねたところ、Seeley氏は、より優れたスケーラビリティ、大きなクラスタのもっと簡単な設定や管理、ロケーションベースでリアルタイムの検索、プラグインの設定にSpringを使用するためのリファクタリングが予定されていたことを示した。Seeley氏はメーリングリストへの投稿(リンク)についても指摘し、その中で彼はSolrの今後の予定について詳細に、特に2.0の時間枠について論じている。

原文はこちらです:http://www.infoq.com/news/2008/11/apache-solr

特集コンテンツ一覧

GAE開発の落とし穴

Googleのクラウド環境をつかったGoogle App Engineによる開発するにあたり、初めての試みで苦悩する開発者達の経験をもとに、各開発フェーズにあわせて問題点やどう解決したかをご紹介します

イベントレポート:「Coqチュートリアル#1」

去る1月12日、定理証明支援系ツールCoqの初心者向けチュートリアルが開催さ れた(http://kokucheese.com/event/index/23667/)。今後も2月2日 (http://kokucheese.com/event/index/23744/)、2月9日、2月16日と引き続き開 催されていく予定である。本記事では、開催の様子をレポートする。

Javaの未来についてのNeal Gafter氏とのディスカッション

Choosing Options

Neal Gafter氏はOracleによるJava買収の影響に関する議論、Javaにセグメンテッドスタックやメタオブジェクトプロトコルを追加することについての主張、そしてJavaとC#との比較について話をしてくれた。

Google Dartのエッセンス:アプリケーションの構築、スナップショット、Isolate

GoogleはVMをともなう新しい言語であり、JSコンパイラでもあるDartをプレビューした。 InfoQはDartのアプリの構築に貢献する文法の裏側を探った:スナップショット、Isolate、モジュール方式

CSPベースのモデル検査ツール「Process Analysis Toolkit」

本記事ではCSPベースの「マルチドメイン・モデル検査ツール」である、PAT(Process Analysis Toolkit)について紹介する。モデル検査は、形式手法(Formal Method)という方法論を基礎とする技術であり、複雑さが増大しながらも安全性を求められる、現在のソフトウェア開発の状況に対する処方箋の1つとして注目されている手法である。

Jenkinsによる継続的インテグレーションのススメ(4) ~CloudBeesでJenkinsをサービスとして使う~

前回まで、Jenkinsの幾つかの側面に注目して解説をしてきました。シリーズ最後の今回は、Jenkinsをサービスとして使う方法を紹介します。

書籍『抽象によるソフトウェア設計-Alloyではじめる形式手法-』の紹介

Alloyは、MITにて開発された仕様記述言語であり、ツールによる自動解析を使い、インクリメンタルに形式仕様が書けることが特長である。筆者らはAlloy開発者による、Alloyを使った形式手法入門書を翻訳、今夏にオーム社より刊行した。本記事では、Alloyの簡単な概要と、翻訳書『抽象によるソフトウェア設計』(「Alloy本」)を紹介する。

Windows デバイスで開発するタッチユーザーインターフェイス

スマートフォンを中心としたマルチデバイスにおけるタッチユーザーインターフェイスへの対応は、既に必須の項目となりつつある。本記事では、Windows デバイスにおける UX のベースとなっている「メトロ」というデザイン言語を掘り下げながら、既存環境を意識しつつもどのようにタッチユーザーインターフェイス開発に取り組んでいくべきであるかについて解説していく。