Googleが提供するSaaS型のデータストアであるBigQueryが勢いづいているようだ。BigQueryを使うとクラウド上の大規模な列指向のデータ構造に問い合わせが実行できる。開発者はデータをGoogle Cloud Storage(Amazon S3のようなもの)経由でBigQueryへロードするか、ストリームとしてデータを投入し、SQLライクな言語を使ってOLAPスタイルの問い合わせを実現できる。
実際に利用した人がBigQueryの利用経験を共有し始めている。例えば、Shine TechnologiesのGraham Polley氏によれば、
テストでBigQueryを使ってみることにしました。データは15億行もあります。とても面白そうなテストになると思いました。果たしてGoogleの"数十億行の大規模データをインタラクティブに分析できる"というセールストークは本当なのか。結果は驚くべきことに本当でした。本当に驚きました。キャッシュを使っていなくても(キャッシュはドグルで有効無効を切り替えられます)、15億行のデータに対する比較的複雑な集計問い合わせが20秒から25秒で返ってきました。
BigQueryはスタンドアロンでも使えるが、Google Apps ScriptやGoogle Analyticsと連携させることもできる。Analyticsとの連携については、Jonathan Weber氏(LunaMetricsのデータエバンジェリスト)が有益な情報を提供している。
まず、BigQueryのエクスポートはGoogle Analyticsのプレミアムカスタマーだけが使えいます。プレミアムアカウントの管理者にお願いして、BigQueryのエクスポート機能を有効にしてもらう必要があります。また、BigQueryのストレージとプロセッシングにはコストがかかることも知っておかなければなりません。しかし、Google Analyticsのプレミアムユーザの場合は月額500ドルのクレジットを使って支払いができます。多くの場合、500ドルもあれば十分です。BigQueryを利用している私たちの顧客の場合、サイトには月間で600万の訪問があり、5000万のページビューがあります。データは9月からエクスポートしていますが、今月の請求は12.86ドルでした。
BigQueryはクラウドベースのソリューションとして利用できるが、BigQueryの基盤となっている技術(Dremel)は多くのApache DrillやImpalaのようなオープンソースのSQL-in-Hadoopソリューションで使われている。