InfoQ ホームページ Big Data に関するすべてのコンテンツ
アーティクル
RSSフィード-
Apache ArrowとJava: ライトニングスピードのビッグデータ転送
Apache Arrowは、データにクロス言語、クロスプラットフォーム、カラム型のインメモリデータ形式を提供します。データのシリアル化の必要性をなくし、コピーのオーバーヘッドを減らすように設計されています。
-
Redis StreamsとApache Spark Structured Streamingを使用したリアルタイムデータ処理
Apache Spark 2.0で導入されたStructured Streamingは、ストリーミングデータのためのSQLライクなインターフェースを提供します。Redis Streamsによって、Redisがストリーミングデータを複数のプロデューサとコンシューマの間で消費、保持、配信することができるようになります。この記事では、著者のRoshan Kumar氏が、RedisおよびApache Spark Streamingテクノロジを使用してストリーミングデータをリアルタイムで処理する方法について説明します。
-
エンタープライズ向けオープンソースのJava ORMフレームワークReladomoを導入する
Reladomoは業界をリードする投資銀行であるゴールドマン・サックスで主要なJava ORMとして使われ、現在はオープンソースとして公開されています。 この記事では、ゴールドマン・サックスのテックフェローであるMohammad RezaeiがReladomoについて詳しく説明いたします。
-
【QCon Tokyo 2015 講演レポート】日々数十億レコードにおよぶログ情報を処理するビックデータ分析におけるApache Sparkの先進的活用
短期開発にて数々の新しいプロダクトを開発・提供し続けているサイバーエージェントのアドテクスタジオ。日々数十億レコードのログを処理する広告配信の現場で、いま最も注目を集めている「Apache Spark」の積極的な活用にチャレンジしている。自発的な研究開発体制として取り組んでいる「Sparkゼミ」の活動や成果にも触れながら、Apache Sparkが今後の分析環境にどう影響していくのかをデータサイエンティストの視点から語った。
-
Apache Crunch:MapReduceプログラミングを容易にするJavaライブラリ
Josh Wills氏は新しい記事でCrunchを紹介しているー新しいApacheのインキュベーションプロジェクトでMapReduceパイプラインを作成するためのJavaライブラリを提供する。 Crunchは高レベルの抽象セットをベースにしており、MapReduceアプリケーション設計を容易にし、データの結合、アグリゲーションの実行、レコードのソートのような共通したタスクを実装するパターンのライブラリを提供する。
-
NoSQLの現状
Stefan Edlich氏がNoSQLを再考する。NoSQLの発展、財政的な影響、標準や不足してい部分、現在の展望、書籍、リーダーと新参者について考慮した上で、NoSQLは普及すると結論付けている。
-
Datomicのアーキテクチャ
Clojureの作者であるRich Hickey氏がDatomicのアーキテクチャを説明します。Datomicは新しいデータベースで、シンプルなサービスで組み立てられており、従来のRDBMSの機能性とNoSQLの拡張性を取り得れようとしています。
-
大規模データ技術の現状と今後の方向性
クラウドコンピューティングを前提とした大規模データ技術が利用可能となってきています。Big Dataが一過性のブームで終わるかどうかにかかわらず、スケーラブルな分散アーキテクチャーの基盤はデータベース技術に主導されつつあります。RDBとORM主体のエンタープライズシステムは、HadoopやNoSQLとの組み合わせにより複合的なデータモデルに発展しました。こうしたアーキテクチャーの革新を最適化し、複雑さを隠ぺいするためにデータタイプやデータモデルを導入する新たな動きが起こっています。また、Hadoopの多方面への発展の軸を見ることで、大規模データ技術の発展の方向性を占うことが可能です。
-
SOAエージェント:グリッドコンピューティングがSOAと出会う
本稿では、Boris LublinskyがグリッドコンピューティングをSOAアーキテクチャ全体でどのように利用することができるのかを説明します。そして、SOAサービスの実装の中で、グリッドを利用したプログラミングモデルを紹介します。