InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
Netflixがビッグデータ分析基盤を紹介
Netflixでシニアソフトウェアエンジニアを務めるTom Gianos氏とNetflixでビッグデータ計算のエンジニアリングマネージャを務めるDan Weeks氏は、QCon San Francisco 2016で同社のビッグデータ戦略と分析基盤について話をした。データの大きさやS3のデータウエアハウス、そして、ビッグデータのオーケストレーションシステムであるGenieが話題に上がった。
-
Apache Rangerがトップレベルのプロジェクトに昇格
Apache Hadoopエコシステムのセキュリティ管理フレームワークであるApache Rangerがトップレベルに昇格した。Rangerは、Apache HBase、Hadoop(HDFSとYARN)、Apache Hive、Apache Kafka、Apache Solrなど、サポート対象のHadoopコンポーネントに適用されるセキュリティポリシーを一元的に定義および管理するためのコンポーネントである。
-
BeamがトップレベルのApacheプロジェクトへ昇格
Beamはインキュベーション期間を終了し、トップレベルのApacheプロジェクトに昇格した。Googleは、さまざまなデータ処理バックエンドをオープンソースでインテグレーションするためのサポートと貢献をしている。
-
Apache Flink 1.2がリリース、ダイナミックリスケーリング、セキュリティ、Queryable Stateを提供
Apache Flink 1.2が発表された。ダイナミックリスケーリング,セキュリティ,Queryable Stateなどを備える。リリースでは650件の問題点が解決され,公開APIの互換性が維持されるとともに,Apache Kafka 0.10が同梱され,Apache Mesosがサポートされる。 ダイナミックリスケーリングによって,ストリーミングジョブやジョブ内のオペレータの並行度を変更することも可能だ。
-
Mathieu Ripert氏,Instacartのマシンラーニング最適化を語る
Instacartは食料品を1時間以内に届けるオンライン・デリバリサービスである。アイテムをWebサイトあるいはモバイルアプリで注文すると,Instacartの購入代行者グループが地元の店舗でそれを購入して,購入者に届ける仕組みだ。InfoQは同社のデータサイエンティストであるMathieu Ripert氏にインタビューして,よりよいカスタマエクスペリエンスを保証する上で,Instacartがマシンラーニングをどのうように活用しているのか聞いた。
-
Giltのディープラーニング応用
ディープラーニングはニューラルネットワークを起源として,マシンラーニングの中で急速に進化しているサブフィールドだ。最近のアルゴリズム的な進歩とGPUによる並列化の活用は,囲碁のようなゲームをマスタするだけでなく,ディープラーニングをベースとしたアルゴリズムによる実用的なアプリケーションをいくつも実現している。 ファッション業界はその対象分野のひとつだ。 Giltは実用的なアプリケーションとしてディープラーニングを利用している。
-
Apache Eagleがトップレベルプロジェクトに昇格
ビッグデータプラットフォーム上でのセキュリティおよびパフォーマンスに関する問題を特定する,オープンソースソリューションのApache Eagleが,2017年1月10日,Apacheのトップレベルプロジェクトに昇格した。eBayが2015年10月にオープンソースとしたEagleは,機密データへのアクセスや悪意のある活動を簡単に検出し,タイムリに対応する目的で開発されたソフトウェアだ。
-
Microsoftがドローンとロボットのためのシミュレータ、AirSimをリリース
MicrosoftがAirSimを開発してオープンソース化した。これは世界各地におけるドローンの飛行をシミュレートするのに使えるツールだ。シミュレータはUnreal Engineで作られており、Microsoftはまもなくロボットや他の種類の車両のサポートを追加する予定だ。
-
Apache HBase 1.3リリースで多数のパフォーマンス改善
Apache HBase 1.3.0は、2017年1月中旬にリリースされた。今回のリリースでは、日付ベース階層圧縮がサポートされ、ログ先行書き込み(WAL)や新しいRPCスケジューラなど複数箇所で改善があった。このリリースには、合計で約1,700件の解決済みのissueが含まれている。
-
MindMeldの対話型アプリケーション構築ガイド
対話型(会話型)AI企業のMindMeldが、対話型アプリケーションを作成するための課題と手順を説明した「The Conversational AI Playbook」を公開した
-
In-Memory技術を使用したAzure SQLデータベースのパフォーマンス改善
2016年後半に、MicrosoftはAzure SQL Database In-Memory技術の一般向け提供(GA)を発表した。In-Memory処理は、Azure Premiumデータベースサービスでのみ利用可能で、Hybrid Transactional and Analytical Processing (HTAP)のシナリオに対して、On-line Transaction Processing(OLTP)、Clustered Columnstore Indexes、Non-clustered Columnstore Indexesのパフォーマンスが向上する。
-
GoogleのBigQueryに新たなパブリックデータセットが追加
Stack Overflowは、そのデータセットをGoogleのBigQueryを通して利用可能となることを最近発表した。開発者は、標準のSQL文を使用して、投稿、投票、タグ、バッジなどのStack Overflowデータ全体を対象にクエリできる。本投稿では、GoogleのBigQueryプラットフォームを通して利用可能なデータをセットを探っていく。
-
Julien Nioche氏が語るStorm Crawler - Apache Stormをベースとするオープンソースのクローラパイプライン
DigitalPebbleのディレクタで,Apache NutchWebクローラプロジェクトのPMCメンバ兼コミッタであるJulien Nioche氏が,StormCrawlerについての講演を行なった。StormCrawlerはストリーミングフレームワークであるApache Stormをベースとした,分散Webクローラ開発のための再利用可能なコンポーネントのコレクションだ。InfoQはプロジェクトの中心的コントリビュータであるNioche氏にインタビューして,StormCrawlerに関する詳細と,同種のテクノロジとの比較について聞くことにした。
-
Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較
Facebookチームは、既存のGiraphベースのグラフ処理システムと、人気のSparkフレームワークの一部である新しいGraphXとのパフォーマンス比較を先日公開した。彼らの結論はGraphXは現在、彼らのグラフ処理ワークロードをサポートするために十分なスケーラビリティやパフォーマンスを備えていないということだ。
-
Julien Le Dem氏に聞く - Apache Arrowが示すカラム指向データ処理の未来
Apache ArrowプロジェクトでPMCのリーダを務めるJulien Le Dem氏が,カラム指向データ処理の今後について,Data Eng Conf NYでプレゼンテーションを行なった。Apache Arrowはカラム型インメモリデータベースのオープンソース標準である。InfoQはParquetとの違いを確認すべく,氏にインタビューした。