InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
LinkedInがKafka運用開発を詳説 - デバッグ方法とベストプラクティス
LinkedInのJoel Koshy氏がKafkaの運用経験談として,運用時に遭遇した2つのインシデントの監視とそのデバッグについて,さらにはKafkaのインフラストラクチャの運用を計画し,今後同種の問題を見つけ出すための中心的な概念とセマンティクス,動作パターンについて解説する。
-
Confluent Platform 3.0がKafka Streamsによるリアルタイムデータ処理をサポート
Apache Kafkaメッセージングフレームワークの支援企業であるConfluentが提供するConfluent Platform 3.0メッセージングシステムでは,リアルタイムデータ処理にKafka Streamsをサポートしている。同社は先週,同オープンソースのConfluentプラットフォームの最新版を一般提供開始すると発表した。
-
GitHubのすべてのオープンソースプロジェクトがGoogle BigQueryで検索可能に
GitHub上の280万を超えるのオープンソースプロジェクトの全てのスナップショットがGoogleのBigQueryから問い合わせできる、とGoogle とGitHubが発表した。GitHub上のおよそ20億のソースファイルがSQLを使って検索できるようになる。
-
LinkedInがオープンソースのKafka Monitorを詳細に解説
LinkedInは先頃,同社が実務使用するKafkaクラスタの監視や広範なテストの自動化に使用し,先日オープンソース公開したKafka Monitorサービスについての詳しい説明資料を公開した。同社の運用するKafkaクラスタは,メインのKafkaトランクのバグ検出を積極的に行なうことで,オープンソースコミュニティに対してソリューションを提供している。
-
ClouderaがBroad Instituteとの提携を発表
ClouderaはMITとハーバードのBroad Instituteとの提携を発表するとともに,ゲノム解析ツールキットパイプラインに関する経験を公開した。
-
Databricks による、SparkとTensorFlowを用いたディープラーニング
昨年の終わり頃にGoogleが同社の機械学習ライブラリであるTensorFlowをオープンソースするという発表を行い、InfoQが取材をして以来、データサイエンスコミュニティは各々のプロジェクトでTensorFlowを試す機会を得た。
-
Apache Spark 2.0テクニカルプレビュー
Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。
-
Netflixによる推薦のためにワークフローオーケストレーションとスケジューリングを行うMesonフレームワーク
Netflixのゴールは視聴者が視聴する前に何を見たいかを予測することである。これを達成するためにNetflixは毎日多数の機械学習ワークフローを実行している。Mesonはビデオの推薦を補助するパーソナライズアルゴリズムの構築、学習、検証するこれら全ての機械学習パイプラインのライフサイクルを管理するワークフローオーケーストレーションとスケジュールのためのフレームワークである。
-
-
Neo4j 3.0がリリース,バイナリ通信プロトコルと標準ドライバを装備
GraphConnect Europe 2016でNeo Technologyは,Neo4j 3.0のリリースを発表した。サーバとクライアント間のデータ転送に使用される新しいバイナリプロトコル,データベース操作のための新たな標準ドライバセット,ストアドプロシージャのサポート,パフォーマンスとキャパシティの向上などが改良点だ。Neo Technologiesに詳しい話を聞いた。
-
Google、Cloud Machine LearningとTensorFlowのα版リリース
先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にインテグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。
-
Airbnbのネットプロモータースコアの使い方
ネットプロモータースコア(NPS)は、顧客のロイヤリティのメトリクスであり、顧客が企業のウェブサイトやサービスを再び使ってくれるかどうかの指標に使われる。AirbnbはNPSを拡張して使うことで顧客のロイヤリティを計測している。顧客が再び予約してくれるか、サービスを友人に薦めてくれるかについて明らかにするためのメトリクスとしてこの方法が効果的であると考えているのだ。
-
Yahoo!がApache Flink, Spark, Stormのベンチマークを実施
Yahoo!は,代表的なストリーム処理フレームワークであるApache Flink, Spark, Stormの3つを対象としたベンチマークを行った。
-
Riley Newman氏が語るAirbnbでのデータサイエンス
Airbnbでデータサイエンスの責任者を務めるRiley Newman氏は同社がどのようにしてデータサイエンスを定義し活用しているのかを記事にした。氏はデータは顧客の声であり、データサイエンスは解釈する活動であると説明している。また、データサイエンスをスケールするためのいくつかの重要な動きについても説明している。チームに直接、データサイエンティストを入れることやあらゆるビジネスプロセスのすべてにデータサイエンスを統合すること、高速で安定的なデータインフラを構築することなどだ。
-
TeradataがIoTデータのリアルタイム解析に対応した新ソフトウェアを発表
2015年のPartners User Group Conferenceで,Teradataは,IoTデータの大規模ストリームのリアルタイムな取り込み(Ingestion)と分析(analysis)という,2つの機能のソフトウェアを新たに発表した。さまざまなIoTデータストリームを複数同時かつリアルタイムに“listen”可能なTeradata Listenerと,大量のIoTデータストリームに対応したスケーラブルな分析機能を新たに提供するTeradata Aster Analytics on Hadoopである。