InfoQ ホームページ Apache_Spark に関するすべてのコンテンツ
-
Expo:Walmart LabsでのSpark StreamingとKafkaを使ったリアルタイムA/Bテストとモニタリング
WalmartLabsのエンジニアリングチームは、Expoと呼ばれるリアルタイムのA/Bテストツールを開発した。これは、ユーザエンゲージメントメトリックを収集し分析するものである。Spark Structured Streamingを使用して受信データを処理し、メトリクスをKairosDBに格納する。
-
MicrosoftがApache Spark向けの高性能C#およびF#サポートをリリース
Microsoftは、Apache Spark用の.NETのリリースを発表し、ビッグデータ計算エンジンに新しい高性能のC#とF#のバインディングを追加した。
-
Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化
Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcAffee、Upworkなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。
-
Uberのビッグデータプラットフォームが100ペタバイト超の規模に至るまで
Uberのエンジニアリングチームは、同社のビッグデータプラットフォームが、リレーショナルデータベースを使用した旧来のETLジョブから、HadoopとSparkをベースとするものへと発展した状況に関する記事を書いた。スケーラブルな取り込みモデル、標準転送フォーマット、インクリメンタルアップデートのためのカスタムライブラリが、同社プラットフォームの主要なコンポーネントである。
-
ZeroStackがDevOps Workbenchの提供開始
プライベートクラウドプロバイダのZeroStackは、開発者が独自のワークベンチを作成できるセルフサービス機能を発表した。ZerostackのIntelligent Cloud Platformを介して、DevOps Workbenchのユーザは、オープンソースと商用のプロバイダから提供されている40の開発ツールを利用できる。
-
Kubernetesによる最新のビッグデータパイプライン
Kubernetesのなどのコンテナ管理技術は、最新のビッグデータパイプラインの実装を可能にする。IguazioのビッグデータアーキテクトであるErian Bivas氏は、先日のKubeCon + CloudNativeCon North America 2017 Conferenceで、ビッグデータパイプラインとその開発におけるKubernetesのメリットについて講演した。
-
Microsoft、データサイエンティストと開発者向けのAIサービスとツールをアップデート
先日のMicrosoft Igniteにて、AI関連サービスおよびツールのアップデートが発表された。今回のアップデートには、Azure ML Experimentation Service、Azure ML Model Management Service、Azure ML Workbench、Microsoft Cognitive Servicesの一般提供が含まれている。
-
Enterprise Conference 2017に見る新たなテクノロジ - 第2日目まとめ
第12回Emerging Technologies for the Enterprise Conferenceカンファレンスの第2日がフィラデルフィアで開催された。この2日間のイベントは、Blair MacIntyre氏(拡張現実の第一人者)とScott Hanselman氏(ポッドキャスタ、Microsoftプリンシパル・プログラムマネージャ)の基調講演に始まり、Kyle Daigle(GitHubエンジニアリングマネージャ)、Holden Karau(IBMプリンシパル・ソフトウェアエンジニア)、Karen Kinnear(Oracle JVMテクニカルリーダ)各氏による講演が行われた。
-
Enterprise Conference 2017に見る新たなテクノロジ - 第1日目まとめ
第12回Emerging Technologies for the Enterprise Conferenceカンファレンスの第1日が4月18日(火)、ペンシルバニア州フィラデルフィアで開催された。2日間にわたるこのイベントを企画したのは、同州フォートワシントンにあるITコンサルティング会社のChariot Solutionsだ。カンファレンスではBlair MacIntyre氏(拡張現実の先駆者)の他、Monica Beckwith氏(Oracle JVMパフォーマンスコンサルタント)、Andrea Goulet氏(Corgibytes CEO)、Yehuda Katz氏(Ember.js開発者のひとり), Jessica Kerr氏(Atomist リードエンジニア)ら招待講演者による基調講演が行われた。
-
LightbendがOpsClarity買収について語る
BoldRadiusを9ヶ月前に買収したLightbendが、リアクティブアプリケーション監視を専門とする企業であるOpsClarityの買収を発表した。InfoQはLightbendの社長兼最高経営責任者であるMark Brewer氏と、OpsClarityの共同創立者で現在はLightbendのクラウドサービス担当VPであるAlan Ngai氏に、今回の新たなパートナシップについて詳しく聞いた。
-
Apache Eagleがトップレベルプロジェクトに昇格
ビッグデータプラットフォーム上でのセキュリティおよびパフォーマンスに関する問題を特定する,オープンソースソリューションのApache Eagleが,2017年1月10日,Apacheのトップレベルプロジェクトに昇格した。eBayが2015年10月にオープンソースとしたEagleは,機密データへのアクセスや悪意のある活動を簡単に検出し,タイムリに対応する目的で開発されたソフトウェアだ。
-
Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較
Facebookチームは、既存のGiraphベースのグラフ処理システムと、人気のSparkフレームワークの一部である新しいGraphXとのパフォーマンス比較を先日公開した。彼らの結論はGraphXは現在、彼らのグラフ処理ワークロードをサポートするために十分なスケーラビリティやパフォーマンスを備えていないということだ。
-
Julien Le Dem氏に聞く - Apache Arrowが示すカラム指向データ処理の未来
Apache ArrowプロジェクトでPMCのリーダを務めるJulien Le Dem氏が,カラム指向データ処理の今後について,Data Eng Conf NYでプレゼンテーションを行なった。Apache Arrowはカラム型インメモリデータベースのオープンソース標準である。InfoQはParquetとの違いを確認すべく,氏にインタビューした。
-
Spark Summit EUのハイライト - TensorFlow, 構造化ストリーミング,GPUハードウェアアクセラレーション
Apache SparkとディープラーニングライブラリTensorFlowとの統合,構造化ストリーミング(Structured Streaming)とGPUハードウェアアクセラレーションを使用したオンラインラーニング – この2つが,先週ブリュッセルで開催されたSpark Summit EU 2016のハイライトだ。
-
リアクティブ サミット 2016 カンファレンス: リアクティブ マイクロサービスとステージング データパイプライン
リアクティブ マイクロサービス、データセンター スケール オペレーティング システム(DCOS)、そしてステージング リアクティブ データ パイプラインは、今週のリアクティブ サミット 2016 カンファレンスにおける目玉であった。InfoQチームはカンファレンスに参加した。この記事は、カンファレンスの初日のサマリである。