InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
PayPalは、次世代のデータ移動プラットフォームとしてApache AirflowとApache Gobblinを標準化
PayPalは最近、次世代のデータ移動プラットフォームを実装するために、Apache AirflowとApache Gobblinでどのように標準化されたかについて説明している。 PayPalエンジニアリングブログの最近のブログ投稿で、PayPalの技術スタッフのシニアメンバーであるJay Sen氏は、既存のデータ移動プラットフォームが複雑で管理しにくいエコシステムで、多くのツールとプラットフォームにどのように進化したか、そして、新しい実装への移行について詳しく説明している。
-
フィードバックを解析してユーザから学ぶ
ユーザがフィードバックを容易に提供できて、そのフィードバックを自動収集可能にすれば、より多くのフィードバックを短期間に得られるようになる。AIを導入することにより、大量のフィードバックを解析して洞察を得ることや、トレンドを視覚化することも可能になる。こうして得た情報の共有が、プロダクトの拡張やユーザの抱える問題の解決といったアクションを広範にサポートするのだ。
-
Spark AI Summit 2020の注目点: Spark 3.0のパフォーマンス改善のイノベーション
初めてオンラインで開催された先頃のSpark AI Summit 2020で、注目点は、Spark SQLの最適化やGPUアクセラレーションなど、Apache Spark 3.0のパフォーマンスを改善するためのイノベーションだった。
-
Microsoftが.NET for Apache Spark 1.0をリリース
Microsoftは先月、.NET for Apache Sparkの最初のメジャーバージョンをリリースした。これは、Apache Sparkプラットフォームで.NET開発できるようにするオープンソースパッケージである。新しいリリースでは、.NET開発者が、.NETユーザ定義関数、Spark SQL、およびMicrosoft HyperspaceやML.NETなどの追加ライブラリを使用してApache Sparkアプリケーションを作成できるようになる。
-
SplunkがSignalFx APMの新しいリリースをローンチ
機械生成されたビッグデータを検索、監視、調査するためのプラットフォームであるSplunkは、アプリケーション監視ツールSignalFx Microservices APM™の新しいリリースをローンチした。新しいリリースでは、NoSample™トレース、オープンスタンダードベースの計測、およびSignalFxとOmnitionからの人工知能 (AI) 主導の指示されたトラブルシューティングを1つのソリューションに組み合わせている。
-
Google、従来よりもサービスベースのアーキテクチャ”Runner V2 to Dataflow”を新たに発表
Google Cloud Dataflowは、Google Cloud Platform(GCP)内でApache Beamパイプラインを実行するための、完全マネージドなサービスである。先日のブログ記事でGoogleは、Runner v2 to Dataflowという、これまでよりもサービスベースのアーキテクチャを新たに発表した。言語SDKのすべてを対象とする多言語サポートも含まれる。
-
Feature Storeで機械学習ライフサイクルを加速
Feature Storeは次世代のMLプラットフォームの中核であり、データサイエンティストがMLアプリケーションの提供を加速できるようにするものである。Mike Del Balso氏とGeoff Sims氏は最近、Spark AI Summit 2020 Conferenceで、フィーチャーストア主導のML開発について講演した。
-
IBM Fully Homomorphic Encryption ToolkitがMacOSとiOSで利用可能に
IBMのFully Homomorphic Encryption (FHE) Toolkitの目的は、開発者がFHEを自らのソリューションに導入できるようにすることだ。暗号化されたデータを直接操作可能にするFHEには、高度に規制された産業におけるデータセキュリティとプライバシを劇的に変える影響力がある、とIBMは言う。
-
コンプライアンスとカリフォルニア州プライバシ法 - ”帝国の逆襲”
2020年1月1日、カリフォルニア州プライバシ法(California Privacy Act)が施行された。だが、多くの企業が同法に準拠しておらず、法律の長期的な効果については未知数だ。
-
-
Jagadish Venkatraman氏、LinkedInのSamza 1.0開発を語る
先日のApacheCon North AmericaでJagadish Venkatraman氏は、LinkedInが大規模なストリーム処理を行うためにApache Samza 1.0を開発した経緯について講演した。その中で氏は、兆単位のイベントと数ペタバイトのデータを抱えるLinkedInのユースケースについて説明し、ステートフル処理、高レベルAPI、柔軟な展開モデルといった、1.0リリースで追加された機能を強調した。
-
pacheCon 2019基調講演 - Google CloudによるKubernetesを使用したビッグデータ処理の拡張
ApacheCon North AmericaでChristopher Crosbie氏が、"Yet Another Resource Negotiator for Big Data? How Google Cloud is Enhancing Data Lake Processing with Kubernetes"と題した基調講演を行った。講演の中で氏が強調したのは、Kubernetesクラスタ内でApacheソフトウェアを動作させるためのコントロールプレーンを提供する、オープンソースのKubernetesオペレータを開発することによって、Apacheのビッグデータソフトウェアを"クラウドネイティブ"にするという、Googleの取り組みについてだった。
-
GoogleがHadoopのビッグデータワークロード用にCloud Storage Connectorを公開
Googleは先日のブログ記事で、Cloud Strage Connector for Hadoopを新たに発表した。この新機能によって、従来のHDFSをGoogle Cloud Storageに置き換えることが可能になる。ParquetやORCといったカラムナファイル(Columnar file)形式により、スループット向上の実現が期待されると同時に、Cloud Storageディレクトリの分離、低いレイテンシ、並列性の向上、インテリジェントなデフォルト設定といったメリットを享受することができる。
-
AWSユーザにMLを提供するAmazon Personalizeが一般利用可能に
昨年11月のAWS re:Inventで初めて発表されたAmazon Personalizeが、すべてのAWSユーザを対象に一般公開された。このサービスを使用すれば、マシンラーニングの経験がなくても、パーソナライズされたプロダクトレコメンデーション、検索結果、ダイレクトマーケティングなどのモデルを含む、独自のマシンラーニングモデルをアプリケーションに加えられるようになる。
-
AIとデータに関するロサンゼルスCTO円卓会議
先日ロサンゼルスで行われた"Leaders in Data CTO Roundtable"では、ビジネス向け人工知能(AI)フレームワークやプラットフォーム、今後5年間のデータ、データソフトウェアスタック、データ人材の獲得などが議論された。