InfoQ ホームページ Hadoop に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

DevOps

UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり

Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習（ML）トレーニング・スタックをGoogle Cloud Platform（GCP）に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。

Claudio Masolo 翻訳者 Takashi Kawase
投稿日 2024年7月23日午前3時30分
設計/アーキテクチャ

LinkedIn、システムの複雑性低減のためにLambdaアーキテクチャを廃止

LinkedInのソフトウェアエンジニアらは先頃、同社がLambdaアーキテクチャを廃止した経緯を公開した。Lambdaアーキテクチャの実装は、ソリューション全体の運用オーバーヘッドが高く、構造が複雑になり、結果としてプロダクトとしてのイテレーション時間が遅かった。そのためエンジニアらは、Lambdaを使用しないアーキテクチャへのマイグレーションを選択し、開発速度の大幅な改善を実現したのだ。

Eran Stiller 翻訳者 h_yoshida _
投稿日 2021年2月10日午前5時27分
AIと機械学習、データエンジニアリング

pacheCon 2019基調講演 - Google CloudによるKubernetesを使用したビッグデータ処理の拡張

ApacheCon North AmericaでChristopher Crosbie氏が、"Yet Another Resource Negotiator for Big Data? How Google Cloud is Enhancing Data Lake Processing with Kubernetes"と題した基調講演を行った。講演の中で氏が強調したのは、Kubernetesクラスタ内でApacheソフトウェアを動作させるためのコントロールプレーンを提供する、オープンソースのKubernetesオペレータを開発することによって、Apacheのビッグデータソフトウェアを"クラウドネイティブ"にするという、Googleの取り組みについてだった。

Anthony Alford 翻訳者 h_yoshida _
投稿日 2019年11月14日午後10時48分
Cloud

GoogleがHadoopのビッグデータワークロード用にCloud Storage Connectorを公開

Googleは先日のブログ記事で、Cloud Strage Connector for Hadoopを新たに発表した。この新機能によって、従来のHDFSをGoogle Cloud Storageに置き換えることが可能になる。ParquetやORCといったカラムナファイル(Columnar file)形式により、スループット向上の実現が期待されると同時に、Cloud Storageディレクトリの分離、低いレイテンシ、並列性の向上、インテリジェントなデフォルト設定といったメリットを享受することができる。

Kent Weare 翻訳者 h_yoshida _
投稿日 2019年11月6日午前12時23分
設計/アーキテクチャ

Badooのデータエンジニアリング：1日あたり200億のイベントを処理

Badooは現在、1日あたり数十億のイベントを処理する出会い系ソーシャルネットワークであるとデータプラットフォームエンジニアリングリードのVladimir Kazanov氏は説明する。Skills Matterで、彼はこの規模での運用の課題と、Badooがこのデータを処理およびレポートするために使用するツールについて説明した。

Andrew Morgan 翻訳者編集部T _
投稿日 2019年8月28日午前1時44分
AIと機械学習、データエンジニアリング

Uberのビッグデータプラットフォームが100ペタバイト超の規模に至るまで

Uberのエンジニアリングチームは、同社のビッグデータプラットフォームが、リレーショナルデータベースを使用した旧来のETLジョブから、HadoopとSparkをベースとするものへと発展した状況に関する記事を書いた。スケーラブルな取り込みモデル、標準転送フォーマット、インクリメンタルアップデートのためのカスタムライブラリが、同社プラットフォームの主要なコンポーネントである。

Hrishikesh Barua 翻訳者 h_yoshida _
投稿日 2018年12月14日午前1時30分
AIと機械学習、データエンジニアリング

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

Hortonworksでプロダクトマネジメントを担当するシニアディレクタのSaumitra Buragohain氏に、Hadoop一般とHDP 3.0で注目すべき点について聞いた。

Rags Srinivas 翻訳者 h_yoshida _
投稿日 2018年9月9日午後9時6分
Dataikuが最新リリースでディープラーニングとコンピュータビジョンを統合

共同データサイエンスプラットフォームDatakuのData Science Studioの最新リリースには、画像処理用に事前学習されたディープラーニングモデルが含まれている。DSSプラットフォームはデータソーシングや可視化から運用展開まで、データサイエンスプロジェクトの全ステップを実行する。マシンラーニングモデルは標準的なライブラリをサポートする。Hadoopや複数のSparkエンジンとの統合も可能だ。

Alexis Perrier 翻訳者 h_yoshida _
投稿日 2018年5月7日午前3時41分
ZeroStackがDevOps Workbenchの提供開始

プライベートクラウドプロバイダのZeroStackは、開発者が独自のワークベンチを作成できるセルフサービス機能を発表した。ZerostackのIntelligent Cloud Platformを介して、DevOps Workbenchのユーザは、オープンソースと商用のプロバイダから提供されている40の開発ツールを利用できる。

Helen Beal 翻訳者編集部Ｔ
投稿日 2018年2月14日午前2時36分
Apache HBase 1.3リリースで多数のパフォーマンス改善

Apache HBase 1.3.0は、2017年1月中旬にリリースされた。今回のリリースでは、日付ベース階層圧縮がサポートされ、ログ先行書き込み(WAL)や新しいRPCスケジューラなど複数箇所で改善があった。このリリースには、合計で約1,700件の解決済みのissueが含まれている。

Alexandre Rodrigues 翻訳者編集部Ｔ
投稿日 2017年2月19日午後10時19分
Julien Le Dem氏に聞く - Apache Arrowが示すカラム指向データ処理の未来

Apache ArrowプロジェクトでPMCのリーダを務めるJulien Le Dem氏が，カラム指向データ処理の今後について，Data Eng Conf NYでプレゼンテーションを行なった。Apache Arrowはカラム型インメモリデータベースのオープンソース標準である。InfoQはParquetとの違いを確認すべく，氏にインタビューした。

Alexandre Rodrigues 翻訳者吉田英人
投稿日 2017年1月9日午後10時21分
PolyBaseを使用したSQL ServerとHadoopの結合

先日リリースされたSQL Server 2016では，HadoopとAzureのBlobストレージにSQLクエリを使用することができる。マップ/レデュース操作の記述が不要になるだけでなく，リレーショナルデータベースと非リレーショナルデータベースの結合も単一のクエリで実行可能になる。

Jonathan Allen 翻訳者吉田英人
投稿日 2016年7月20日午後8時57分
Google、Cloud Machine LearningとTensorFlowのα版リリース

先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にインテグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。

Dylan Raithel 翻訳者笹井崇司
投稿日 2016年4月22日午前3時38分
Glenn Tamkin氏、NASA大規模気候データへのApache Hadoop適用を語る

NCCS (NASA Center for Climate Simulation) はハイパフォーマンスデータ分析にApache Hadoopを使っている。NASAチームのGlenn Tamkin氏は先月のApacheCon Conferenceで講演し、Hadoopを使って構築した、気候データ分析のためのプラットフォームの詳細について説明した。

Srini Penchikala 翻訳者笹井崇司
投稿日 2015年5月12日午後8時28分
Hortonworks，IBM，Pivotalの3社がビッグデータソリューションでOpen Data Platformをサポート

ビッグデータベンダのHortonworks，IBM，Pivotalの3社は先頃，Hadoopベースの各社プラットフォーム製品に対して，共通のOpen Data Platform(ODP)を採用することを発表した。発表が行われたHadoopSummit Europe Conferenceは，Apache Hadoop 2.6(HDFS, YARN, MapReduce)やApache Ambariソフトウェアといった，オープンプラットフォームのカンファレンスだ。

Srini Penchikala 翻訳者吉田英人
投稿日 2015年5月11日午前12時44分

Login with:

アカウントをお持ちでない方

ニュース