BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ Hadoop に関するすべてのコンテンツ

  • UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり

    Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習(ML)トレーニング・スタックをGoogle Cloud Platform(GCP)に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。

  • LinkedIn、システムの複雑性低減のためにLambdaアーキテクチャを廃止

    LinkedInのソフトウェアエンジニアらは先頃、同社がLambdaアーキテクチャを廃止した経緯を公開した。Lambdaアーキテクチャの実装は、ソリューション全体の運用オーバーヘッドが高く、構造が複雑になり、結果としてプロダクトとしてのイテレーション時間が遅かった。そのためエンジニアらは、Lambdaを使用しないアーキテクチャへのマイグレーションを選択し、開発速度の大幅な改善を実現したのだ。

  • pacheCon 2019基調講演 - Google CloudによるKubernetesを使用したビッグデータ処理の拡張

    ApacheCon North AmericaでChristopher Crosbie氏が、"Yet Another Resource Negotiator for Big Data? How Google Cloud is Enhancing Data Lake Processing with Kubernetes"と題した基調講演を行った。講演の中で氏が強調したのは、Kubernetesクラスタ内でApacheソフトウェアを動作させるためのコントロールプレーンを提供する、オープンソースのKubernetesオペレータを開発することによって、Apacheのビッグデータソフトウェアを"クラウドネイティブ"にするという、Googleの取り組みについてだった。

  • GoogleがHadoopのビッグデータワークロード用にCloud Storage Connectorを公開

    Googleは先日のブログ記事で、Cloud Strage Connector for Hadoopを新たに発表した。この新機能によって、従来のHDFSをGoogle Cloud Storageに置き換えることが可能になる。ParquetやORCといったカラムナファイル(Columnar file)形式により、スループット向上の実現が期待されると同時に、Cloud Storageディレクトリの分離、低いレイテンシ、並列性の向上、インテリジェントなデフォルト設定といったメリットを享受することができる。

  • Badooのデータエンジニアリング:1日あたり200億のイベントを処理

    Badooは現在、1日あたり数十億のイベントを処理する出会い系ソーシャルネットワークであるとデータプラットフォームエンジニアリングリードのVladimir Kazanov氏は説明する。Skills Matterで、彼はこの規模での運用の課題と、Badooがこのデータを処理およびレポートするために使用するツールについて説明した。

  • Uberのビッグデータプラットフォームが100ペタバイト超の規模に至るまで

    Uberのエンジニアリングチームは、同社のビッグデータプラットフォームが、リレーショナルデータベースを使用した旧来のETLジョブから、HadoopとSparkをベースとするものへと発展した状況に関する記事を書いた。スケーラブルな取り込みモデル、標準転送フォーマット、インクリメンタルアップデートのためのカスタムライブラリが、同社プラットフォームの主要なコンポーネントである。

  • Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

    Hortonworksでプロダクトマネジメントを担当するシニアディレクタのSaumitra Buragohain氏に、Hadoop一般とHDP 3.0で注目すべき点について聞いた。

  • Dataikuが最新リリースでディープラーニングとコンピュータビジョンを統合

    共同データサイエンスプラットフォームDatakuのData Science Studioの最新リリースには、画像処理用に事前学習されたディープラーニングモデルが含まれている。DSSプラットフォームはデータソーシングや可視化から運用展開まで、データサイエンスプロジェクトの全ステップを実行する。マシンラーニングモデルは標準的なライブラリをサポートする。Hadoopや複数のSparkエンジンとの統合も可能だ。

  • ZeroStackがDevOps Workbenchの提供開始

    プライベートクラウドプロバイダのZeroStackは、開発者が独自のワークベンチを作成できるセルフサービス機能を発表した。ZerostackのIntelligent Cloud Platformを介して、DevOps Workbenchのユーザは、オープンソースと商用のプロバイダから提供されている40の開発ツールを利用できる。

  • Apache HBase 1.3リリースで多数のパフォーマンス改善

    Apache HBase 1.3.0は、2017年1月中旬にリリースされた。今回のリリースでは、日付ベース階層圧縮がサポートされ、ログ先行書き込み(WAL)や新しいRPCスケジューラなど複数箇所で改善があった。このリリースには、合計で約1,700件の解決済みのissueが含まれている。

  • Julien Le Dem氏に聞く - Apache Arrowが示すカラム指向データ処理の未来

    Apache ArrowプロジェクトでPMCのリーダを務めるJulien Le Dem氏が,カラム指向データ処理の今後について,Data Eng Conf NYでプレゼンテーションを行なった。Apache Arrowはカラム型インメモリデータベースのオープンソース標準である。InfoQはParquetとの違いを確認すべく,氏にインタビューした。

  • PolyBaseを使用したSQL ServerとHadoopの結合

    先日リリースされたSQL Server 2016では,HadoopとAzureのBlobストレージにSQLクエリを使用することができる。マップ/レデュース操作の記述が不要になるだけでなく,リレーショナルデータベースと非リレーショナルデータベースの結合も単一のクエリで実行可能になる。

  • Google、Cloud Machine LearningとTensorFlowのα版リリース

    先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にインテグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。

  • Glenn Tamkin氏、NASA大規模気候データへのApache Hadoop適用を語る

    NCCS (NASA Center for Climate Simulation) はハイパフォーマンスデータ分析にApache Hadoopを使っている。NASAチームのGlenn Tamkin氏は先月のApacheCon Conferenceで講演し、Hadoopを使って構築した、気候データ分析のためのプラットフォームの詳細について説明した。

  • Hortonworks,IBM,Pivotalの3社がビッグデータソリューションでOpen Data Platformをサポート

    ビッグデータベンダのHortonworks,IBM,Pivotalの3社は先頃,Hadoopベースの各社プラットフォーム製品に対して,共通のOpen Data Platform(ODP)を採用することを発表した。発表が行われたHadoopSummit Europe Conferenceは,Apache Hadoop 2.6(HDFS, YARN, MapReduce)やApache Ambariソフトウェアといった,オープンプラットフォームのカンファレンスだ。

BT