InfoQ ホームページニュース Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

AIと機械学習、データエンジニアリング

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

2018年9月9日読了時間 8 分

作者：

Rags Srinivas

翻訳者

h_yoshida _

原文(投稿日：2018/07/19)へのリンク

Hadoop 3.1をベースとするHortonworks Data Platform (HDP) 3.0が先頃、GA(General Availability)に到達した。

Apache Hadoop 3.1をベースに、HDP 3.0は、コンテナリゼーション(Containerization)やGPUサポート、Erasure Coding(消失訂正符合)、Namenode Federationといった機能を備える。企業向けの機能としては、デフォルトでインストールされるApache RangerとApache Atlasを活用したTrusted Data Lakeが用意されている。また、Apache FalconやApache Mahout、Apache Flume、Apache Hueなど一部のコンポーネントが削除され、Apache Sliderの機能はApache YARNに吸収されている。

Hortonworksでプロダクトマネジメントを担当するシニアディレクタのSaumitra Buragohain氏に、Hadoop一般とHDP 3.0で注目すべき点について聞いた。

InfoQ: SparkやKafkaなど、他のビッグデータプラットフォームの成功によって、Hadoopはもはや時代遅れ(passe)だという声もありますが、そのような中でも、Hadoop、特にHDP 3.0は、いまだ企業において重要な、開発者が注目すべき存在なのでしょうか？

Buragohain: Hadoopは、10年前のストレージ層(Apache HDFS)とバッチワークロード(MapReduce)を中心に運用されていた初期の段階から進化しています。第４次産業革命の先端にいる私たちにとって、Hadoopのビッグデータスタックは、リアルタイムデータベース(Apache Hive 3.0の搭載による)、マシンラーニングとディープラーニングのプラットフォーム(Apache Spark、Apache TensorFlow)、ストリーミング処理(Apache Kafka、Apache Storm)、運用データストア(Apache Phoenix、Apache HBase)を含むものに発展してきました。私たちのHDP 3.0ブログの記事に、ぜひご注目ください！HDP 3.0はオンプレミスでも、すべての主要なクラウドプロバイダ(Amazon、Azure、Google Cloud)にも展開することが可能です。

InfoQ: HDP 3.0のリアルタイムデータベースは、対話的なクエリにSparkライクな機能を提供することを目的としているのでしょうか？専門的なプログラマではないデータサイエンティストにも分かるように、実装に関する技術的な詳細を説明して頂くことは可能ですか？

Buragohain: リアルタイムデータベースでは、Apache Hive 3.0とApache Druidを使用して、バッチデータベースと履歴データベースに共通のSQL層を実現しています。DruidはOLAPキューブを作成できるため、大規模なデータベースをリアルタイムで照会することが可能です。HDP 3.0で注目すべきApache Hiveの機能は、次のようなものです。

LLAPのワークロード管理: マルチテナント環境で、リソース競合を気にすることなくLLAPを実行できます。

ACID v2とACIDがデフォルトで有効: ACID v2をリリースしています。ストレージフォーマットと実行エンジンの両面でパフォーマンスを向上したことにより、非ACIDテーブルと比較して、同等以上のパフォーマンスを実現しました。そのため、ACIDをデフォルトとして、データ更新を完全にサポートしています。

Hive Warehouse Connector for Spark: Hive Warehouse Connectorによって、SparkアプリケーションからHiveデータウェアハウスに接続することが可能です。ACIDテーブルも自動的に処理されます。

マテリアライズドビュー・ナビゲーション: Hiveのクエリエンジンでマテリアライズドビューがサポートされました。使用可能であれば、マテリアライズドビューを自動的に使用してクエリをスピードアップします。

情報スキーマ: Hive SQLインターフェースクエリを介して、データベースのメタデータ(テーブル、カラムなど)が公開されています。

JDBCストレージコネクタ: 任意のJDBCをマップ可能です。

主要なDruid機能は次のものです。

Kafka-Druid連携: KafkaのトピックをDruidテーブルにマップできるようになりました。イベントは自動的に取り込まれ、ほぼリアルタイムで照会することができます。

InfoQ: 巷にはコンテナが溢れていますが、HDP 3.0ではコンテナをどのように活用できるのでしょうか？

Buragohain: YARNは元々、ネイティブコンテナをメモリとCPUの単位でサポートしていますが、そのモデルを拡張してDockerコンテナをサポートして、メモリとCPUにGPUサポートを追加しました。これによって、Python(2.7、3.5のいずれも)やさまざまなPythonライブラリなどの依存関係と自身のアプリケーション(Sparkなど)をパッケージ化して、HDP 3.0クラスタを共有する他のテナントから独立した形で実行できるようになります。YARN上のTensorFlowをDockerコンテナ化して、GPUプーリング機能を活用することも可能です。さらに、サードパーティのワークロードをHDP 3.0に移行することもできるようになりました。これがHDP 3.0のパワーです。10年前のHadoop 1.0から大きく進歩しています。

InfoQ: ディープラーニングもトレンド技術のひとつですが、HDP 3.0ではマシンラーニングとの親和性が高まっているように思います。HDPとディープラーニングの利用について話して頂けますか？

Buragohain: 分かりました。私たちは数年前から、HDPのコアコンポーネントとしてSparkを提供してきました。現在では、ユーザのインストールベースの中で、HDPの最大のワークロードのひとつになっています。今回、ディープラーニングフレームワークに拡張して、GPUプーリングやアイソレーションといった機能をサポートすることで、データ科学者が高価なGPUを共有できるようになります。前に述べたように、コンテナ化されたワークロードもサポートしていますので、Dockerコンテナ化されたTensorFlow 1.8を実行して、YARN GPUプーリングと、HDP 3.0データストア層(HDP 3.0がクラウドにデプロイされている場合はクラウドストレージ)に格納したトレーニングデータを使って、ディープラーニングモデルをトレーニングすることが可能になります。私たちがDataWorks Summitの基調講演でデモを行った、HDP 3.0テクノロジを使った自律走行車(1/10スケール)のトレーニングをご覧頂くこともできます。

InfoQ: Hadoop 3.0にはErasure Codingが含まれていますが、これがどのように実装されているのか、HDP 3.0で何らかの変更があるのか、説明して頂けますか？

Buragohain: Erasure Coding(消失訂正符合)とは、要するにノード間のRAIDです。企業向けのストレージ産業において、ベンダ/ユーザがRAID10(ミラーリング)よりもRAID6を採用する傾向があるのと同じような移行を、私たちもHadoop Data Storage(Apache HDFS)で行っているのです。同じデータをさらに2つ保持する代わりに、データを6つのシャードに分割した上で、3つのパリティシャードを作成します。この9つのシャードは9つのノードに格納されます。これによって、3ノードがダウンしても、残り6つのシャード(データあるいはパリティ)からデータを構築できます。つまり、3つのレプリカによるアプローチと同じ障害回復能力を、半分のストレージフットプリントで提供することができるのです。

デフォルトではレプリカによるアプローチが使用されます。Erasure Codingを使用するには、ディレクトリを構成する必要があります。複数のReed Solomon Encoding(リードソロモン符合) – RS(6,3)、RS(10,4)、RS(3,2) – を選択することが可能です。構成後は、そのディレクトリに格納されるすべてのデータがコード化されます。初期状態ではコールドデータ用のErasure Codingをサポートしていますが、オプションのハードウェアアクセラレーションを行うHDP 3.0ユーティリティの一部として、Intel Storage Accelarationライブラリをオプションとして提供しています。

InfoQ: HDP 3.0では、Hadoop 3.0に対して何が追加されていすか？HDP 3.0以降のロードマップについても教えてください。

Buragohain: 私たちのブログに注目していてください。HDP 3.0 GAが先日発表されましたが、そのリリースノートに詳細な機能(リアルタイムデータベース、ストリーム処理、マシンラーニングとディープラーニング用プラットフォームなど)が取り込まれています。最後になりますが、私たちは(シングルワークロードベンダとは違って)必要なツールをすべてツールボックスに用意していますので、ユーザが自由に選択することができます。私たちは長期的な視点でHDPに投資しています。2019年にはさらにエキサイティングなアップデートを予定しています！

HDP 3.0のリリースノートは、HDP 3.0 Release Notesのページで入手可能である。

この記事を評価

提出

提出著者連絡

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。