InfoQ ホームページニュース Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

AIと機械学習、データエンジニアリング

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

2018年9月9日読了時間 8 分

作者：

Rags Srinivas

翻訳者

h_yoshida _

原文(投稿日：2018/07/19)へのリンク

Hadoop 3.1をベースとするHortonworks Data Platform (HDP) 3.0が先頃、GA(General Availability)に到達した。

Apache Hadoop 3.1をベースに、HDP 3.0は、コンテナリゼーション(Containerization)やGPUサポート、Erasure Coding(消失訂正符合)、Namenode Federationといった機能を備える。企業向けの機能としては、デフォルトでインストールされるApache RangerとApache Atlasを活用したTrusted Data Lakeが用意されている。また、Apache FalconやApache Mahout、Apache Flume、Apache Hueなど一部のコンポーネントが削除され、Apache Sliderの機能はApache YARNに吸収されている。

Hortonworksでプロダクトマネジメントを担当するシニアディレクタのSaumitra Buragohain氏に、Hadoop一般とHDP 3.0で注目すべき点について聞いた。

InfoQ: SparkやKafkaなど、他のビッグデータプラットフォームの成功によって、Hadoopはもはや時代遅れ(passe)だという声もありますが、そのような中でも、Hadoop、特にHDP 3.0は、いまだ企業において重要な、開発者が注目すべき存在なのでしょうか？

Buragohain: Hadoopは、10年前のストレージ層(Apache HDFS)とバッチワークロード(MapReduce)を中心に運用されていた初期の段階から進化しています。第４次産業革命の先端にいる私たちにとって、Hadoopのビッグデータスタックは、リアルタイムデータベース(Apache Hive 3.0の搭載による)、マシンラーニングとディープラーニングのプラットフォーム(Apache Spark、Apache TensorFlow)、ストリーミング処理(Apache Kafka、Apache Storm)、運用データストア(Apache Phoenix、Apache HBase)を含むものに発展してきました。私たちのHDP 3.0ブログの記事に、ぜひご注目ください！HDP 3.0はオンプレミスでも、すべての主要なクラウドプロバイダ(Amazon、Azure、Google Cloud)にも展開することが可能です。

InfoQ: HDP 3.0のリアルタイムデータベースは、対話的なクエリにSparkライクな機能を提供することを目的としているのでしょうか？専門的なプログラマではないデータサイエンティストにも分かるように、実装に関する技術的な詳細を説明して頂くことは可能ですか？

Buragohain: リアルタイムデータベースでは、Apache Hive 3.0とApache Druidを使用して、バッチデータベースと履歴データベースに共通のSQL層を実現しています。DruidはOLAPキューブを作成できるため、大規模なデータベースをリアルタイムで照会することが可能です。HDP 3.0で注目すべきApache Hiveの機能は、次のようなものです。

LLAPのワークロード管理: マルチテナント環境で、リソース競合を気にすることなくLLAPを実行できます。

ACID v2とACIDがデフォルトで有効: ACID v2をリリースしています。ストレージフォーマットと実行エンジンの両面でパフォーマンスを向上したことにより、非ACIDテーブルと比較して、同等以上のパフォーマンスを実現しました。そのため、ACIDをデフォルトとして、データ更新を完全にサポートしています。

Hive Warehouse Connector for Spark: Hive Warehouse Connectorによって、SparkアプリケーションからHiveデータウェアハウスに接続することが可能です。ACIDテーブルも自動的に処理されます。

マテリアライズドビュー・ナビゲーション: Hiveのクエリエンジンでマテリアライズドビューがサポートされました。使用可能であれば、マテリアライズドビューを自動的に使用してクエリをスピードアップします。

情報スキーマ: Hive SQLインターフェースクエリを介して、データベースのメタデータ(テーブル、カラムなど)が公開されています。

JDBCストレージコネクタ: 任意のJDBCをマップ可能です。

主要なDruid機能は次のものです。

Kafka-Druid連携: KafkaのトピックをDruidテーブルにマップできるようになりました。イベントは自動的に取り込まれ、ほぼリアルタイムで照会することができます。

InfoQ: 巷にはコンテナが溢れていますが、HDP 3.0ではコンテナをどのように活用できるのでしょうか？

Buragohain: YARNは元々、ネイティブコンテナをメモリとCPUの単位でサポートしていますが、そのモデルを拡張してDockerコンテナをサポートして、メモリとCPUにGPUサポートを追加しました。これによって、Python(2.7、3.5のいずれも)やさまざまなPythonライブラリなどの依存関係と自身のアプリケーション(Sparkなど)をパッケージ化して、HDP 3.0クラスタを共有する他のテナントから独立した形で実行できるようになります。YARN上のTensorFlowをDockerコンテナ化して、GPUプーリング機能を活用することも可能です。さらに、サードパーティのワークロードをHDP 3.0に移行することもできるようになりました。これがHDP 3.0のパワーです。10年前のHadoop 1.0から大きく進歩しています。

InfoQ: ディープラーニングもトレンド技術のひとつですが、HDP 3.0ではマシンラーニングとの親和性が高まっているように思います。HDPとディープラーニングの利用について話して頂けますか？

Buragohain: 分かりました。私たちは数年前から、HDPのコアコンポーネントとしてSparkを提供してきました。現在では、ユーザのインストールベースの中で、HDPの最大のワークロードのひとつになっています。今回、ディープラーニングフレームワークに拡張して、GPUプーリングやアイソレーションといった機能をサポートすることで、データ科学者が高価なGPUを共有できるようになります。前に述べたように、コンテナ化されたワークロードもサポートしていますので、Dockerコンテナ化されたTensorFlow 1.8を実行して、YARN GPUプーリングと、HDP 3.0データストア層(HDP 3.0がクラウドにデプロイされている場合はクラウドストレージ)に格納したトレーニングデータを使って、ディープラーニングモデルをトレーニングすることが可能になります。私たちがDataWorks Summitの基調講演でデモを行った、HDP 3.0テクノロジを使った自律走行車(1/10スケール)のトレーニングをご覧頂くこともできます。

InfoQ: Hadoop 3.0にはErasure Codingが含まれていますが、これがどのように実装されているのか、HDP 3.0で何らかの変更があるのか、説明して頂けますか？

Buragohain: Erasure Coding(消失訂正符合)とは、要するにノード間のRAIDです。企業向けのストレージ産業において、ベンダ/ユーザがRAID10(ミラーリング)よりもRAID6を採用する傾向があるのと同じような移行を、私たちもHadoop Data Storage(Apache HDFS)で行っているのです。同じデータをさらに2つ保持する代わりに、データを6つのシャードに分割した上で、3つのパリティシャードを作成します。この9つのシャードは9つのノードに格納されます。これによって、3ノードがダウンしても、残り6つのシャード(データあるいはパリティ)からデータを構築できます。つまり、3つのレプリカによるアプローチと同じ障害回復能力を、半分のストレージフットプリントで提供することができるのです。

デフォルトではレプリカによるアプローチが使用されます。Erasure Codingを使用するには、ディレクトリを構成する必要があります。複数のReed Solomon Encoding(リードソロモン符合) – RS(6,3)、RS(10,4)、RS(3,2) – を選択することが可能です。構成後は、そのディレクトリに格納されるすべてのデータがコード化されます。初期状態ではコールドデータ用のErasure Codingをサポートしていますが、オプションのハードウェアアクセラレーションを行うHDP 3.0ユーティリティの一部として、Intel Storage Accelarationライブラリをオプションとして提供しています。

InfoQ: HDP 3.0では、Hadoop 3.0に対して何が追加されていすか？HDP 3.0以降のロードマップについても教えてください。

Buragohain: 私たちのブログに注目していてください。HDP 3.0 GAが先日発表されましたが、そのリリースノートに詳細な機能(リアルタイムデータベース、ストリーム処理、マシンラーニングとディープラーニング用プラットフォームなど)が取り込まれています。最後になりますが、私たちは(シングルワークロードベンダとは違って)必要なツールをすべてツールボックスに用意していますので、ユーザが自由に選択することができます。私たちは長期的な視点でHDPに投資しています。2019年にはさらにエキサイティングなアップデートを予定しています！

HDP 3.0のリリースノートは、HDP 3.0 Release Notesのページで入手可能である。

この記事を評価

提出

提出著者連絡

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。