BT

BeamがトップレベルのApacheプロジェクトへ昇格

| 作者: Dylan Raithel フォローする 8 人のフォロワー , 翻訳者 編集部T フォローする 1 人のフォロワー 投稿日 2017年3月6日. 推定読書時間: 3 分 |

原文(投稿日:2017/02/21)へのリンク

Beamが最近、Apache Software Foundationのトップレベルプロジェクトに昇格した。 Beamのゴールは、移植性のある高レベルなデータパイプラインを使用して、無限に発生する、順序がバラバラの世界中のデータを処理することである。Beamは、最初はGoogleの内部プロジェクトであったが、Apacheに移行し、2016年2月から昨年末までインキュベーションであった。Beamプロジェクトは、ストリーミングおよびバッチ処理ジョブ用に統一されたプログラミングモデルを作成し、サポートされる多くのデータ処理エンジンによって利用される成果物を目指している。Beamが求めるものは下記の通りである。

使いやすさを提供しつつも、ストリーミングとバッチの両データの並列処理に対する強力なモデルと、さまざまな実行プラットフォームでの移植性を世界中に提供します。Beam SDKは、有限と無限のデータの両方を表現するために同じクラスを使用し、そのデータを処理するために同じ変換を使用する。

JavaおよびPythonで利用可能なSDKは、選択したバックグラウンド処理エンジンと処理パイプラインコンポーネントの間の抽象化されたレイヤを提供する。サポートされている処理エンジンには、Apache ApexFlinkSpark、GoogleのCloud Dataflowエンジンなどがある。

Beamパイプラインのプログラミングモデルには、PCollection(s)、Transform(s)、およびPipeline I/Oのほか、サポートされている各処理エンジンのランナーが含まれます。ランナーの指定を省略した場合、BeamはローカルのDirectRunnerをデフォルトとして使用する。

GoogleがBeamをオープンソースにした動機は、他のオープンソースプロジェクトとのインテグレーションやプロジェクトへの貢献を支援する新興ビジネスモデルの一部というところにある。その論理としては、オープンソース化することでBeamプロジェクト採用の可能性が高まり、Google Dataflowプラットフォームの露出が広がる。そして、サポートされるエンジンの中で最適な処理エンジンとしての位置づけになっていくことを期待している。GoogleにおけるSparkとBeamの比較では、Beamがイベント時刻のウィンドウ処理、電子透かし、トリガー機能によって実現されるようなセマンティクスに重点を置いているため、ストリームデータ処理とバッチデータ処理の正しいモデルとしてBeamモデルを言及している。オープンソースコミュニティとより幅広いデータ科学業界は、Googleとは独立してこれらの主張を実験的に検証していないため、アーキテクチャやベンチマークに関するより多くのユースケース分析を行う必要がある。初期の兆候として、Beamコミュニティが拡大し、複数の処理プラットフォームのサポートに関する肯定的なフィードバックがある。

 
 

Rate this Article

Relevance
Style
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT