BT

DMTK、Microsoftの機械学習ツールキット

| 作者: Abel Avram フォローする 7 人のフォロワー , 翻訳者 笹井 崇司 フォローする 0 人のフォロワー 投稿日 2015年11月18日. 推定読書時間: 2 分 |

原文(投稿日:2015/11/13)へのリンク

GoogleによるTensorFlowのオープンソース化とほぼ時を同じくして、MicrosoftがGitHubにDMTK(Distributed Machine Learning Toolkit)をプッシュした。GoogleがリリースしたのはTensorFlowの単一マシンバージョンだが、MicrosoftのリリースしたDMTKはクラスタ上で動作する。

DMTKはクラスタ上で大量のデータを使って機械学習モデルをトレーニングするパラメータサーバーフレームワークだ。データストレージおよびオペレーション、プロセスおよびスレッド間通信の面倒を見てくれる。DMTKはC++で書かれており、クライアントAPIとSDKを備えている。通信にはZeroMQoおよび/またはMPIを使う。DMTKの能力を説明するのに、Microsoftはこう言っている。「このツールキットを使うと、たった24マシンのクラスタを使って、2000億トークンのWebドキュメント集合における100万トピックおよび2000万語彙のトピックモデルや、1000次元および2000万語彙のword-embeddingモデルをトレーニングできます。これまでこうした作業には数千台のマシンが必要でした。」

フレームワークをオープンソース化するにあたり、Microsoftは各種ツールも提供している。

  • DMTK – 基本となる機械学習フレームワーク
  • LightLDA – 大規模データに基づくトピックモデルをトレーニングするためのアルゴリズム。この論文によると、LightLDAは、8マシンからなるクラスタ上で「2000億トークンのドキュメント集合における100万トピックと100万語彙(全部で1兆パラメータ)をトレーニングするのに使える」そうで、MicrosoftはBingのモデルをトレーニングするのに使っている。
  • Distributed Word Embedding (DWE) – Word2Vecアルゴリズムの並列化。
  • Distributed Multi-sense Word Embedding (DMWE) - 多義語に使われるSkip-Gram Mixtureアルゴリズムの並列化。

DMTKはトピックモデリングとword embeddingに使われているが、Microsoftによると「コンピュータビジョン、音声認識、テキスト理解」にも使えるという。

ソースコードはGitHubから入手できる。また、WindowsおよびLinux向けにバイナリも提供されている。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT