Mahout 0.3: オープンソースの機械学習プロジェクト

原文(投稿日：2010/04/19)へのリンク

オープンソースの機械学習プロジェクト Apache Mahoutが３月にバージョン０．３のリリースをアナウンスし、機能性、安定性、パフォーマンスが改善された、と言う。 Apache Mahout プロジェクトの共同創立者でコミッタの Grant Ingersoll氏とコミッタの Ted Dunning氏にInfoQが聞いた

クラスタリング、協調フィルタリングそしてカテゴリー化のような機械学習の技術の必要性が、大量の生データを関連する情報に変換するアルゴリズムを必要とする、いくつかのソリューションといっしょに、この１０年間に、着実に増えてきた。

Grant Ingersoll 氏によって導入された Mahout プロジェクトが取り組むのは:

コンテキスト認識の手法によって文書を一括クラスタリングすることで、人は、たくさんの無関係な文書をかき分ける必要なしに、特定のクラスタや話に選択的に集中できる。
推薦（いわゆる協調フィルタリング）は、しばしば本、音楽、映画のような消費アイテムを推薦するのに使われるが、複数のアクターが、データを絞り込むのに、協調する必要がある、他のアプリケーションでも使われる。
パターンマッチング（ Naïve Bayes Classifier や他）がまだ見たことがない文書を分類するのに使われる。新しい文書が分類されると、文書中の言葉が，モデル中で調べられ、確率が計算されて、最高の結果が出力される。大抵は、結果の正確性に対する確かさを示す点数といっしょに、出力される。
Mahoutプロジェクトは、スケーリングの目的に、Apache Hadoop の力を借りている。

Mahout ソリューションの他の重要な側面は、テキストデータのベクトル表現を作成するツールセットだ、ということである。これは、Mahout の学習アルゴリズムがデータのベースを処理できるようになる、最初のステップである。

Mahoutプロジェクトは、 Apache Lucene （オープンソースの検索プロジェクト）コミュニティで、クラスタリングとカテゴリー化の機械学習アルゴリズムに強い興味を持っていた数人によって始められた。コミュニティは、当初、 Ng et al.の論文 Map-Reduce for Machine Learning on Multicore に触発されたが、その後、ずっと広範囲の機械学習アプローチを対象にするぐらいに進化した。

新しいApache Mahout リリースのハイライトは:

新しい：高パフォーマンスの Colt libraryをベースにした数学と収集のモジュール
より高速な Frequent Pattern Growth (FPGrowth)、FP-bonsai 枝刈りを使用している
並行 Dirichlet プロセスクラスタリング（モデルベースのクラスタリングアルゴリズム）
並行な共起ベースの推薦機能
LLRベースのnグラム生成を使用したテキスト文書のベクタへの並行変換
並行 Lanczos SVD （特異値分解）ソルバー
アルゴリズムをより簡単に走らせるためのシェルスクリプト、ユーティリティと例

このリリースで最も興奮をおぼえるようなフィーチャは，何なのかを聞いた時、 Ingersoll氏が答えたのは:

分散型のSVDの導入は，多くのユーティリティと同様に、非常におもしろいですよ。人々が自分のコンテンツを Mahoutに入力するのがより簡単になります。最も興奮するフィーチャは、実のところ無形のものです、 Mahout コミュニティが、そのコントリビューターとユーザの数で存続のしきい値を超えたことです。どんなオープンソースの生涯でも、最初の段階では、非常に微妙で、わずか１人ないし２人がほとんどの開発を行い、もしそのうちの１人が開発を止めたり、あるいは遅らすだけで、そのプロジェクトは、挫折することになります。 Mahoutは、そのしきい値を超え、今や、多くの人々が積極的に、真に面白いものを作るために貢献しています。

Mahoutプロジェクトの将来の計画に含まれるのは:

バージョン１．０が今年中にリリースされる
安定したAPIのセットは、１．０リリース以降になる
Stochastic Gradient Descent (SGD) アルゴリズムのようなオンライン学習機能の実装
Support Vector Machine (SVM) アルゴリズムの実装

SGDとSVMの実装は、文書マイニングとテキストや繰り返しカテゴリカルデータに関係した他のアプリケーションに応用できるだろう。特に面白いのは、SGD システムは相互作用変数をまとめて作ることができる能力を導入する計画のあることである。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはエンタープライズアーキテクチャです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

オラクル、ARMとKubernetes 1.28をサポートするOracle Cloud Native 1.8を発表

SUSE、Kubernetesとエッジ管理製品のアップグレードを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方