ウェブクローリングサービス 80legs

原文(投稿日：2009/12/30)へのリンク

80legsは、1日に20億ページ以上をクロールするために、5万台を超えるコンピュータにPluraのグリッドを利用する。80legsのCEO、Shion Deysarkar氏によると、80legsのクローリングサービスをリクエストするのは、大体、大規模なグリッドを持つ余裕のない小さなサーチエンジン、市場調査を行う会社、著作権の侵害を監視する組織、競合相手が何をしているか探っている広告会社などだ。

このサービスは、ジョブを設定して実行することで、オンデマンド式でアクセスできる。クローリングプロセスとして、ジョブは1ギガまでのテキストファイルに含まれるシードの一覧が必要だ。その他のジョブパラメタは以下の通りだ。

出力リンク – シードからリンクをたどってクロールするとき、リンクを特定するのに使われる。
深さのレベル – シードからのURLのレベル
クローリングタイプ – 同時に様々な深さ、または、一度に1つだけの深さ
URLの数 – クロールするURLの最大数を指定する
MIMEタイプ – クロールするページタイプを指定する
分析オプション – キーワードマッチング、正規表現、カスタムコードの実行などいくつかの分析オプションがある

ジョブが実行されると、クローラーは出力リンクオプションを考慮しつつ、シードからウェブページを読み始め、ページの内容を分析する。簡単な分析は、マッチするキーワードを指定するか、正規表現に基づいて情報を選択することで可能だが、複雑な分析は、カスタマイズされたアプリケーションや事前に構築された80legsアプリケーションを使うことで、データ上で実行できる。この分析アプリケーションはJavaで書かれている必要がある。80legsは、開発者が自分のアプリケーションを好きな値段で売って、その収入をすべて回収できるアプリケーションストアを開くことを計画している。80legsは開発者を引き寄せるコンテストを始めた。

有料の購読では、クローリングエンジンと情報のやり取りをするPython APIにアクセスできる。Perl APIの計画もある。無料購読者は80legs Portalを通してジョブを作成してコントロールできる。

制限のある無料プランがある。一度に1ジョブで、最大100KBのページが10万ページ、10MBの分析アプリケーション (Java JAR)、APIなし、ドメインの検索は1秒に1ヒット。有料購読は2種類ある。一番いいプランは、5つ同時に繰り返し可能なジョブを提供する。1ジョブにつき1000万ページ、1ページにつき10MB、10MBのJAR、1ドメインで1秒間に10ヒット、100万ページのクローリングは2ドル、CPUの1時間あたりの使用料は3セントだ。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはエンタープライズアーキテクチャです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco