GoogleはRobots Exclusion Protocolをインターネット標準にしようとする活動において、それを正式にまとめた

原文(投稿日：2019/07/18)へのリンク

Robots Exclusion Protocol（REP）は、1994年以来、クローラーがWebサイトにアクセスするのを防ぐ方法を定義するルールを管理している。現在、Googleはインターネット技術標準化のためにIETF（draft to the Internet Engineering Task Force）にドラフトを提出している。さらに、Googleはプロトコルの実装をオープンソース化した。

提案されたREPドラフトは、Googlebotと他の主要なクローラーの両方で使用されるrobots.txtルールによる20年以上の実世界での経験と、REPを使っている約5億のWebサイトを反映している。

REPの基本的な定義を変更せずに残したが、考慮されていない多くのシナリオを定義し、最近のWebに適合するように拡張したとGoogleは言っている。特に、新しいREPはHTTPに限定されず、FTPやConstrained Application Protocolなどの他のプロトコルに使用できる。別の新しい規定では、開発者がコンテンツの少なくとも最初の500 KBを解析することを要求することにより、robots.txtファイルの最大サイズを実質的に制限している。それよりも大きい既存のrobots.txtファイルを無視することはありませんが、この要件はサーバの負荷を減らすことを目的としている。新しいREPは、robots.txtファイルがキャッシュされる期間も定義する。基本的に、Googleがかなり長い間実施してきたルールを正式に定めた。そのルールでは、キャッシュ制御ディレクティブがない場合、最大キャッシュ有効期間を24時間に設定する。HTTP Cache-Controlが指定されている。サーバの障害によりrobots.txtファイルにアクセスできなくなった場合、このルールには例外がある。この場合、キャッシュを延長して、以前は許可されていなかったページのクロールを回避できる。

crawl-delay、nofollow、noindexなど、使用中の多くのディレクティブはドラフトに含んでおらず、Googleはこのようなルールを処理するすべてのコードを2019年9月1日までに廃止する。これは、特に、noindexを使ってページがGoogleのインデックスに入るのを防いでいたウェブマスターは代替手段を探す必要がある。例えば、HTTP応答ヘッダーのHTMLでnoindex robotsメタタグを使用するか、404または410 HTTPステータスコードを返す。Googleはまた、robots.txtのDisallowディレクティブはページがGoogleインデックスにリストされないことを保証しないが、何らかの理由でインデックスに登録された場合、それらのページを見えにくくすることを将来目指している。

前述のように、Googleはクローラーで使用していたC++ライブラリもオープンソース化した。このライブラリは、ドラフトプロトコルのリファレンス実装と見なされる可能性があり、robots.txtルールのテストツールが含まれている。Googleの新しいREPドラフトには、robots.txtファイルが従わなければならない更新されたBackus-Naur記述が構文規則として含まれている。C++ライブラリとBackus-Naur仕様はどちらも、開発者が確実なrobots.txtパーサーを容易に構築できる方向に向かっている。

現在、新しいREPドラフトにはコメント要求（RFC）のステータスがあり、関係者からのフィードバックを待っている。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはエンタープライズアーキテクチャです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

エクスペディア、マイクロ・フロントエンドとGraphQL最適化でフライト検索を高速化

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

技術的負債を防ぎ、返済する方法：チームと技術リーダー、マネージャーができること

研究者らが、LLMジェイルブレイク攻撃の防御アルゴリズム"SafeDecoding"のオープンソース化を発表

OpenAI、"Transformer Debugger"ツールをリリース

RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

オラクル、ARMとKubernetes 1.28をサポートするOracle Cloud Native 1.8を発表

SUSE、Kubernetesとエッジ管理製品のアップグレードを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方