BT

GoogleがHTML5構文解析ライブラリGumboをオープンソース化

作者: Abel Avram , 翻訳者 大田 緑 - (株)チェンジビジョン 投稿日 2013年8月20日 |

原文(投稿日:2013/08/14)へのリンク

Googleが、C言語で書かれたHTML構文解析ライブラリGumboをオープンソース化した。Gumboは、HTML5構文解析アルゴリズムに準拠し、html5lib-0.95のテストをすべてパスしている。また、Googleがインデックスを付けた25億ページでテストされている。

プロジェクトの説明ページによると、Gumboを公開する目的は、軽量なHTML構文解析ライブラリを開発者たちに提供することだ。Gumboは、外部に依存せず、大部分の言語から呼び出すことができる。このライブラリは、ウェブページ検証、静的アナライザ、テンプレート言語、リファクタリングツールなどに入れられるだろう。

Googleは、Gumboが「間違った入力にも強く、すぐに回復できる」としているが、ABIは将来変更される可能性があるので、一部の内部データ構造にはポインタを持たないように推奨している。しかし、APIはかなり安定しているとみられ、チームは、もうすぐリリースされる1.0の前に、ユーザからのコメントを受け付けている。

将来追加される機能の一部は以下の通りだ。

  • テンプレートタグをサポートするという最近のHTML5スペックの変更をサポートする
  • フラグメント構文解析をサポートする
  • フル機能を持つエラー報告
  • 他言語と結びつける

HTML5構文解析アルゴリズムの標準化より前に、各ブラウザは入力ページのトークン化の方法やそのページを表示する方法を選択する。HTML4は有効なマークアップの仕様を持っているが、入力が有効でなかったり、世界のウェブページの95%W3Cリファレンス検証を通らなかったりする時、ブラウザはどうすべきかというガイダンスはない。Gumboのようなツールを使って、HTMLページを検証することで、すべての主要なブラウザで、適切に構文が解析され、表示されることを確認できる。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション
サイト全般について
バグ
広告
記事
Marketing
InfoQ.com and all content copyright © 2006-2016 C4Media Inc. InfoQ.com and 株式会社豆蔵 InfoQ Japan hosted at Contegix, the best ISP we've ever worked with.
プライバシー
BT

We notice you’re using an ad blocker

We understand why you use ad blockers. However to keep InfoQ free we need your support. InfoQ will not provide your data to third parties without individual opt-in consent. We only work with advertisers relevant to our readers. Please consider whitelisting us.