Google AIは先頃、グラフニューラルネットワーク(Graph Neural Networks、GNNs)分野のパフォーマンスベンチマークを加速するツールとして、GraphWorldをリリースした。AIのエンジニアや研究者にとって、新たなGNNアーキテクチャをより広範なグラフデータセット上でテスト可能にするこのツールは、GNNアーキテクチャの実験や設計における新たな方向性を切り開くものだ。
GraphWorldは、異なるノード次数分布やジニ係数のように、さまざまな構造特性でグラフを生成するための、コンフィギュレーション可能なフレームワークである。生成されたグラフデータセットは、さまざまなGNNアーキテクチャの挙動をテストするための入力として使用される。GraphWorldの最大の特徴は、生成される入力グラフの提供する多様性の大きさに対して、その計算コストの低さと速度にある。そのおかげで研究者や開発者らは、GNNアーキテクチャのパフォーマンスを大規模かつ短時間でテストすることが可能になるのだ。
GNNは、グラフデータセットをモデリングして理解するための、強力なディープラーニングニューラルネットワークアーキテクチャである。おもにニューラルネットワーク層のメッセージパッシングを使用して、各ステージにおける各ノードの情報を更新し、集約する。この情報は、最終的には組み込み情報として、さまざまな層を使ってさまざまな予測モデルを適用するために使用される。医薬品分子探索(drug-molecule discovery)やソーシャルネットワーク特性予測などの分野では、GNNが効果的に使用されている。
従来は、この分野における研究の大半で、5-10 benchmark datasetsなどの制限された古いデータセットが使用されていた。これらのデータセットの多くは、簡易的にラベル付けされた論文引用や、いくつかの分子ネットワークで構成されている。このような制約は、これらのGNNアーキテクチャが実世界の問題解決に適用される場合において、その主張するパフォーマンスを発揮する上で足枷となっていたのだ。Open Graph Benchmark(OGB)など一部の新しいデータセットは、この問題への対処を試みている。OGBは大規模な学術論文引用や分子ネットワークといったデータセットで構成されているが、それでもまだ多様性や変化の面では不足する部分がある。
GraphWorld構築の背景となった動機をさらに訴えるべく、Google AIのエンジニアたちは、OGBとの比較において、Network Repository(NR)というオープンで大規模なグラフのコレクションを使用した上で、グラフの2つの単純な特性、すなわちクラスタリング係数(相互接続されたノードと近隣ノードとの関連性)と次数分布ジニ係数(ノード接続数間の不等価性)について検討を行った。その結果、研究者らは、OGBがNRに比較して密集度が低く、重要なグラフ特性を欠いている点を指摘するに至ったのだ。
以下の図は、GraphWorldのアーキテクチャと、このフレームワークが結果を生成する方法について示している。GraphWorldは並列処理を使用して、異なる確率分布でさまざまな値をサンプリングすることによって、大量のGNNデータセットを生成する。異なる標準や、GCN、GAT、GraphSAGEなどの新たに定義されたGNNモデルと並列してテストを実行し、メトリクスリポジトリ内の全メトリクスを出力して、評価やさらなる分析に用いるのだ。
イメージ出典: Google AI Blog
GraphWorldの研究論文はarXivデータベースで見ることができる。さらに、GraphWorldパッケージはGitHub上で公開されており、一般利用が可能となっている。