BT

GitHubのすべてのオープンソースプロジェクトがGoogle BigQueryで検索可能に

| 作者: Sergio De Simone フォローする 17 人のフォロワー , 翻訳者 徳武 聡 フォローする 0 人のフォロワー 投稿日 2016年7月21日. 推定読書時間: 2 分 |

原文(投稿日:2016/07/08)へのリンク

GitHub上の280万を超えるのオープンソースプロジェクトの全てのスナップショットがGoogleのBigQueryから問い合わせできる、とGoogleGitHubが発表した。GitHub上のおよそ20億のソースファイルがSQLを使って検索できるようになる。

GitHubのBigQueryデータセットはGitHub Archive Projectをベースにしている。このプロジェクトはGitHubの特定の時点でのスナップショットを作成し、分析のために保存、アクセス可能にすることを目的にしている。このデータセットのおかげで、GitHub Archive ProjectのコンテンツはSQLライクな問い合わせで検索可能になった。

GitHubのオープンソースデータのプログラムマネージャであるArfon Smith氏によれば、この新しいBigQueryのデータセットは、例えば、Goでもっとも使われているパッケージオープンソースのコントリビュータがもっとも多く在籍するアメリカの学校を探ることができる。また、オープンソースコミュニティや最新の開発トレンドを研究する研究者にも有用だ、と氏は言う。

GoogleのFelipe Hoffa氏によれば、特定のオープンソースライブラリを使っているプロジェクトを検索したり、使われ方を分析することでそのライブラリの将来の開発の行く末を決める役に立つデータを集めることもできる。

Mediumの記事で、氏はGoogleのエンジニアなどが作成したクエリを一覧している。Go言語を分析するためのクエリや、もっとも使われているJavaのインポートAngularのディレクティブemacsのパッケージなどのクエリだ。

GitHubのBigQueryデータセットは1.5TBのデータを含み、毎時更新されている。利用するには、

Googleは月間1TBのデータの処理は無料枠を提供している。しかし、メインのデータセット(bigquery-public-data:github_repos.contents)に対するひとつの問い合わせで無料枠のTBを消費すると警告している。23GBの公式の抽出データ(bigquery-public-data:github_repos.sample_contents)やGo、ruby、JavaScript、PHP、Python、Javaなどの人気言語の言語別のデータはGoogleが提供している。BigQueryではカスタムのデータセットも作成できるがユーザがストレージの料金を負担する必要がある。

Google BigQuery Public DatasetsはGoogleがBigQueryを通じて提供するデータセットであり、ユーザは問い合わせにのみ課金されるという特別なプランで提供されている。アメリカ人の名前や2006年からのHacker Newsの記事やコメント、1029年から2016年までの世界の気候データなどが提供されている。

 
 

Rate this Article

Relevance
Style
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT