GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

原文リンク(2025-05-27)

GitHub社は、4月24日から、Copilot Free、Pro、およびPro+のユーザーからのインタラクションデータを、同社のAIモデルの訓練および改善のために使用すると発表。ユーザーは初期設定で同意した状態となっており、データを訓練に使用されたくない場合は、自ら設定を無効にする必要がある。Copilot BusinessおよびEnterpriseのユーザーは、この変更の対象外だ。

この発表は、GitHub社のchief product officerであるMario Rodriguez氏によって公表され、当該設定が有効になっている場合に収集され得るデータについて説明。収集され得るデータには、受け入れられた、または修正された出力、Copilotに送信された入力およびコードスニペット、カーソル位置周辺のコードコンテキスト、コメントおよびドキュメンテーション、ファイル名、リポジトリ構造、ナビゲーションパターン、チャットやインライン提案を含むCopilot機能とのインタラクション、ならびに提案に対するサムズアップまたはサムズダウンのフィードバックが含まれる。以前にGitHub社のプロンプトおよび提案の収集設定をオプトアウトしていたユーザーについては、その設定が引き継がれる。

GitHub社は、この変更をモデルの性能を向上させるために必要な措置であると位置付けた。同社は、すでにマイクロソフトの従業員からのインタラクションデータを取り入れており、その結果として、複数の言語において提案の受け入れ率が上昇。この発表に付随するFAQによると、この変更は4月24日に発効し、ユーザーには30日前の事前通知が与えられようとしている。

データ収集の範囲が適切かどうか、厳しい目が向けられている。ユーザーが当該リポジトリでCopilotを積極的に使用している場合、プライベートリポジトリのコードが収集され、訓練に使用される可能性がある。GitHub社は、「at rest」にあるコードと、セッション中にCopilotへ積極的に送信されるコードとを区別している。同社は、「at rest」にあるコードにはアクセスしないとしている一方、セッション中にCopilotへ送信されるコードは新方針の範囲内に含まれるとしている。収集されたデータは、FAQで定義されているGitHub社の関連会社とも共有され得る。関連会社とは、同一の企業グループに属する企業であり、主としてマイクロソフトおよびその子会社だ。サードパーティのモデルプロバイダは、独自のトレーニング目的でこのデータを受け取ることはないとした。

コミュニティの反応は否定的である。GitHubコミュニティのディスカッションにおいて、開発側は初期設定でオプトインとなっている方式を批判し、複数の参加者がこれをダークパターンであると呼んだ。例えば、burnhamup氏がそのように指摘。

設定を無効にするための手順を記した電子メールにおいて、実際には設定を更新するページへのリンクを設けていないダークパターンです。

別のinakarmacoma氏は、オプトアウト設定がGitHubのモバイルアプリを通じて利用できないと指摘した。Reddit上では、1,000件を超えるアップボートを集めたスレッドが、現在GitHubのリポジトリにおいて増加する割合を占めるAI生成コードでの学習によるモデル崩壊への懸念を提起するとともに、オプトアウトのトグルがいかなる強制力のある保証を提供するのかという疑問も提起した。

当該方針は、個人向けティアのCopilotライセンスを利用する組織にとっても疑問を提起するものである。GitHub上の議論において、ある開発側は、組織内の個々のユーザーは通常、自身の雇用主のソースコードを第三者にライセンス供与する権限を有していないと指摘した。しかし、オプトアウトは組織単位ではなくユーザー単位で適用される。オプトアウトしない単一のチームメンバーが、Copilotとのやり取りを通じて専有コードを露出させる可能性があるとされた。GitHub社のFAQはこれに部分的に言及しており、有料組織のメンバーである、または外部コラボレーターであるアカウントのユーザーからのインタラクションデータはモデル訓練から除外されるとし、また有料組織のリポジトリからのデータは、ユーザーのサブスクリプション階層にかかわらず決して使用されないとしている。

Reddit上のあるコメント投稿者であるNeatRuin7406氏は、この問題の競争的側面をより広い文脈で位置付け、オプトアウトという枠組みは構造的問題を見落としていると主張した。

Copilotを使用する際、単に提案を受け取っているのではなく、自身の領域において何が良いコードであるかを暗黙にモデルに教えることになります。自社固有のパターン、アーキテクチャ上の意思決定、ドメイン特有のイディオム、命名規則のすべてが、一般的なモデルの中に取り込まれます。その結果、そのモデルは同じツールを使用する他のすべての利用、すなわち直接の競合相手を含む者に対する提案を改善することになります。

別のコメント投稿では、潜在的なGDPR上の懸念を提起し、個人を特定し得る情報の処理に関してGitHub社が示す「正当な利益」という適法根拠は、当該事案においてはデータ主体の権利および自由が優越すると見なされ得るため、EU法の下では通用しない可能性があると主張した。

GitHub社のFAQは、競合他社との比較にも言及しており、マイクロソフト社、Anthropic社、JetBrains社が、モデル訓練のためにインタラクションデータを利用する点で同様のアプローチを採用していると指摘している。利用者は、「Allow GitHub to use my data for AI model training」と題されたCopilotの設定項目から、いつでもオプトアウトが可能である。

作者について

Steef-Jan Wiggers

もっと見るより少なく

作者について

Steef-Jan Wiggers

この記事に星をつける

このコンテンツのトピックは Artificial Intelligence です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター