LyftはA/Bテストの域を越えて実験をどのように改善しているか

原文(投稿日：2022/05/31)へのリンク

LyftのプロダクトマネージャーのJohn Kirn氏は最近、実験を行う際に直面する課題について記事を公開した。既存の実験手法では、Lyftのビジネスの特徴であるリアルタイム性に完全に適応したり、ネットワーク効果を低減したりすることはできなかった。Lyftの実験チームは、時間と領域の分割テストなどの新しいテストを展開し、社内の実験基準と手法を改善した。

A/Bテストとして知られるよく知られた手法は、2つの対象を比較するランダムな実験で構成されている。たとえば、ユーザインターフェイスの変更を、一部のユーザには一方のバージョンを展開し、それ以外のユーザにはもう一方のバージョンを展開することによって評価できる。その後、ユーザの行動を分析して、最も効果的な選択肢を決定する。

しかし、Lyftのチームは、このライドシェアリングモデルは強い干渉効果にさらされると結論付けた。その性質があると、テストによってユーザの行動が変わる可能性があり、他のユーザの選択に干渉する可能性がある。2つの実験が互いに区別されるという統計的仮定に事実上違反することになる。

Lyftの実験は主にユーザ分割テストだが、他の実験手法を使って、望ましくないネットワーク効果を軽減することができる。

Lyftで2番目に一般的なテストタイプは時分割テストである。このテストでは、同じ地域のユーザが特定の期間に同じ体験をする。

時分割テストは、ユーザ間の干渉を減らすため、ネットワーク効果を前にして、因果関係を立証するための強力な方法です。

一貫性のないユーザ体験を引き起こされる可能性があるため、Lyftは、ユーザから見えないシステムの部分に影響を与える実験にこのタイプのテストを使用しようとしている。

時分割テストの初期のバージョンでは、不可抗力な事象（暴風雨、停電など）による干渉に対して脆弱であった。Lyftには現在、これらの干渉を軽減するための新しい因果推論手法と、このタイプのテストを推進するために時分割の分散減少法が適用されている。

他に、Lyftで使用されているテストタイプとして、領域分割テストがある。その名前が示すように、領域分割テストは、特定の地理的境界内のすべてのユーザに対して実験を行う。

[領域分割テストの]制御のために、[Lyftでは]テストが開始される前の傾向を使って、[Lyftが]処置をしなかった場合に何が起こったかについての反事実的予測を作成する。

さらに、Lyftは、実験の質と結果の妥当性を高めるように設計された一連の規範と手法を構築した。

1つは、ガイド付きの仮説ワークフローである。このワークフローにより、実験が開始される前に仮説が登録され、結果がわかった後の仮説を立てる現象を低減できる（HARKingとしても知られている）。実験と仮説、そしてそのコンポーネントとの関連も記録されるため、仮説の迅速な検証と発見が可能になる。

実験チームは、Benjamini-Hochberg法を使って、複数のメトリックが使われている場合にp値を調整する「多重仮説検定補正」手法を確立することにより、多重比較問題に対処した。ただし、まだ評価中である。

Lyftはまた、「結果と意思決定の追跡」メカニズムを構築して、行われた意思決定とそのトレードオフに関する調整を改善した。

[Lyftの]目的は、この結果ログを使って適切な投資のトレードオフに関するコンセンサスを生成し（...）、これらを仮説ワークフローツールにフィードバックして、同様の分野で作業するチームの連携を支援することです。

運用する世界の非常に動的な性質に対応するために、Lyftは「広くテストし、迅速に行動する」ことを望んでいる。この目標を達成するために、適応実験プラットフォームと強化学習アプローチに投資している。

作者について

Vasco Veloso

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Vasco Veloso

この記事に星をつける

このコンテンツのトピックは Statistics です。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

LyftはA/Bテストの域を越えて実験をどのように改善しているか

作者について

Vasco Veloso

この記事に星をつける

このコンテンツのトピックは Statistics です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター