Twilioのクラウドアーキテクチャ原則

原文(投稿日：2011/04/25)へのリンク

多くの有名なサイトがAWSの問題によって影響を受けたと不平をこぼしている。ところがTwilioのAPIおよびサービスは、そのクラウドテレフォニープラットフォームの成長とスケーリングをAWSに大きく依存しているにもかかわらず影響を受けなかった。Twilioの共同創業者でありCTOのEvan Cooke氏は、現在のインターネットエコシステムを実現しているクラウドサービスの驚くべき成功とともに、クラウドサービス構築時の堅牢な分散アーキテクチャ設計の重要性について語っている。

TwilioをAmazon Web Services上でスケールさせる上で、まれですが必ず起こり得るインフラの問題による影響を最小限に留めるため、私たちは次のようなアーキテクチャ設計原則に従いました。

障害の単位を単一ホストにする

依存関係のある複数のホストではなく、単一のホストで構成されるシンプルなサービスを作りましょう。サービスインスタンスの複製を作ることで、ホスト障害にも耐えられます。

短いタイムアウトとすばやいリトライ

障害が発生したときには、すばやくその障害を特定して要求をリトライしましょう。各サービスの冗長なコピーを複数走らせて、すばやいタイムアウトとリトライを利用することで、障害が発生したサービス、もしくは到達不能なサービスを迂回できます。

べき等な（Idempotent）サービスインターフェイス

依存関係のあるサービスのAPIがべき等（idempotent）であれば、失敗した要求を安全にリトライできます。

小さくステートレスなサービス

シンプルで均一なプールにまとめられるよう、ビジネスロジックを小さくステートレスなサービスに分離しましょう。

一貫性要件の緩和

厳格な一貫性を必要としない場合には、冗長な複製のリードデータのプールを作りましょう。

機能停止を考慮して、Twilioはそれほど重要ではなく遅延にセンシティブでないタスクにだけEBSを使っている、とEvan氏は説明した。EBSは「障害の単位を単一ホストにする」という原則を満足しないためだ。もしEBSに問題が起これば、依存関係のあるサービスすべてに障害が発生することになる。彼らはそうする代わりに、EC2にあるEphemeralディスクを永続化目的に利用することに注力した。もし一時的なディスクに障害が発生しても、障害はそのホストに限定される。Evan氏はこのあとの記事で、I/Oパフォーマンスを改善するためにどのようにEphemeralディスクでRAID0ストライピングをしているか説明するようだ。

これはSmugMugがとっている原則とアプローチと一致している。Don McAskill氏が説明するように、SmugMugはEBSを使わないことを決めた。

M-Dot NetworkのCTOであるMike Kavis氏はAmazonのIaaSはPaaSになってきたと語る。

Amazonには開発者が呼び出せる数々のサービスがあります。これらは時間と人的資源をかなり必要とするタスクを引き受けて、シンプルな呼び出しでそれを簡単化したり、自動化してくれます。Cloudwatch（モニタリングおよびオートスケーリング）やAmazon RDS（データベース管理）が思い浮かぶかもしれませんが、これらは多数のサービスのほんの一部にすぎません。こうしたサービスを使い始めると、事実上あなたはベンダー独自のスタックを利用するというPaaSシナリオにいることになります。

アーキテクチャおよびビジネスモデルにおいて、こうした依存関係と機能停止の可能性を考慮しておく必要があると彼は言う。クラウドプロバイダにとらわれないアーキテクチャを構築することは、これらサービスを自分で再構築しない限りほとんど実用的でないためだ。

明らかに、障害復旧計画はクラウドでも必須であり、アーキテクチャはクラウドベースのソリューションを構築する上で今もこれからも重要だ。これは何ら新しいことではない。Twilioの原則は十分だろうか？クラウドアーキテクチャはここからどう進化するのだろうか？さらに冗長性が高まるのだろうか？サービスは内製化されるのだろうか？さらにアーキテクチャ原則ができるのだろうか？これはPaaSベースのソリューションへどのように変換するだろうか？

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Architecture です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027