InfoQ ホームページ Performance に関するすべてのコンテンツ
-
Meta社がうるう秒を処理するためにPrecision Time Protocolを使用する方法
多くのシステムは、調整、ログ記録、セキュリティ、分散オペレーションにおいて、正確で一貫性のある時間管理に依存している。金融取引、データベースのレプリケーション、スケジュールされたタスクなど、時間に敏感なプロセスでは、1秒のズレでさえ障害を引き起こす可能性がある。分散データベース、テレメトリーパイプライン、イベント駆動アーキテクチャのような厳密な同期が必要なシステムでは、うるう秒の取り扱いを誤ると、データの損失、重複、不整合につながる可能性がある。そのため、うるう秒を正確に管理することで、高精度の時刻に依存する環境全体のシステムの信頼性と一貫性を確保できる。
-
オブザーバビリティがLLMベースのシステムのユーザーエクスペリエンスを向上させる方法:KubeCon EUでのHoneycombのCEOの洞察
KubeCon Europeの基調講演で、HoneycombのCEO兼共同設立者であるChristine Yen氏は、ソフトウェアシステムにおけるLLMの統合によってもたらされた急速なシフトに対処するために、オブザーバビリティどのように役立つかについての洞察を説明した。LLMの統合は、ソフトウェア開発方法だけでなく、リリース方法論にも大きな変革をもたらした。彼女は、本番環境の観測結果に基づいて開発のフィードバックループを適応させる方法を説明した。
-
Uberがプロファイルガイド最適化でパフォーマンス向上
プロファイルガイド最適化(PGO)はランタイムデータを使用してコンパイラの判断を支援することで、アプリケーションのパフォーマンスを向上させる強力な技術として登場した。最近の実装例ではUberがGoogleと協力してGolangにPGOを統合し、自社サービス群全体で大幅なパフォーマンスの向上とリソースの節約を実現した。
-
Hugging FaceがGPU全体の効率的LLMトレーニングに関するガイドを公開
Hugging FaceがUltra-Scale Playbook: Training LLMs on GPU Clusters、GPU クラスター全体で大規模言語モデル(LLM)をトレーニングする際の方法論と技術について詳細に探究するオープンソースのガイドを公開した。このプレイブックはスループット、GPU利用率、トレーニング効率の最適化に焦点を当て、最大512GPUを使用して実施された4000以上のスケーリング実験に基づいている。大規模モデルトレーニングに取り組む研究者やエンジニアに実践的なガイダンスを提供することを目的としており、再現可能なベンチマーク、実装の詳細、パフォーマンス最適化を提供している。
-
ほとんどの企業が毎週障害を経験:The State of Resilience 2025 Report
Cockroach Labsが発表したThe State of Resilience 2025 Reportによると、ほとんどの組織で障害は日常的に発生しており、55%の企業で毎週、14%の企業で毎日障害が発生していると報告している。驚くべきことに調査参加者の100%が障害による収益損失を経験しており、過去12ヶ月間で100万米ドル以上の損失を報告した企業(8%)もあった。
-
PreziのPrometheusからVictoriaMetricsへの道のり
Prezi社のエンジニアリングチームは最近、Prometheusベースの監視システムからVictoriaMetricsへの移行について、コストの最適化、パフォーマンスの向上、アーキテクチャのシンプルさにフォーカスして議論した。この移行により、コストは約30%削減され、重いクエリの完了速度は30秒以上から3-7秒に短縮された。
-
PinterestによるCI可視性向上とビルド安定性強化のためのHoneycomb活用
最近、Pinterest社のMobile BuildsチームはHoneycomb、データ可視化プラットフォームを活用して継続的インテグレーション(CI)プロセスの効率と安定性を向上させた方法について議論した。チームは2021年にHoneycombを導入し、ビルドメトリクスを監視し、トレンドを分析し、パフォーマンスのボトルネックに対処できるようになった。
-
AWSがCloudFormationのデバッグ支援ツールとしてデプロイタイムラインビューを導入
Amazon Web Services(AWS)は、CloudFormationサービス強化の一環として、新たにデプロイタイムラインビューを導入した。今回新たなビューで、開発者やクラウドエンジニアがインフラストラクチャのデプロイプロセスをより直観的に追跡、把握できるようになることに加え、依存関係に関する新たな洞察も得られている。
-
Netflixがレジリエンシー向上のためにサービスレベルで優先順位付き負荷制御を提供開始
Netflixはシステムのレジリエンスをさらに向上させるために優先順位付き負荷制御の実装を個々のサービスレベルに拡張した。このアプローチは、障害分離のために個別クラスターを維持する代わりに、必要な場合にのみ優先度の低いリクエストを制御することでクラウド容量をより効率的に使用する。
-
AWS、Elastic Container Serviceにオブザーバビリティを強化したコンテナインサイトを追加
AWSは最近、Amazon Elastic Container Service (ECS)向けにオブザーバビリティを強化したContainer Insights with Enhanced Observabilityを発表した。これは、以前Amazon Elastic Kubernetes Service (EKS)に導入された同様の機能に沿ったものだ。この新機能は、コンテナ・ワークロードのモニタリングとトラブルシューティングを改善することを目的としている。
-
Prometheus(プロメテウス)3.0は新しいUI、OpenTelemetryのサポートなどをもたらす
人気のオープンソース監視システムPrometheusのバージョン3.0がリリースされた。このツールの7年ぶりのメジャーアップグレードとなる。様々な新機能が追加され、ユーザー・エクスペリエンスの向上とワークフローの合理化を目的とした改良が施されている。
-
メタにおけるThreadsアプリのiOSパフォーマンスの改善
MetaのエンジニアであるDave LaMacchia とJason Pattersonは、アプリのパフォーマンスはユーザーにそのアプリを使いたいと思わせる鍵であると言う。これには、アプリを超高速で、バッテリー効率よく、さまざまなデバイスや接続条件下で信頼できるものにすることも含まれる。
-
分散型トレースツールJaegerがOpenTelemetryを中核としたバージョン2をリリース
オープンソースの分散トレーシングプラットフォームであるJaegerのバージョン2がリリースされた。このリリースには、JaegerとそのコンポーネントをOpenTelemetryフレームワークに取り込むという、重要なアーキテクチャの変革が含まれている。
-
Rustによる高性能サーバーレス:QCon San FranciscoでのBenjamen Pyle氏の講演からの洞察
サーバーレス・コンピューティングに関する講演でBenjamen Pyle氏は、AWS Lambdaと組み合わせたRustがどのように現代のサーバーレスアプリケーションに高いパフォーマンス、安全性、スケーラビリティを与えるかをデモした。このセッションではRustの強力なシステムレベル機能とLambdaのイベント駆動型従量課金制コンピューティングモデルの相乗効果、これにより開発者にスケーラブルで効率的なアプリケーションを構築するための堅牢なフレームワークが提供される、が強調された。
-
パフォーマンスの向上とシャーディングの強化が図られたMongoDB 8.0がリリース
MongoDBはMongoDB 8.0の一般提供を発表し、大幅なパフォーマンス向上と新機能を導入した。ハイライトは、組み込みのシャーディング設定サーバー、クエリ可能な暗号化の拡張サポート、シャードキーを必要とせずにシャード間でコレクションを移動する機能などだ。