InfoQ ホームページ Monitoring JP に関するすべてのコンテンツ
-
複雑な分散システムをテストする
分散システムの複雑性はコードの中ではなく、サービスや機能の間にある。テストには問題の発見と価値提供のバランスという意味があるのだ – Sarah Wells氏はEuropean Testing Conferenceで、このように説明した。テスタはしばしば、システム動作の最大の理解者である。システムのどこが悪いのかについて優れた仮説を持ち、それを極めて短期間に検証することができるのは彼らなのだ。
-
Coinbaseにおけるメトリクスコレクションとログアグリゲーションの進化
CoinbaseのソフトウェアエンジニアであるLuke Demi氏は、2018年半ばからCoinbaseで実施されてきたモニタリングとロギングの変更に関する記事を書いている。Coinbaseは、ログ分析とメトリクス視覚化という2つの目的を果たすセルフマネージドのElasticsearchクラスタから、メトリクスコレクション用のDatadogとログアグリゲーション用のAWSのマネージドElasticsearchへと移行した。
-
自社開発ソリューションuMonitorとMerisによるUberの可観測性スケールアップ
Uberのインフラストラクチャは,モバイルアプリケーションやインフラストラクチャや内部サービスをサポートする数千のマイクロサービスで構成されている。これらのサービスに高い可観測性(obervability)を提供するため,UberのObservabilityチームは2つの監視ソリューションを構築した。時系列でメトリクスベースの警告を行うuMonitorと,ホストレベルのチェックとメトリクスを扱うNerisである。
-
AmazonがAWSクラウドマップ「クラウドリソースのためのサービスディスカバリ」を発表
最近のブログ記事で、Amazonはクラウドリソースを発見し追跡するAWS Cloud Mapと呼ばれる新しいサービスを紹介した。マイクロサービスアーキテクチャの出現に伴い、これらのアーキテクチャで動的リソースを管理することがますます困難になっている。しかし、AWS Cloud Mapを使用すると、開発者はデータベース、キュー、マイクロサービス、およびその他のクラウドリソースの状態をカスタム名で監視できる。
-
Grafanaが時系列メトリクスにログデータ相関を追加
Grafanaチームは、メトリクスクエリやビジュアライゼーションといったGrafana機能と連携したロギングプラットフォーム、Lokiのαバージョンを発表した。Lokiは、新しいクライアントエージェントpromtailと、ログメタデータのインデックスとストレージのためのサーバーサイドコンポーネントを追加する。
-
Stack Overflow のモニタリングシステムの中身
Stack Exchange のアーキテクチャリードである Nick Craver 氏は最近、彼らのモニタリングシステムについて記事を書いた。彼はそのモニタリング戦略の背後にある哲学と動機について議論し、そのツール群、 Bosun、Grafana、Opserverなどについて語った。
-
低コストでシンプルなサイト監視ツール“Checkless” - 開発者とのQ&A
Steve Elliott氏は、Webサイトの稼働時間を監視する簡単で安価な方法を必要としていた。ほとんどの既製ツールは、氏にとって複雑過ぎたり、費用が高過ぎるものだったのだ。pingベースのチェックでサイトの稼働時間を監視するサーバレスツールのChecklessを氏が開発したのは、このような理由からだ。使い方次第で、さまざまな用途に利用することができる。
-
Confluent Platform 5.0がLDAP認証とIoTインテグレーション用のMQTT Proxyをサポート
Confluent Platform 5.0は、Apache Kafka上に開発されたエンタープライズストリーミング用のプラットフォームである。LDAP認証、Kafkaトピックインスペクション、IoT(Internet of Things)統合用のConfluent MQTT Proxyなどをサポートする。
-
AWSによる単一クラウドアーキテクチャに移行したAuth0
認証、承認、シングルサインオンのサービスを提供するAuth0は、自社のインフラストラクチャを、これまでの複数クラウドプロバイダ(AWS、Azure、Google Cloud)からAWS単独に移行した。AWSサービスへの依存度が必然的に高まるため、現在の同社のシステムは4つのAWSリージョンに分散されると同時に、サービスはゾーン間でレプリケーションされている。
-
Pinterest、OpenTSDBから独自の時系列データベースに切り替え
2014年以降、Pinterestのエンジニアリングチームは、メトリクスのストアおよびクエリのためのエンジンとしてOpenTSDBを使ってきた。しかし、メトリクスデータ量の増大による様々なパフォーマンス問題のため、彼らは独自の時系列データベースを開発し、OpenTSDBから切り替えた。
-
監視プラットフォームのPrometheusがCNCF(Cloud Native Computing Foundation)から"卒業"
Cloud Native Computing Foundation (CNCF)は8月9日、オープンソースの監視ツールキットであるPrometheusが、インキュベーション段階を卒業したと発表した。プロジェクトがこの評価を達成するためには、その成長状況やドキュメント、組織のガバナンスプロセス、コミュニティに対する持続可能性と協調性のコミットメントなどを示す必要がある。
-
Uberが独自の大規模メトリクスプラットフォームM3をオープンソースとして公開
Uberのエンジニアリングチームは、社内で数年にわたって運用してきたMetricsプラットフォームのM3を、オープンソースとしてリリースした。このプラットフォームは、Graphiteベースのシステムをリプレースするために開発されたもので、クラスタ管理、アグリゲーション、コレクション、ストレージ管理、分散時系列データベース(TSDB)に加えて、独自の問合せ言語であるM3QLを備えたクエリエンジンを提供する。
-
可観測性のメリットと課題と議論するo11ycon
新たに開催されるo11yconカンファレンスは、ソフトウェアおよびシステムが期待通りに機能しているかどうかを理解し、問題の診断と解決策の特定を可能にする、可観測性という新たなコンセプトに対する包括的視野を提供する。
-
AWS Config で複数アカウント、複数リージョンのデータ集約が可能に
Amazon Web Services(AWS)は先日、AWS Configルールによって複数のアカウントないしリージョンで生成されたコンプライアンスデータを集約して、AWSリソースの一元的な監査と管理を可能にする機能を追加した。新たに用意された集約ダッシュボードビューには、組織全体の不適合なルールが表示される。そこからドリルダウンすることで、ルールに反するリソースを詳細に確認することが可能になる。
-
Coinbaseはどのようにしてスケーリングの問題に対処したか
仮想通貨交換所を運営しているCoinbaseは2017年の仮想通貨ブームで同社のプラットフォームのスケーリングの問題に直面した。エンジニアリングチームはMongoDBのアップグレードと最適化やトラフィックの分離に注力し、将来のためにキャプチャとリプレイのツールを構築した。