InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
Googleがコスト最適化のためにCloud Bigtableの自動スケーリングを導入
Cloud Bigtableは、Google Cloud Platform(GCP)上の大規模な運用および分析処理向けの、フルマネージドでスケーラブルなNoSQLデータベースサービスである。そして最近、このパブリッククラウドプロバイダーは、Bigtable Autoscalingの一般向け提供を発表した。これにより、アプリケーションの需要の変化に応じて、容量が自動的に追加、削除され、コストの最適化ができるようになる。
-
Amazon OpenSearchに履歴データの異常検出を追加
Amazon OpenSearch は先ごろ履歴データの異常検出サポートを導入した。この機械学習ベースの機能は、OpenSearch データの傾向、パターン、季節性を特定するのに役立つ。
-
Google Analyticsに対するオーストリアDPAの判決がEUベースのクラウドサービスへの道を開く
最近の判決で、オーストリアのデータ規制当局は、EU GDPR規制に基づいてGoogleアナリティクスの使用を違法を言い渡した。判決は非常に具体的に議論され、言葉で表現されている。一方で、それが意味するところはこの特定のケースの範囲をはるかに超えている。
-
Microsoft、分散マシンラーニングライブラリSynapseMLをオープンソース公開
Microsoftは、分散マシンラーニング(ML)パイプラインの構築と管理を行うオープンソースライブラリのSynapseMLをリリースすると発表した。SyanpseMLはApache Spark上で動作し、複数のデータストアを対象に言語非依存のAPI抽象化を提供するもので、Open Neural Network Exchange(ONNX)など既存のMLテクノロジに統合される。
-
Apache Sparkはバージョン3.2でPandas APIを提供
Apache Sparkチームは、Pandas APIを製品の最新の3.2リリースに統合した。この変更で、PySpark実行エンジンを使って、データフレーム処理を単一のマシン内の複数のクラスタまたは複数のプロセッサーに拡張できる。
-
AWSがAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表
最近、AWSはAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表した。この新機能により、顧客はAWS Data Exchangeでサードパーティデータを検索してサブスクライブし、Amazon Redshiftデータウェアハウスでクエリを実行できる。
-
AWSがAmazon Genomics CLIの提供開始とオープンソース化を発表
Amazon Genomics CLIは、AWS上でペタバイト規模のゲノミクス(genomics)データを容易に処理するためのツールだ。今年始めにプレビュー版が公開されていたが、今回それがオープンソースとして一般に提供されるようになった。
-
FacebookのMariana Trenchが、開発者によるAndroidアプリとJavaアプリの脆弱性発見を支援
最近Mariana Trench(MT)がFacebookによってオープンソース化された。MTは開発者がAndroidアプリケーションとJavaアプリケーションのセキュリティとプライバシーのバグを特定して防止するのを支援することを目的としたものだ。
-
AWSはAmazon EMR on EKSがカスタマイズ可能イメージをサポートすることを発表
最近、AWSは、Amazon EMR on Amazon Elastic Kubernetes Service (Amazon EKS)においてカスタマイズ可能イメージのサポートを発表した。これにより、顧客は、EKSクラスターでApache Sparkを使って分析アプリケーションを実行するDockerランタイムイメージを変更できる。
-
AirbnbがHimejiを構築 - スケーラブルな中央認証システム
Airbnbは最近、スケーラブルな集中認証システムであるHimejiをどのように構築したかについて説明した。Himejiは、信頼できる唯一の情報源として、パーミッションデータを保存し、パーミッションチェックを実行する。シャーディングおよびレプリケートされたインメモリキャッシュを使って、パフォーマンスを向上させ、レイテンシを短縮し、本番環境で約1年間チェックを行ってきた。
-
Hazelcast Jet 4.4がリリース - 4周年記念リリースについて、Scott McMahon氏に聞く
Hazelcast Jetは先頃、バージョン4.0をリリースして、その4周年を自ら祝福した。通常のバグ修正やパフォーマンス向上に加えて、このバージョンでは、統合ファイルコネクタやSQLインターフェース初のベータ版など、新機能も提供されている。フィールドエンジニアリングを担当するテクニカルディレクタのScott McMahon氏に、今回の新リリースについて聞いた。
-
マシンラーニングをテストとメンテナンス作業で使用する
マシンラーニングを使えば、メンテナンス作業の削減とプロダクトの品質向上が可能になる。ソフトウェアのテストサイクルのさまざまなステージで使用することができる。チェーンの重要なパートであるバグ管理もその中に含まれる。マシンラーニングアルゴリズムを使って大量のデータを分析することで、バグの分類やトリアージ、優先順位付けをより効率的に行えるようになる。
-
DataStaxがDatabase-as-a-ServiceのAstra Serverlessを発表
Cassandraデータベースの背後にある会社であるDataStaxは、先週Astra serverlessの一般提供を発表した。これはオープンなマルチクラウドサーバレス DBaaS (database-as-a-service) だ。
-
BBCの分析プラットフォームの失敗に備えた設計
先週のInfoQ Liveで、BBCのプリンシパルシステムエンジニアであるBlanca Garcia-Gil氏が、データプラットフォームの進化する分析のセッションを行った。このセッション中、Garcia-Gil氏は、チームが「既知の未知」と「未知の未知」という2種類の障害にどのように備えて設計したかに焦点を当てた。
-
GoogleがDatabricksをクラウドプラットフォームに導入
最近、GoogleはDatabricksとのパートナーシップを発表した。フルマネージドのApache Spark製品とデータレイク機能をGoogle Cloudに導入するためである。この製品は、Google CloudでDatabricksとして利用できるようになる。