BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Kaggleが機械学習とデータサイエンスに関する2020年の状況レポートを公開

Kaggleが機械学習とデータサイエンスに関する2020年の状況レポートを公開

原文(投稿日:2021/02/06)へのリンク

Kaggleは、2020年の機械学習とデータサイエンスの現状に関するレポートを公開した。このレポートは、現在データサイエンティストとして雇用されている2,000人を超えるユーザからの調査回答に基づいている。

レポートと基礎となる調査は、KaggleのWebサイトに記載されている。Kaggleは、2020年10月に3.5週間にわたって35の質問の調査を開始し、2万を超える回答を収集した。エンタープライズエグゼクティブサマリーレポートは、役職が「データサイエンティスト」とされる回答者の13%にフォーカスしている。このレポートでは、データサイエンティストの人口統計、および一般的なデータサイエンスと機械学習テクノロジーに関するいくつかの重要な結果がわかった。以前の3回の年次調査と同様に、Kaggleも匿名化された回答データをリリースした。Kaggleは次のように述べている。

この調査を実施して4年目に、データサイエンスと機械学習業界のグローバルで多様でダイナミックな性質に再び畏敬の念を抱きました。

レポートには、調査回答者のいくつかの属性のグラフと分析が含まれている。これには、回答者のプロフィール、教育、経験、そして雇用と労働環境、さらにテクノロジーとプラットフォームが含まれている。レポートには、データサイエンティストの「圧倒的多数」が35歳未満であり、3分の2が大学院の学位を持っており、ほとんどが10年未満のコーディング経験を持っているとある。約55%は、機械学習の経験が3年未満である。

調査には、テクノロジーの選択に関するいくつかの質問があった。これらの質問では複数の回答が可能であり、その結果、特定の質問のパーセンテージは合計で100%を超える可能性がある。データサイエンティストに最も人気のあるIDEはJupyterで、回答者の74%に使用された。2位はVisual Studioで、43%に使用されており、昨年の30%から上昇した。PyCharmRStudioの両方が回答者の約30%によって使用された。フレームワークとライブラリに関する質問への回答として、80%以上がscikit-learnを使用していると報告し、約50%がGoogleのディープラーニングフレームワークTensorFlowを使用していた。Facebookによって開発された、もう1つの人気のディープラーニングフレームワークであるPyTorchは、31%に使用されており、2019年の26%から上昇した。

最も人気のある機械学習アルゴリズムは線形回帰であり、データサイエンティストの80%以上が使用している。決定木アルゴリズムと勾配ブーストアルゴリズムはそれぞれ2位と3位で僅差であった。さまざまなニューラルネットワークアーキテクチャが個別に報告され、43%が畳み込みニューラルネットワーク(CNN)、30%がリカレントニューラルネットワーク(RNN)、15%がトランスフォーマーニューラルネットワークを使用していた。

ほとんどのデータサイエンティストは、パブリッククラウドプロバイダーを使用していると報告している。約50%に利用されているAmazon Web Services(AWS)がリードしている。約3分の1がGoogle Cloud Platform(GCP)を使用していると報告し、29%がMicrosoft Azureを使用していた。基本的なコンピューティングインフラストラクチャが使用された最も一般的なサービスであり、Amazon EC2が40%に使用された。Function-as-a-serviceも人気があり、21%がAWS Lambdaを使用し、GCPソリューションとAzure FaaSソリューションがそれぞれ12%と9%であった。コンテナサービスの採用はわずかに少なく、AWSが14%で再びリーダーであった。クラウドプラットフォームを使用していなかったのは17%強で、1年前の25%から減少した。あるツイッターユーザは次のように述べている

[これは]クラウドコンピューティングアプリケーションの市場全体がまだ飽和していないことを示している可能性が高いです。

Kaggleの他に、他のいくつかのデータサイエンス組織が2020年からの調査結果を最近公開している。データサイエンティストに人気のあるPythonディストリビューションのメーカーであるAnacondaは、最近、「100か国以上からの2,360件の回答」に基づいたデータサイエンスの現状レポートを公開した。バイアスとプライバシー、および運用指標に関する質問を特集している。AIソフトウェアベンダーのAlgorithmiaは、「機械学習の成熟度のさまざまな段階にある数千の企業」を調査し、機械学習操作に関連する課題に焦点を当てた、エンタープライズ機械学習の現状に関するレポートを公開した。

Kaggleの調査回答の生データは、年の調査結果とともに、サイトからダウンロードできる。

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT