データ サイエンスにおける最大の神話を覆す

データ サイエンスが成熟するにつれて、その神秘性は失われつつあります。データ サイエンス機能への投資に対するリターンについて確かめる組織が増え、ビジネス リーダーはこの分野をより現実的に見るようになってきています。しかし、データ サイエンスで何ができるかをニュアンス的に理解している人はいても、データ サイエンスが実際にどのように行われるかを理解している人はほとんどいません。そのため、データ サイエンスの実践者が必要不可欠な人材になったとしても、多くの人にとってこの分野は「ブラック ボックス」のままなのです。

このレポートは、140 カ国以上から集まった 4,000 人以上のデータ専門家に、データ サイエンスにおける最大の神話と思われるものを挙げてもらったもので、これは 2021 年のデータ サイエンスの現状レポートの結果の 1 つです。この結果は、データ サイエンスの実践と専門性が、C-suite やその他のステーク ホルダーにとって不透明なままであることを示唆しています。データ サイエンスがその大きな可能性を提供し続けるためには、組織のリーダーが持つ誤った思い込みを正す必要があります。

この記事では、今年の「データサイエンスの現状」レポートで引用された神話のトップと、それを払拭するのに役立つ解説を紹介します。

2021年 データサイエンスの現状データサイエンスにおける最大の神話の結果

神話 1: データが多ければ多いほど精度が上がる

多くの企業は、データを収集する際、量が第一であるべきと考えます。調査や研究の過程では、サンプル数を多くすればより良い結論が得られると教えられることが多いので、これは驚くことではありません。しかし、より多くの企業が意思決定に分析を適用するようになり、これまで以上に大量のデータを求めるようになっています。

専門家はこの考えに対して否定的です。データ サイエンスにおける最大の神話は何かという質問に対して、回答者の 31% が、より多くのデータにアクセスすることがより高い精度につながるという考えであると答えました。さらに 15% の回答者が、データ サイエンスに関する誤解のトップとして「多くのデータが必要だ」を選びました。分散問題の解決など、深く広い学習データのプールには利点があります。しかし、データが多ければ多いほど、偏りなどの他の問題に対処できるとは限りませんし、より一般的な分析に取って代わることもできないのです。最先端のデータ サイエンスの能力を持つ企業は、すでにこのことを知っています。

では、企業はどこにデータの力を注ぐべきなのでしょうか。量より質という言葉があります。十分かどうかを問うのではなく、チームがモデル化しようとするものに対して、クリーンで適切、かつ有効なデータを提供できているかどうかを問うべきなのです。実際、COVID-19 に対する AI 導入の初期の取り組みが期待外れだったことからもわかるように、低品質のデータが大量に存在すると、ノイズの多い結果や質の低い洞察につながる可能性があります。企業は、より強力なデータ管理手法とより良いコミュニケーションを優先させることで、より良い結果を得ることができ、データ サイエンティストの満足度を上げることができます。

神話 2: データ サイエンスは自動化される

2 年近く続いたパンデミックによる工場の混乱やサプライチェーンの寸断、そして労働市場の逼迫を受け、あらゆる業界の経営者が自動化の可能性に目を向けています。今日の自動化の基盤となっているデータ サイエンスは、AI による破壊が次の波の候補として当然と考える人もいるかもしれません。しかし、そのシナリオは考えにくく、私たちの調査では、回答者の 33% が、データ サイエンティストはすぐに AI に取って代わられるというのが最も重大な神話だと考えています。

データ サイエンティストは、機械が自分たちに取って代わるのではないかと心配している人はほとんどいないようです。それどころか、AI や自動化によって簡単に繰り返せる作業を支援し、人間の介入や解釈、問題解決が必要な作業に多くのリソースを割くことができるようになると考えています。簡単に言えば、自動化によって、人はより複雑なモデルやアルゴリズムを開発することができ、ルーチンワークに費やす時間を減らすことができるのです。この調査において、AutoML を否定的に捉えている回答者はわずか 4% であり、55% が肯定的な意見を持っていることは、驚くことではありません。

今回の調査では、AutoML を否定的に捉えている人はわずか 4% で、55% が肯定的な感情を抱いていることが分かりました。

神話 3: データ サイエンティストはコーディングできない

データ サイエンスはまだ新しい分野であり、多くの組織ではデータ サイエンス専門の人材を採用するのはこれからです。データ サイエンティストは、組織内では他の「技術系」社員と一緒にされることが多いようです。ソフトウェア エンジニアと比較すると、データ サイエンティストはコードの扱い方を知らないと思われるかもしれません。しかし、データ サイエンティストの大半はプログラマーであり、タイプが少し違うだけなのです。調査対象者のうち 19% が、データ サイエンスに関する最大の俗説として「データ サイエンティストはコーディングできない」と回答しています。

データ サイエンティストとソフトウェア エンジニアの違いは、どのように、いつ、何のためにコーディングを行うかです。データ サイエンティストにとって、Python はデータセットからインサイトを抽出するためのツール ボックスの基本スキルであることが一般的です。データ サイエンティストは、データ パイプラインや機械学習モデルのコードを使用して、データ照会、機能設計、モデルの構築とデプロイを行っています。一方、ソフトウェア エンジニアは、インフラ、自動化、テスト、メンテナンスに注力し、主に製品開発にコードを使用します。しかし、ソフトウェア エンジニアになるために必要なスキルは多岐にわたるため、いずれはデータ サイエンティストと重なるスキルも出てくるでしょう。

神話を覆すことの利点

データ サイエンティストは、組織の他のビジネス ユニットとより効果的に統合することを常に求めており、可能であれば、これらのような一般的な神話を払拭するために時間をかけることが不可欠です。データ サイエンティストの仕事ぶりに対する認識を高めることは、モデルの予測精度から、募集ポジションに採用される候補者の質まで、あらゆるものの改善に役立ちます。

7500 以上のデータ サイエンス/機械学習パッケージの配布および管理ツールである Anaconda の詳細はこちらから。

参照記事: Debunking the Biggest Myths in Data Science