データ サイエンティストになるということは

2021年版「データ サイエンスの現状」レポート用に情報を集めたところ、「データ サイエンティスト」という肩書きはどこにでも存在することがわかりました。4,000 人以上の回答者のうち、実際に自分をデータ サイエンティストと認識しているのは、そのうちのわずか 11% でした。残りの 11% はビジネス アナリストであり、残りの回答者は開発者、DevOps、MLOps など、その他多くのカテゴリーに分類されました。これらの肩書きには多くの共通点があり、データ サイエンティストであることを意味するポイントをすべて網羅しているということです。

データ サイエンティストの定義は業界や部署によって異なる

データ サイエンティストは、大量のデータをクレンジングや整理をし、それらのデータの意味を理解する責任があります。上記の「データ サイエンスの現状」レポートによると、データ サイエンティストが最も時間を費やすタスクは、データ準備、データ クレンジング、レポート作成です。もちろん、日々のスケジュールは業界や部署によって異なります。また、データ サイエンティストは、テクノロジー、ヘルスケア、金融、製造、政府、その他多くの異なる分野で活躍しています。

また、データ サイエンティストの実際の仕事は、組織内のサイロ化が進んでいるため、関わる部署によって様々です。Anaconda が公開した 2022 年予測のウェビナーでは、Netflix のパーソナライズされた体験のためのイノベーションディレクターである Christine Doig が、企業の様々な部門へのデータ サイエンティストの統合について話しています。

“私たちが始めた頃は、データ サイエンティストは一種類だけでしたが、今はその役割が組織に統合されています。今では、データ サイエンス チームの中にも、多くの専門性があります。また、従来は純粋なデータ サイエンス チームであったものが、それ以外にも広がっています。例えば、Netflix では、アルゴリズム プロダクト マネージャーという役職がありますが、デザイン チームやクリエイティブ チームとの統合が進んでいます。これは、ここ数年のデータ サイエンス界で見られる変化だと思います。この流れは間違いなく続くでしょう。” と Netflix のイノベーション ディレクター Christine Doig は話します。

企業を問わず、データ サイエンティストの存在感が増している部署のひとつが、プロダクト マネジメントです。なぜかというと、証拠に基づく意思決定、実験、イノベーションを促進することで、製品チームを市場より優位に立たせることができるからです。チームへの関与は、データ サイエンティストが製品およびビジネス目標に沿ったものであることを保証します。

ビジネス アナリスト、データ アナリスト、データ サイエンティスト

データ サイエンスと関連して、よく見かける肩書きがいくつかあります。データ サイエンティスト以外にも、ビジネス アナリスト、データ アナリストなどです。では、これらのよく似た役割にはどのような違いがあるのでしょうか。

この疑問に答えるべく、Anaconda 社のアソシエイト プロダクト マネージャーである Sheetal Kalburgi 氏にご協力いただきました。Sheetal によると、データ サイエンティストはより技術的、統計的に優れているとのことでした。データ サイエンティストは、製品のパフォーマンスを伝える複雑な統計アルゴリズムの開発、結果の予測、A/B テストなどの実験設計、計算処理の最適化など、さまざまな仕事を担当します。ビジネス アナリストは、技術的な側面とは反対に位置します。ビジネス アナリストは、成長分析、目標成長、そのための方法など、ビジネスに関する意思決定に関与することが多く、データ アナリストはその中間に位置します。データ アナリストは、データから意味を抽出し、意思決定者に伝える、いわばデータ サイエンティストとビジネス アナリストの間の連絡役的な役割を担っています。ビジネス アナリストは、異常や傾向などに着目し、ビジネス モデルを念頭に置いてビジネス上の問題を解決する傾向がありますが、データ サイエンティストは、統計や機械学習アルゴリズムを用いて、証拠とデータに裏付けられた問題解決策を伝えることができます。

4 つ目の役割として、データ エンジニアが考えられます。Anaconda のプリンシパル プロジェクト マネージャーである Albert DeFusco 氏は、より多くの組織がビジネスの意思決定に役立つデータ インサイトに目を向けるようになれば、データ エンジニアリングの必要性は急速に高まると考えています。データ サイエンスとデータ エンジニアリングの分野は関連していますが、この 2 つの分野がサイロで作業していることがよくあります。Albert は、データ サイエンスとデータ エンジニアリングのユースケースを組み合わせる機会を増やすことで、ツールやプラットフォームが変わってくると考えています。

最後に、データ サイエンティストの大多数はプログラマーでもあることを心に留めておいてください。データ サイエンティストはコードを書かないという印象を持っている人もいますが、その逆です。Anaconda のデータ サイエンティスト Sophia Yang は、最近のブログ ポストでこの点について詳しく説明しています。”ソフトウェア エンジニアと比較すると、データ サイエンティストはコードの扱い方を知らないと思われるかもしれません。しかし、それは間違いではありません。データ サイエンティストの大半はプログラマーでもあり、タイプが少し違うだけなのです。” 彼女は言います。データ サイエンティストは、データ セットから洞察を得るために Python を使用することが多いようです。彼らはデータ パイプラインや機械学習モデルのコードを使って、データのクエリや機能の設計などを行います。

データ サイエンティストになるには

データ サイエンティストになるための道は一つではありませんが、数学、コンピュータ サイエンス、または同様の科目の学士号を取得することをお勧めします。その後、大学院の学位、特にデータおよび/または分析の学位を取得することが望ましいでしょう。また、E コマース、運輸、医療など、自分が最も興味のある業界について詳しく知っておくとよいでしょう。そしてもちろん、業界を超えて、Netflix、Meta AI Research、Wikimedia Foundation、あるいは Anaconda など、働きたい会社が決まっているかどうかについても考えておくとよいでしょう。

大学の学位を取得しない場合、データ サイエンティストへの道を歩むためのブートキャンプがあります。例えば、Codecademy と Kaggle は、データ サイエンスのブートキャンプを提供しています。このようなプログラムは、業界とのコネを築き、最初のプロフェッショナルな機会を探すために、共有できるプロジェクトを構築するのに役立ちます。

基礎を固めた後は、OJT 研修で学ぶことがたくさんあります。例えば機械学習の理論が実践されているのがわかる点です。

一般的な知識を深めつつ、より専門的な知識を身につけることを意識してください。そうすることで、あなたの価値が高まり、長期的な成功につながります。

7500 以上のデータ サイエンス/機械学習パッケージの配布および管理ツールである Anaconda の詳細はこちらから。


参照記事: What Does It Mean to Be a Data Scientist?