データ分析に欠かせない「データプレパレーション(データ準備)」の効率的な進め方とは?

皆さん、こんにちわ。

エクセルソフト株式会社が販売しているデータ アナリティクス製品について、開発元であるアルテア エンジニアリング社のブログを今後定期的にご紹介していきます。

第 2 回目は、データ プレパレーションについて説明しているデータ準備・前処理用 BI ツール「Altair Monarch」に関するブログです。

データ活用最大の難関「データプレパレーション」とは?

いざビッグデータ分析しようとしたものの「分析したいデータファイルがあちこちに点在している」「形式が揃っていない」「データをまとめるのに時間がかかりすぎる」等の問題が発生し、社内に眠る貴重なデータを活かせていない企業が多く存在します。

データを扱うプロであるデータアナリストやデータサイエンティストでさえ、データ分析に費やす時間のうちの 60~80% をデータ収集や準備に費やしています。インサイトを引き出す分析そのものが最も時間を要する作業だと思われがちですが、実は分析前の準備が最も複雑で手のかかる作業です。社内に専属のデータアナリストやデータサイエンティストがいる企業はまだまだ少なく、企業のリソースは限られています。そのため、ビジネス部門のみなさんが自らデータ準備を行う必要がありますが、通常業務の負担となるため時間をあまりかけられず、中途半端になり、思うような分析ができていません。

たとえば、以下のような作業をしていないでしょうか?

  • 既存ファイルと、システム上のデータをエクスポートしたときのファイル形式が異なるため各自が双方の紐づけをしている。
  • PDF ファイル等の非構造化データが多く、それらをデータ分析用ファイルに手入力している。
  • 自力でデータ結合するものの、重複や欠損等のエラーや入力ミスがありそれらの修正作業が多く発生している。

営業部門であれば顧客の売上動向、マーケティング部門は実行したプロモーションの実績、人事部であれば従業員の評価やコメントなど、各部門で必要なデータを収集し取りまとめ分析まで行っている組織もあれば、IT 部門がデータを管理し必要に応じて各部門のニーズに合わせたデータを準備し提供する組織もあると思います。いずれにしても、こうした作業に時間をとられるため、タイムリーでスピーディーな分析ができず、意思決定を遅らせるボトルネックになっています。

データ分析前のこういった下準備のことを、データ プレパレーションと呼びます。

データ分析前のデータ準備 “データプレパレーション”

データ分析前のデータ準備 “データ プレパレーション”

ユーザー主導でデータ加工と準備ができるBIツール

最近、この時間も手間もかかるデータプレパレーションに、セルフサービス型BIなどのデータプレパレーションツールが使用されるようになってきました。BIツールを導入することで、データプレパレーションに奪われていた貴重な時間や労力を分析に使用できるようになります。

【BIツールでできること】

  • PDFやテキストファイルなど、あらゆるデータソースやシステムからデータを抽出し加工できる
  • マウス操作だけで作業できる(プログラミングや高度なExcelの知識が不要)
  • 様々なレポート生成ツール、分析ツール、可視化ツールへのエクスポートも可能

また、セルフサービス型データプレパレーションツールであれば、IT部門がデータをまとめてくれるまで待つことなく、ビジネスユーザーがいつでも自由にデータにアクセスし準備を行えるようになります。

Altair Monarch を使ったデータ プレパレーション

Altair Monarch (アルテア モナーク) はセルフサービス型データ プレパレーション ツールです。構造化データのみならず、非構造化データ、クラウドベースのデータ、ビッグデータを含む複数のデータソースに接続でき、データのクレンジングと処理にコーディングを必要としないため、誰でも簡単にデータ準備ができます。80 以上の関数があらかじめ搭載されているため、乱雑なデータを分析用の“使える”データセットに簡単に変換できる優れものです。

PDF ファイルやフォーマットの異なる複数のファイルを、Monarch を使ってひとつのデータにまとめる手順を簡単にご説明します。

PDF ファイルを Excel に変換する

このような PDF の経費精算書を、Excel シートにコピペしてデータ化する作業は 1 ページあたり 3 分程度かかります。

これを何百何千件と処理していると膨大な時間がただのコピペに消費されてしまいます。

Monarch を使用すると…
PDF ファイルを Monarch に取り込みます。

取り込んだ PDF ファイルが表示され、データとして必要な箇所を選択します。

選択した箇所がテーブル化されたら、好きなファイル形式 (Excel や CSV など) に出力して完了です。
複数のファイルを取り込み (データのブレンド)、1 つのファイルに統合するなど、自由に加工ができます。

定義したデータ取得条件は引き継げるので、上の経費精算書の例のように同じフォーマットのファイルを処理する場合、より便利に使えます。先日、弊社のエンジニアが Monarch を初めて使って「すごいじゃん!モナーク賢いじゃん!」と興奮していました。データ プレパレーションで苦労されている方にぜひお使いいただきたいツールです。

データ プレパレーション ツールを活用してデータ活用をもっと簡単に

データ準備に特化したプレパレーション ツール、データ準備ツールを使用すれば、作業工数を大幅に削減でき、データ分析や意思決定など、時間をかけるべき業務に集中することができます。工数削減はもちろん、綿密なデータ分析から得られるインサイトとそれに基づく最適な意思決定は、ビジネスを成功へ導く一助となるはずです。

Altair Monarch は現在30日間の試用版を現在無償で提供しております。この機会にぜひお試しください。

 Altair Monarch無償試用版ダウンロード

Altair Monarch 製品の紹介ページはこちら。

このブログの詳細は、開発元であるアルテア エンジニアリング社のブログをご参照ください。