2014年10月22日水曜日

データ分析のプロセス

データ分析を行う上でのプロセスは一般的に以下の順とデータサイエンティストやアナリストのでは言われています。それぞれ簡単に説明したいと思います。

1.調査・分析企画
2.情報収集・整形
3.集計・分析
4.データビジュアライゼーション
5.要約
6.統合・総合

1.調査・分析企画
まず、何を何のために調査したいのか分析したいのかを明確にします。そして、その情報が収集可能なのか判断します。
「何を何のため」にはまず何のためから考えるとよいでしょう。たとえば、売上を伸ばしたいとか商品の生産個数を事前に決めたいとか具体的でも抽象的でも構いません。可能なら具体的な方が確かな分析ができます。
次に「何を」ですが、これにはセンスがいります。しかし、大概その答えはいつも分析をしたいと思った人が持っています。「何のために」を考えたときに「この情報があればな」と思ったものが「何を」です。
最後に収集可能性ですが、基本的には現代技術では一般的な企業活動において収集不可能なデータはないといわれいます。問題はコストです。収集方法は、大手のベンダーに確認すれば対外答えてもらえます。そして、概算を出してもらい、自分の企業で現実的に可能な額なのか判断するのがよいと思います。もしくは小さく始めるというのが現実解であることが多いです。すべてをやろうとすると時間とコストを浪費してしまうことが多いです。

2.情報収集・整形
情報収集では、 「今ある情報の収集」と「新たに収集する情報」の2つがあります。
「今ある情報」は、さらに別れ、マスタ系の情報と分析対象の情報ですでに収集が開始されているものです。後者は売上データなどが多いです。
「新たに収集する情報」は新規投資になるものです。このタイプものは、現状システムの改善だけで済む場合と完全に新規に作らないといけないものの2つがあります。前者はシステムログやアプリケーションログ、アプリケーションの操作情報などです。後者は、たいていがIoTになるものが多いです。例では、センサー系の情報、今までITとつながっていなかった家電・機器の情報などです。
そして、その情報を整形します。整形はデータの収集先によって違います。単純にRDBにデータを入れるのであれば、正規化してRDBに入るように整形しましょう。NOSQLのようにデータのフォーマットを意識しないのであれば、そのままで構いません。最近では、スプレットシートで分析するユーザーも増えています。その際は、分析を意識したフォーマットを考える必要があります。

3.集計・分析
まずは集計です。これは見せたい形式に合わせて集計する必要があります。そして、そこから読み取れる情報を分析しましょう。
しかし、当初の予定通りに分析できるとはかぎりません。なのでここはトライアンドエラーで、いろんな集計・分析方法をためしてみましょう。そして最適なパターンをいくつか用意しておくことがポイントです。データは日々変わるため、毎日同じ手法が通じるとは限りません。なので、いくつか用意し、日によって見る集計パターンを変えていくというのがよいでしょう。


4.データビジュアライゼーション
ここは純粋に見せ方のお話です。見せ方は重要です。データに精通した人であれば、見せ方が悪くても伝わりますが、一般的な人やデータを見せる相手(多いのが経営層や顧客)はデータに精通していないことが多いです。そのため、なるべくわかりやすい方法を工夫してみてください。
場合によっては、動的な見せ方(ツールを利用したり、動画にしたり)も有効です。

5.要約
要約では、4で見せた図等を言葉にしましょう。なるべく単文で3行程度で読める内容がよいです。図だと人間は理解するという工程が入ってしまいます。そこで言葉でこの図等からは何が言えるかを表現し、反射的に相手に情報を知ってもらうことが重要です。

6.統合・総合
今までは1つのことしか考えてきませんでした。しかし現実的には複数の分析を考慮して推論の結果を出す必要が出てきます。そのため、ロジカルに複数の分析結果をつなげてみましょう。
そして、総評として何が言え今後どうしていくべきがをまとめましょぅ。
ここは非常に難しく経験が必要な場合が多いです。なので小さいことからでもよいのでこのサイクルを繰り返し、たくさんの経験を積むことをおすすめします。


0 件のコメント: