Webデータの収集と分析は、ビジネス成長にどのように役立ちますか?

データの収集と分析は私たちの生活に一定的な影響をもたらしています。ビジネスや企業はデータによって顧客の行動や市場の要求を分析することが簡単になりました。

Wal-Martは、Amazonと競合するために、統計分析と意味分析に基づく「Polaris」という検索エンジンを開発しました。Polarisは、Facebookから、pined/liked/savedなどの商品に関するメッセージを受け取ることができます。これでWal-Martは消費者の動向を一刻も早く把握することができます。

それにひかれて、私もデータからユーザーのログイン頻度と購入商品数この2つのパラメタの間に關係性があるのかを分析してみました。

以下では、それらのデータを取得し分析、結果がでるまでの方法について説明します。

 

Part 1、ユーザーデータの収集

オンラインユーザー管理システムには多くのユーザーデータを保存しているはずです。Web上の情報を収集して、さらに分析するためにローカル側に保存する必要があります。

ただし、企業にとって、プログラミングによってWebサイトからデータをスクレイピングするコストは予算オーバーになる可能性があります。コーディングする必要がなく、Octoparseのような無料Webスクレイピングツールを活用するのは一番いいと思います。ドラッグとクリックするだけで、目的のデータを簡単に収集できます。オンライン管理システムからデータを抽出する方法は不便なので、今度は別のサイトを利用してデータを抽出する方法と、実際にオンライン管理システムから抽出したデータに基づいた分析を説明します。

 

手順:

ステップ1、ターゲットURLを入力します。内蔵ブラウザでWebページを完全に読み込まれるのを待ちます。

ステップ2、ページネーションループを設定します。Octoparseは自動的に次のページに渡ります。

ステップ3、下記画像の中にある赤枠のように、全てのターゲットデータを含むループアイテムを作成します。

ステップ4、データフィールドを選択します。このサイトは商品名、商品価格とポイントですが、オンライン管理システムの場合ではログイン頻度、購入品番やユーザーIDなどそれぞれにニーズに合わせて選択してください。

ステップ5、指示に従って次のステップをクリックし、「ローカル抽出」を選択します。データがどのように短期間で抽出されるのかをローカル抽出画面で確認できます。

 

 

OctoparseではExcel、CSV、HTMLなどを含むさまざまな形式にデータを抽出できます。

 

 

Part 2、データ分析

(これからの内容は全て実際のオンライン管理システムから収集されたデータに基づいた分析です。上記のサイトから抽出されたデータとは無関係です。)

ステップ1、推測

データをExcelにエクスポートしましたので、これら2つの要素(ログイン頻度、購入数)が実際に互いに關係があるかどうかを調べます。データを再編成して以下ようになります。

取得されたデータに基づき以下のような散布図を作って、分析したいデータ(ログイン頻度、購入数)が規則的に分布していることが一見でわかります。購入数のほとんどはログイン頻度の2〜5の間に集まっています。これは、ログイン頻度が2〜5の範囲にある人々がより高い購入傾向を示すというシナリオを想定しています。さらに、赤線から見れば、ログイン頻度がこの範囲内であるほど、顧客が購入する商品の数が多くなると予測できます。 しかし、これは単なる主観的な推測です。この仮説を試すためにさらに進む必要があります。

 

 

ステップ2、統計的仮説検定分析(P値)

ユーザーのログイン頻度と購入数の間に一定的な関係があると想定してみましょう。

 

まず、ログイン頻度は2~5以内だと仮定しました。

次に、ログイン頻度2、3、5のデータに統計的仮説検定分析を行います。

それから、データ全体からランダムサンプリングを行い、22のサンプルデータを選択します。

 

 

その後、Matlabまたは他の利用可能なデータ分析ツールを使用して単一因子分散分析を実行できます。有意水準α、すなわちタイプIエラーを起こす確率を0.05に設定します。 

最終結果は以下の通りです。3つのグループは平均値が異なっていることがわかります。サンプルグループの違いは、実験のサンプリングエラーによって発生したと仮設します。

P値をαと比較すると、P値がα未満であることがわかります。したがって、これら3つのグループに違いがあるという対立仮説を支持して帰無仮説を棄却できます。さらに、ユーザーの購買数が、ログイン頻度の影響を受けることが検証できます。

 

 

上記の分析から、指定されたログイン頻度を持つターゲットユーザーにもっと目を向け、目標と予算計画に焦点を合わせる分析に役立つことができます。

 


 関連記事:

2019年データサイエンスにオススメの本80冊!

2019年データ分析・データ可視化ツールおすすめの30選!

オルタナティブ・データ(代替データ)とは?どのように使えるか?

中国のシリコンバレー、Huaweiも本社をおく深センで暮すにはいくらかかる?