経験や勘に頼るマーケティングから、根拠に基づくマーケティングへ
データの分析では、
Google Analyticsを活用してWebサイトへのアクセス状況の分析
集めたデータをPythonを使って可視化して分析
データ分析は、解決するべき問題を明確にして、それに対して分析を行い、結論をまとめる一連のプロセスである。
例えば、商品の販売数について分析を行う際、データより、平均値、中央値、最頻値などを求め、グラフなどで可視化を行い、更にデータの分散、標準偏差などを求めデータの全体像を知ることはできるが、分析の前に、何を知りたいのかをハッキリさせて置かなければ、分析の手法が正しいかどうか分からない。
データ分析の手順
<データの種類を分ける>
データには数値で測定できる量的データと数値で測定できない質的データの2種類に分けられる。
さらに、量的データは、速度、商品価格、売上などの比例尺度を持つものと、
温度、年齢、西暦などの間隔尺度を持つものに分けられる。
質的データは、性別、職種、国別など名義尺度や、評価、ランキングなどの順序尺度を持つものに分けられる。
また、これらのデータを可視化することでデータは意味のある情報へと変化する。例えば、ヒストグラムは量的データの分布を確認でき、棒グラフは質的データの度数を確認できる。
商品の販売数(y)と購入者の年齢(x)について分析する場合
目的となる値:y(目的変数)と何らかの影響を与える値:x(説明変数)のデータをグラフにおいて、可視化するとx とyの関連性があるか無いかを直感的に知ることができる。
これらのxとyの関係は相関関係と呼ばれる。
グラフから回帰分析を行い、回帰係数を得て、相関の強弱を判定する。
一般に、回帰係数が、
0.7以上で1以下の場合、相関は強く
0.4以上で0.7未満の場合、相関は中程度、
0.25以上で0.4未満の場合、相関は小さい
商品の販売数と営業員の学歴の関連性を分析したい場合
大学卒業の営業員の方が、高校卒業の営業員より販売台数が多いのかを分析したい、
この場合、大卒者の平均販売数と高卒者の平均販売台数を比較して、平均販売台数に差が生じていればこの状況が偶然なのか偶然とは言えないのかを分析する。例えば、データをエクセルでt検定を行い、p値を求めることにより簡単に判定できる。
判定方法は、p値が有意水準(5%)未満であれば、統計的に有意差があるとして、偶然に生じた差とは言えない、つまり、販売台数は、大卒の営業員が高校卒の営業員よりも多いことが事実として立証される。
従って、販売数の増加の要因の一つとしては、大学卒の社員を営業員に配置する優位性が明確となる。
複数の質的データを分析する場合
例えば、営業職の男女の性別と担当地域の関係性は偏りがなく、適切であるかを分析する場合などは、実測度数のクロス表(A)と期待度数のクロス表(B)を比較して、カイ二乗検定を使用しする。
実測度数と期待度数の値が、近い場合は、男と女が独立している(偏りなく配置されている)、一方、度数のカイリが大きければ、偏りが存在する。
商品の同時購入を分析する場合
目的は、全体データをヒストグラムなどで可視化して分析し、販売方法やキャンペーンなどに活用する。データの分析手法は、アソシエーション分析を使用する。
例えば、顧客の購入歴データを分析し、商品の同時購入を意味する相関ルールを検証する。
検出された相関ルールの有効性は、確率に基づく「支持度:Support」、「確信度:Confidence」、「リフト:Lift」で評価される。
| Support | Confidence | Lift | |
| A->B | 0.12 | 0.8 | 6.9 |
| C->B | 0.12 | 0.16 | 1.3 |
A->B とC->Bの相関ルールを比べると、A->Bの方がLiftの値が大きく有効であると判定する。
つまり、Bの販売数を上げるには、Aの隣に配置すると有効であると考えられる。
もとのデータ ー>(商品間の距離を定義)ー>距離行列を作成する
ー>(データと低次元空間に埋め込み)ー>可視化の分析
結論として、この分析では距離が近い商品同士には、同時購入の可能性が高いと判定できる。