\r\n\r\n
Excelの統計計算で最も単純かつ一般的なものの1つが相関関係です。単純な統計量ですが、2つの変数に相関があるかどうかを知りたいときに、多くの情報を与えてくれます。Excelで相関係数を求めるのは、正しいコマンドさえ知っていればとても簡単です。
相関関係とは何か、それがどのような情報を与えてくれるのかを知るために見ていきます。その後、2つの方法と相関を見るのに適したグラフを使い、Excelで相関係数を見る方法に移ります。最後に、相関関係を調べるときに便利なもう一つの統計関数である線形回帰について、ごく簡単に紹介することにします。
その前に、関連性の定義について説明します。物事の関連性を示すシンプルな尺度です。何の相関もない2つの変数を見てみましょう。
これら2つの変数(X軸とY軸にラベル付けされたもの)は完全にランダムであり、密接な関係はない。
ただし、以下の2つの変数が関係する。
一般に、一方の変数が上昇すると、他方の変数も上昇する。これが相関関係です。(一方が上昇し、他方が下降する場合は負の相関となる)。
相関係数は、2つの変数がどの程度関連しているかを示すものです。係数は-1~1です。相関係数0は、2つの変数の間に全く相関がないことを意味します。2組の乱数を用意すると、このような結果になるはずです。
係数が-1であれば、完全な負の相関があることを意味し、一方の変数が増加すると、もう一方はそれに比例して減少します。係数 1 は完全な正の相関であり、一方の変数が増加すると、他方も比例して増加する。
例えば、相関が0.5であれば、中程度の正の相関である。
下の図に示すように、相関は直線的な関係だけを調べる。2つの変数が別の方法で強く相関していても、相関係数はゼロである。
Excelには相関関数が組み込まれています。CORREL関数の構文は非常にシンプルです。
=CORREL(配列1, 配列2)
配列1が最初の数値のセット、配列2が2番目の数値のセットです。例を見てみましょう。
このスプレッドシートには、モデルや年式を含む車のリストと、その価値が記載されています。CORREL関数を使って、年号と値が関連しているかどうかを見ています。
これは非常に弱い正の相関で、年式が上がれば車の価値も上がりますが、それほど大きな差はありません。
相関関係を実行する場合、データセットがどのようにリンクしているかを視覚化するために、散布図を使用するのが最もよい方法です。チャート」 > 「散布図」で、データがどのように見えるかを確認します。
このように、このデータでは車の年式はほとんど値に影響を及ぼさないことがわかる。わずかにプラスの傾向が見られるが、弱い。ここで、CORREL関数が見つかる。
散布図のもう一つの便利な要素は、次のような傾向線である。
トレンドラインは散布図において相関関係を明確にしたい場合に有効です。Windowsの場合、「チャートツール」> 「デザイン」> 「チャート要素の追加」をクリックし、「トレンド」を選択します。ライン」です。Macの場合は、Excelのバージョンに応じて、「グラフのレイアウト」または「グラフのデザイン」にアクセスする必要があります。
調査結果を表示する前に、Excel**を使って素晴らしいグラフを作成する方法のガイドをチェックすることを忘れないでください。
もし、多くの異なる数値のセットがあり、それらの間の相関を見つけたい場合は、それぞれの組み合わせに対してCORREL関数を実行する必要があります。しかし、データ分析ツールキットを使えば、多くのデータセットを選択し、相関関係がどこにあるかを見ることができます。
データ分析ツールキットが利用可能かどうかわからない場合は、基本的なウォークスルーをチェックして、ダウンロードし、そのコツをつかんでください。
Toolpakを起動するには、「データ」 > 「データ解析」に進みます。
相関」を選択し、「OK」をクリックします。
表示されたウィンドウで、「入力範囲」ボックスですべてのデータセットを選択し、結果を配置する場所をExcelに指示します。
以下は、「OK」をクリックしたときの結果です。
上の画像では、年、世界人口、2組の乱数という4つの異なるデータを相関させています。
各データセットはそれ自身との相関が1であり、乱数に期待されるように、年は世界人口と極めて強い相関を持ち、他の場所では極めて弱い相関を持っている。
相関は、2つの変数がどれだけ密接に相関しているかという単純な尺度である。しかし、この指標は予測や因果関係を示すものではありません。2つの変数に相関があるからといって、一方が他方の変化を引き起こすわけではありません。これが、相関関係を理解するためのポイントです。
因果関係に興味がある場合は、線形回帰を使用する必要があります。また、データ分析ツールキットからもアクセスできます。(この記事では線形回帰の仕組みについては詳しく説明しませんが、基本的なことを理解するための無料の統計資料が豊富にあります)。
データ解析ツールキットを開き、「回帰」を選択し、「OK」をクリックします。
XとYの範囲を記入し(X値は説明変数、Y値は予測しようとする値)、出力する場所を選択し、再度OKをクリックします。
ここで注目したいのは、説明変数のp値という数値です。
もし、それが0.05より小さければ、X変数の変化がY変数の変化につながるという強い論拠があることになります。上の図では、この年が世界人口を大きく予測することを示しました。
また、線形回帰は複数の値を見ることができるので、便利です。ここでは、回帰分析により、年および人口が原油価格の有意な予測因子であるかどうかを確認する。
p値はいずれも0.05未満であり、年および世界人口はともに原油価格の有意な予測因子であると結論づけられる。(X変数の間に強い相関があるため、それ自体が問題になる可能性もあるが)。
繰り返しますが、これは線形回帰の非常に単純な解釈であり、もし因果関係に興味があるのであれば、統計学のチュートリアルを読むべきでしょう。
しかし、より統計的な情報を求めるのであれば、単純な相関関係だけでは不十分だということがおわかりいただけたと思います
Excelの基本的な統計関数を理解することで、データからより有用な情報を引き出すことができます。相関は単純な尺度ですが、表計算ソフトの数字について発言するときに大きな助けになります。
もちろん、他にももっと複雑な指標をたくさん実行できますが、統計に慣れていない限りは、基本的なところから始めるのがよいでしょう。
Excelの相関関数をよく使うか、他にどんな統計関数を知りたいか。