エクセル2019のデータ分析「共分散」の使い方を紹介!相関係数との違いも解説
マイクロソフトの表計算ソフト・エクセル2019にはデータ分析には共分散を計算する機能が備わっています。
今回、データ分析の共分散の使い方と相関係数との違いを解説します。
エクセル2019のデータ分析
マイクロソフトのエクセル2019にはデータ分析の機能が備わっています。
このデータ分析のメニューを使うと、相関や共分散、ヒストグラムといった統計的な数値を出力することができます。
統計学における共分散とは
統計学における共分散は2つの変数データの関係性を表す数値です。
2変数X,Yについて平均値からの偏差を掛け算した後、平均値を算出した数値が共分散となります。
共分散を計算することによって、2つの変数の関係性について、共分散の数値から得ることができます。
エクセルのデータ分析で共分散を求める手順
エクセル2019のデータ分析には、2変数の共分散を算出する機能も搭載されています。
そこで、エクセル2019のデータ分析機能で共分散を求める実行手順を解説します。
1.エクセル2019のメニュー「データ」タブを選択し、データ分析をクリックします。
※分析リボンが表示されていない場合は、以下の記事を参考にしてください。
2.データ分析の分析ツールから「共分散」を選択して、OKボタンをクリックします。
3.入力範囲に共分散を計算したい行・列(今回は国語B列と英語C列)を選択し、OKボタンをクリックします。(ラベルを含む場合は「先頭行をラベルとして利用」にチェック)
以上の3ステップで共分散の数値を計算することができます。
共分散の数値から、国語と英語のテストの関係性を調べることができます。
データ分析の共分散の設定時の注意点
なお、エクセルのデータ分析の共分散の設定には1つ注意点があります。
共分散の設定で、入力範囲に指定できるのは「連続した列・行の範囲」しか選択できないことです。
例えば、先ほどのデータで言う、1列離れた国語と数学の共分散を求めようと、それぞれの列を入力範囲に指定するとエラーメッセージが表示されます。
ただ、2変数間の共分散を求める際に2列以上を指定して、各列間の共分散を算出することもできます。
今回のサンプルデータだと、5教科分すべて選択することで、それぞれの共分散の数値を求めたマトリクスが出力されます。
このように共分散を見ると、国語と英語よりも数学と物理の方が大きく、数学の点数と物理の点数の関係性が高いことが分かります。
また、国語と物理では最も共分散が小さいため、関係性が小さいと言えます。
共分散と相関係数の違い
共分散は2つの変数間の関係性を示す数値ですが、似た統計的な指標として相関係数があります。
この共分散と相関係数の違いは何なのでしょうか。
実はどちらも変数間の関係性を示すものですが、共分散には「データの単位の影響を受ける点」が異なります。
共分散はデータの単位の大きさに影響を受けるため、単位が大きいほど共分散の値も大きくなります。
同じ単位のものから算出した共分散の数値なら比較できますが、異なる単位同士ではどちらが関連性があるか比較できません。
そのため、共分散の数値がどこ以上だと変数間の関係性が高いといった判断ができません。
それに対して、相関係数は-1~1の範囲に正則化されているため、1に近づくほど正の相関関係が強く、-1に近づくほど負の相関関係が強いと言えます。
統計分析では共分散より相関係数がオススメ
上記で紹介した通り、共分散はデータが持つ単位の影響を受けてしまい、共分散の数値は統計的な指標として評価しづらいです。
同じ単位系であれば、変数Xと変数Yの共分散と変数Xと変数Zの共分散を比較することはできますが、一定の●●以上だから相関関係があるとは判断できません。
先ほど似た指標として紹介した相関係数なら、1または-1に近づくほど相関関係があると判断できるため、相関係数を求める方がオススメです。
エクセルのデータ分析では相関係数も求めることができるので、
まとめ・終わりに
今回エクセル2019のデータ分析で、変数間の関係性を表す共分散を計算する方法を解説しました。
入力範囲を選択するだけで2つの変数間の共分散を算出することができます。
ただ、共分散は単位の影響を強く受けるため、統計的な指標としては使いづらいです。
そのため、関係性を調べたい場合は共分散ではなく相関係数を算出するようにしましょう。
共分散の計算が必要な場合に、今回紹介したエクセル2019での共分散の求め方を使って算出してみてください。
ディスカッション
コメント一覧
まだ、コメントがありません