エクセル2019でデータ分析!「重回帰分析」を実行方法と結果項目を解説
マイクロソフトの表計算ソフト「エクセル」にはデータ分析機能が備わっています。
データ整理や集計、抽出の他にそうしたデータに統計処理を行い、分析することもできます。
今回、エクセル2019を使って重回帰分析を行う方法と表示項目について解説します。
エクセル2019でデータ分析が可能!
マイクロソフトの表計算ソフト「エクセル」では、データ分析機能が備わっています。
それによって、エクセル上で様々なデータ分析が可能です。
エクセル2019でのデータ分析のアドインを有効化する解説記事↓
回帰分析とはある値から目標の値を予測する
データ分析の中で最もよく使われるのが回帰分析です。
回帰分析(単回帰分析)は、ある値Xともう1つの値Yの関係性に最も適した直線を計算によって見つけます。
新たなXの値が与えられたときに、算出した直線によって、Yの値を予測します。
例えば、回帰分析には以下のような事例が挙げられます。
- 立ち幅跳びXcmから50m走のタイムY秒を予測する
- ある地域で部屋の広さX㎡から家賃Y円を予測する
- ネット広告費X円をかけた時のクリック数Y回を予測する
このように1つの変数の場合は、Y = aX + bと中学校で習ったX,Y座標での1次関数として回帰式が求められます。
重回帰分析はX(説明変数)が2個以上に
単回帰分析では、目標となるYの値を求めるX(これを説明変数と呼びます)が1個しかありませんでした。
この説明変数のXが2個以上存在する場合の回帰分析を重回帰分析と呼びます。
色々な値を複合して算出する重回帰分析は、予測の精度が高いように感じますが、実は注意が必要です。
説明変数によっては、まったく目標値の予測に役立たないものもあり、そうした値が回帰直線の算出結果に影響を及ぼします。
さらに、説明変数同士が相関関係がある相関性高いものだと、回帰直線の推定が困難になります。
そうした点で重回帰分析では、様々な変数の組み合わせを試して、その中から最適な説明変数を抽出し、回帰直線を求める必要があります。
エクセル2019で重回帰分析の実行方法
実際にエクセル2019で重回帰分析をどのように実行するか、解説していきます。
エクセル重回帰分析の解説で使用するのは、引用元よりお借りした野球選手の体力測定のデータです。
20名の遠投・懸垂・握力の3つの測定データを説明変数として、球速を推定する重回帰分析を行います。
1.メニューのデータタブから右端にある「データ分析」をクリックします。
2.分析ツールの中から「回帰分析」を選択し、OKボタンをクリックします。
3.目的変数となる入力Yの範囲と、説明変数となる入力Xの範囲を指定します。
※ラベルを含めた形で範囲を指定し、「ラベル」にチャックを入れます。
4.重回帰分析を行った結果の各種数値が新しいシートに記録されます。
このように4Stepでエクセル2019の重回帰分析を行うことができます。
エクセルの重回帰分析で表示される項目・用語を解説
エクセル2019の重回帰分析の実行結果で表示される項目は色々あります。
そのため、重回帰分析の結果のどの項目を見ればよいかわかりにくいところがあります。
そこで、実際に見るべき項目をピックアップし、その項目の見方を解説します。
エクセルの重回帰分析の結果項目で見るべきポイントは以下の5つです。
- 補正R2
- 有意F
- 係数
- t
- P-値
補正R2(自由度調整済み決定係数)
回帰統計の表ではRとついた決定係数(寄与率)が3つ出てきており、統計初心者にとってわかりにくいポイントです。
その中で、最も数値的に見るべきが「補正R2」で、統計的には「自由度調整済み決定係数」と言います。
補正R2は標本サイズの補正を加えた数値で、1つ前の重決定R2(寄与率)よりも重要性が高いです。
この数値が1に近づくほど説明変数Xが目的変数Yを説明できている(寄与している)ことを表しています。
ただ、1に近づきすぎると、データがピタリと当てはまりすぎているため、決定係数は0.6~0.8ぐらいが目安と言われています。
有意F
有意Fは、重回帰分析の結果の有意性を判定する「F検定」で用いられる数値です。
この数値が0に近いほど、重回帰分析で導いた回帰モデルが有意性があると考えられます。
有意Fの目安としては5%(0.05)を下回るかです。
今回の重回帰分析の結果では、有意Fが0.018868なので、統計的に有意と言えます。
係数
係数は回帰式「Y = aX + b」のaやbの定数部分を表しています。
今回のケースでは、導き出された係数から以下の回帰式が算出されています。
(球速) = 0.71154×(遠投) + 0.376354×(懸垂) + 0.064788×(握力) + 48.06875
この数値を見ることで、どの要素が目的変数に強い影響を与えているかがわかります。
今回の例で言えば、球速に遠投が最も影響があり、遠投が大きくなるほど球速も高くなることを示しています。
t値
t値は個々の説明変数の有意性を判定するt検定で用いられる数値です。
F検定との違いは、説明変数の数です。
- F検定:説明変数が3つ以上
- t検定:説明変数が2つ以上
t検定では0に近いほど値として意味がないことを表しています。
2を超えると95%の確率で意味のある変数であると判断できます。
今回のケースでは遠投と懸垂は意味のある変数ですが、握力は意味のない変数と解釈されます。
P-値
P値もt値と同じように変数が意味あるかを表す数値です。
こちらはt値とは逆で0に近いほど、意味のある説明変数であることを示しています。
P値は目安として0.05以下だと説明変数として採用してよいと判断します。
今回の例では、t値同様に遠投と懸垂は意味があるものの、握力は意味がないと判定できます。
このようにエクセルの重回帰分析で出力される結果の中では上記の5つを主にチェックし、結果について考察を行います。
有意でない説明変数を除去し、再び重回帰分析
今回の実行例では、遠投、懸垂、握力の説明変数Xの中で、握力の説明変数のt値やP-値が有意ではないという結果が得られました。
有意ではない変数が含まれていると、重回帰分析の結果に影響を及ぼすため、取り除いた上でもう一度重回帰分析を実行します。
握力を入力Xから除去し、遠投と懸垂の2変数として範囲を指定し、重回帰分析してみます。
先程の3変数での重回帰分析よりも補正R2(自由度調整済み決定係数)や有意F、t値、P-値が改善しています。
このように説明変数を調整しながら、より目的変数を説明できる組み合わせを見つけ、重回帰分析を行っていくのがデータ分析のやり方となります。
まとめ・終わりに
今回、エクセル2019のデータ分析機能で重回帰分析を行う方法を解説しました。
データ分析機能の中にある回帰分析から、説明変数Xと目的変数Yを設定することでエクセルが自動的に重回帰分析を計算してくれます。
重回帰分析の結果が色々と出ますが、見るべきは①補正R2、②有意F、③係数、④t、⑤P-値の5つです。
これらの重回帰分析の結果を見ながら、説明変数を調整し、より目的変数に適した回帰式を探します。
エクセルを使えば簡単に重回帰分析が実行できる反面、数値を理解しておかないと、誤った結論を招く恐れがあるので、結果項目についてお伝えしたレベルは把握しておきましょう。
ディスカッション
コメント一覧
まだ、コメントがありません