エクセル2019のデータ分析「サンプリング」の使い方解説~ランダムや周期変化で標本抽出

2020年12月1日

マイクロソフトのエクセル2019のデータ分析には、サンプリング機能が用意されています。

サンプリングを使うと、ランダムや周期変化などの条件でエクセルのデータから標本抽出することができます。

今回、エクセルのデータ分析にあるサンプリングの利用手順と使い方を紹介します。

エクセル2019のデータ分析

マイクロソフトのエクセル2019にはデータ分析の機能が備わっています。

このデータ分析のメニューを使うと、相関や共分散、ヒストグラムといった統計的な数値を出力することができます。

エクセル2019でデータ分析!「重回帰分析」を実行方法と結果項目を解説

エクセル2019のデータ分析「相関」の使い方と相関係数の求め方を解説(散布図で確認)

エクセル2019のデータ分析「基本統計量」の使い方と出力結果・統計値の見方を解説

統計学のサンプリングとは?

統計学におけるサンプリングとは、データの母集団から標本データを抽出することです。

様々なデータを調査する上で全量調査というのは難しいです。

調べたい対象をすべて調べることはコストの膨大になりますし、そもそも現実的ではありません。

そこで、調べたい母集団の中から一部のデータを無作為に抽出して調査します。

このように標本を抽出することがサンプリングです。

日本における統計調査といえば国勢調査が有名ですが、国勢調査は全数調査となっています。

そのため、日本の全世帯が国勢調査の調査対象です。

ただ、総務省統計局が行っている労働力調査や家計調査など、多くの調査は標本調査となっています。

統計的に有意な結果が出るレベルの標本サイズをサンプリングで抽出して調査しています。

エクセルのデータ分析・サンプリング実行手順(ランダム抽出)

実際にエクセル2019のデータ分析でサンプリングを実行する手順を解説します。

まずは標本をランダムに抽出するサンプリング方法です。

50人分の国語のテスト点数データからランダムに20標本抽出してみます。

1.エクセル2019のメニュー「データ」タブを選択し、データ分析をクリックします。

エクセル2019のデータ分析でヒストグラムを作成する方法。まずデータ分析のウィンドウを立ち上げる

2.データ分析の分析ツールの中から、下の方にある「サンプリング」を選択し、OKボタンをクリックします。

エクセル2019のデータ分析メニューの中から「サンプリング」を選択してOKボタンをクリック

3.入力範囲で国語のB列を選択し、「標本の採取方法」でランダム、データの個数:20を設定し、OKボタンをクリックします。

エクセル2019のデータ分析「サンプリング」でサンプリングする母集団となるデータを選択し、サンプリング条件でランダムを選択して実行

以上の3Stepでサンプリングによるランダム標本抽出は完了です。

エクセルのデータ分析のサンプリングでランダム抽出した結果

上記のように元の母集団のデータの並びとはまったく関連性がない形で指定した20人分の国語のテストの点数が抽出できました。

周期変化による標本抽出するサンプリングも

続いて、ランダム標本抽出以外に実施可能な周期によるサンプリングも紹介します。

エクセル2019・データ分析のサンプリング機能では周期による標本抽出も可能

こちらでは、母集団となる入力範囲はそのままで、「標本の採取方法」を周期変化を選択し、周期を入力します。

今回は周期に2を入力した上で、周期変化によるサンプリングを実行します。

サンプリングで2周期での周期変化によるサンプリングを実行した結果

今回、周期に2を指定したため、サンプリングによって50個のデータから25個の標本が抽出されました。

元データの2番目、4番目、6番目、・・・、50番目と規則的なルールに従って、標本が採取されています。

周期の数を大きくすればするほどデータの取得可能な数値が変化します。

エクセル2019のデータ分析のサンプリングで、周期5で標本採取を行った結果

周期を2よりも大きい5にすると、50÷5=10で抽出した標本数は10となりました。

周期による標本抽出は、選択条件が確定しているため、何回実行しても母集団のデータが変わらない限り、取得される標本は同一です。

ランダムと周期、どちらのサンプリングがよい?

エクセル2019のデータ分析にあるサンプリングではランダムと周期による2種類の標本抽出を選ぶことができます。

ランダムと周期ではどちらのサンプリングがよいのでしょうか?

標本抽出において重要なのはランダム性で、無作為に抽出することが大切と言われています。

周期によるサンプリングだと、元データの並びに規則性(大きい順や一定の法則)があると、その影響を受け、無作為にならなくなります。

エクセル上で配置しているデータは人間が見やすいように整形・並び替えしているため、ランダムでサンプリングするのがオススメです。

ただ、ランダムで抽出すると、サンプリング結果は毎回異なる結果になり、導かれる統計的な指標も異なる数値になります。

実装する数値処理や統計処理が適切かどうか確認する上では、値をチェックするために周期によるサンプリングがオススメです。

このようにランダムと周期によるサンプリングを使い分けることが求められます。

まとめ・終わりに

今回、エクセル2019のデータ分析機能で利用可能なサンプリングを紹介しました。

エクセル2019に用意されたサンプリングでは、ランダムと周期による2種類の標本抽出が可能です。

統計的な無作為の抽出が行いたい場合はランダムのサンプリング、数値処理や統計処理の実装が正しいか確認する際に周期によるサンプリングを選びましょう。