【数ⅠA】実際にデータから相関係数を求めてみた。統計学的に考察。

センター試験でも高い頻度で出題される「データの分析」の相関係数

ですが、相関係数を求める機会があっても、問題に出題されているデータを利用することしかなかったと思います。なので、今回はデータから自分で選定したいとも思います。

※ここでは相関係数とは、高校教科書にも出てくるピアソンの積率相関係数を表すことにします

「人口」と「県民総生産」

今回は「人口」と「県内総生産」の相関について取り上げます!これらの相関関係を調べるために、その二つのデータについて散布図を作成しようと思います。県内総生産とは、県内で算出されたサービスの総額(出荷額、売上高など)から原材料費・光熱費を差し引いたもの。つまり、1年間に県内の経済活動によって生み出された付加価値の総和を意味しています。まず、この相関を検証するために、「内閣府ホームページ 統計データ」から2014年の各都道府県ごとの人口と県内総生産についてのデータを引用しました。上記の図1はその引用したデータで、図2はその散布図である。どちらも表計算ソフト「Excel」を利用して作成しました。

図1 都道府県別の県内総生産と人口

(引用元:内閣府ホームページ 統計データ

図2  図1の散布図

 

考察

上にある図2を見ると、二つのデータは、一方が増加すると他の一方も増加する傾向になっていて、正の相関関係があるといえます。そのうえ、分布が一本の直線に近いのでその相関は強い。実際に、相関係数を図1の表から計算して求めてみると、その値は0.9285…となるので分布の見た目の通り、強い正の相関があるといえます。また、図2をもう一度見ると、一つだけ分布が集合している部分から大きく離れている点があります。この点の座標をおおよそ読み取り、図1を参照して調べてみると、この点は「東京」を示すものであることがわかります。先程述べた通り、この点は分布から大きく離れているので、もしも仮に、この点以外の相関係数を求めるとしたら、さらに値の大きい正の数字が得られるでしょう。

まとめ

散布図を作成し、その相関係数の値を計算する事によって、上の二つのデータには強い正の相関があるとわかったので、人口が増えるにつれて県内総生産が増加するといえます。だが、もしもこの「人口」と「県内総生産」の二つのデータに、ある共通要因が存在すれば、今回の調査で得られた相関はいわゆる疑似相関となってしまうかもしれません。なので、予想を検証するときには、どのデータを用いれば適切に検証できるのかを第一に考えなければならないですね。誤ったデータ選択をしてしまうと誤った結論を導いてしまいます。統計学には、数学的なデータ処理だけではなく、社会的な知識も必要になるのだろうと強く感じました。

コメント