〈解説〉相関係数

相関係数

対応のある2つの量的変数\(X\)と\(Y\)があるとき、2つの変数の間に直線的な関連があるかどうかを検討するための指標が相関係数です。各データの偏差をXY平面上にプロットしたとき、プロットがおおむね右上がりであれば、\(X\)の値が大きい時に\(Y\)の値も大きい傾向にあるといえます。これを「正の相関がある」といい、相関係数は正の値をとります。逆に、右下がりであれば、\(X\)の値が大きい(小さい)時に、\(Y\)の値は小さい(大きい)傾向にあることといえます。これを「負の相関がある」といい、相関係数は負の値をとります。どちらともいえない(はっきりした傾向がみられない)とき、「相関がない」、「無相関である」といい、相関係数は0に近い値をとります。

相関係数の解釈

相関係数は、2つの量的変数に「直線的な関連」があるかどうかを見るための指標です。したがって、2つの変数が2次関数的な関連をもつとき(たとえばプロットが放物線を描くようなとき)は、相関係数は適切な指標ではありません。
また、相関係数は標本サイズが大きい時、有意になりやすい指標です。外れ値の影響も強く受けます。相関係数が有意であることや、相関係数の絶対値が大きいことは、「2つの変数の直線的な関連の強さ」を直接的に示すものではありません。データのプロットをよく観察することが重要です。

〈使用方法〉相関係数の予想

データのプロット

標本サイズを指定して、プロット描画をクリックすると、乱数で生成したデータをXY平面上にプロットします。プロットの配置だけを見て、相関係数を予測しましょう。

丸め処理

乱数で生成されたデータは、小数点以下10桁ほどの実数です。これを、四捨五入によって、整数あるいは小数1桁(2桁)に丸めるかどうかを指定します。

相関係数の予想

データをプロットすると、相関係数の予想をすることができます。判定をクリックすると正解(小数点3桁に丸めています)を表示します。ただし、正誤判定はしていません。プロットの見た目から相関係数を予想することは意外に難しい、ということを実感してください。

外れ値の指定

外れ値を除外した相関係数が計算できます。正解表示後に、除外したいデータ点をクリックします。データ点が赤く表示され、そのデータを除外した場合の関係数を表示します。除外できるデータ点は1つだけです。

〈学習課題〉相関係数の予想

  1. 標本サイズが小さい時(例えばn=10)と、やや大きい時(例えばn=50)とでは、相関係数の予想のしやすさに違いがありますか。違いがあるとしたら、どのように違いますか。また、なぜそのような違いが出ると思いますか。
  2. 判定のあとに表示される統計情報をつかって、相関係数を計算し、表示されている相関係数と一致するか試してみましょう。(統計情報は小数3桁に丸められています。丸め誤差に注意してください。)
  3. 相関係数は外れ値に影響されやすい指標ですが、それはなぜですか。プロットの見た目、あるいは、計算式をもとに説明してみましょう。
  4. 表示されている統計情報の「分散」および「共分散」は、標本サイズnで割った値(通称「標本分散」)です。一方、提供しているスクリプトでRが計算する「分散」および「共分散」は、(n-1)で割った値です。どちらを用いるかによって、相関係数は変わるのでしょうか。それはなぜでしょうか。お使いの教科書に掲載されている計算式をもとに考えましょう。

予想と判定

標本サイズ