シンプソンのパラドクスとは
シンプソンのパラドクス(Simpson’s paradox)とは、物事を全体で見るか、部分で見るかで、正反対の結論が得られることがあることを示したもの。
1951年にイギリスの統計学者エドワード・シンプソンが提示した統計的なパラドクスです。
どこをみるかで正反対の結論になる?そんなことってあるの?
数字が示すデータなんて、作り手の意図でどーにでもなっちゃうもんだ。
どっちが成績優秀?
与えられた宿題110問を2日間に分けて実施する例を見てみましょう。
1日目、110問のうち、A君は100問に着手。B君は10問しかできませんでした。
そして1日目の採点結果はこちら。
A君 | B君 | |
1日目 | 100問中60問が正答 60点 | 10問中9問が正答 90点 |
2日目、2人は残りの宿題に取り掛かります。(A君は残10問、B君は残100問)
そして2日目の採点結果はこちら。
A君 | B君 | |
2日目 | 10問中1問が正答 10点 | 100問中30問が正答 30点 |
1日目も2日目も、B君のほうが点数が良い結果になりました。
両日ともに点数を上回ったB君のほうがA君よりも成績優秀であるように思えます。
しかし、全体を通してみてみると、この110問の宿題の正答率はA君のほうが高いことが分かります。
A君 | B君 | |
全110問 | 110問中61問が正答 55点 | 110問中39問が正答 35点 |
日付別結果と全体結果が、正反対になってしまいました。
このように、母集団での相関と、母集団を分割した集団での相関では、異なっている場合があるというのが、このシンプソンのパラドクスです。集団を分割した時に仮説が成立したとしても、集団全体でみると正反対の結果になってしまうということを示しています。
なぜシンプソンのパラドクスが起きる?
シンプソンのパラドクスは、統計データの背後にある潜在的な要因を無視した場合に起こります。
以下に、なぜシンプソンのパラドクスが発生するかを詳しく説明します。
サンプルサイズの差異
シンプソンのパラドクスは、異なるカテゴリーやグループのサンプルサイズが大きく異なる場合に発生しやすいです。サンプルサイズが大きいグループの結果が、全体の結果に強く影響を与えることがあります。
潜在的な交絡因子
シンプソンのパラドクスが発生する要因の一つは、他の潜在的な要因(交絡因子)が影響している場合です。統計データを分析する際、これらの交絡因子を考慮しないと、正確な結論に達するのが難しくなります。
データの偶然性
シンプソンのパラドクスは、偶然性にも関連しています。小規模なサンプルでは、偶然の結果が全体のトレンドを歪めることがあります。大規模なデータセットでの分析が、このような偶然性を軽減することができます。
選択バイアス
データセット内の特定のサブグループを選択的に分析することが、シンプソンのパラドクスを引き起こすことがあります。特定のサブグループに焦点を当てる際、全体のパターンを見落とす可能性が高まります。
カテゴリーの選択
データをカテゴリーに分類する方法によっても、シンプソンのパラドクスが影響を受けます。適切なカテゴリーの定義や分類が行われない場合、逆転効果が生じる可能性があります。
つまり、シンプソンのパラドクスは、データの複雑性と解釈における注意深さの不足に起因します。
上に挙げたA君とB君の110問の宿題の例では、点数だけを見てしまうことにより、2人が1日に何問の問題をこなしたのかということに注意を向けないまま、B君のほうが優秀であると結論付けています。
統計学の分野では、このパラドクスを回避するために、潜在的な交絡因子を考慮に入れ、データの全体的な文脈を理解することが非常に重要です。また、データの正確性を保つために、適切な統計手法を使用し、結論を導く際に注意を払うことが必要です。
データを正しく読み取る
シンプソンのパラドクスは、意思決定や政策立案に影響を与えることがあります。
誤ったデータ解釈に基づく判断は、大きな問題を引き起こす可能性があります。したがって、統計データを分析する際には、全体の文脈を考慮し、適切な統計ツールを使用することが重要です。
ここに偏りはないか?注意深くデータを読み解くことで、正確な情報に基づいた意思決定を行いましょう。
(参考文献)
「知識ゼロでも楽しく読める!統計学のしくみ」佐々木彈(2021)西東社
コメント