ドイツの戦車問題とは
ドイツの戦車問題(German tank problem)とは、第二次世界大戦中に連合国が捕獲したドイツ軍の戦車の車体番号から、戦車の総数を統計学的手法を用いて推測した問題のこと。
第二次世界大戦中、相手国ドイツ軍の戦車に苦しめられていた連合国には、ドイツがどれくらいの数の戦車を保有しているのか情報がありませんでした。
そこでなんと、捕獲した何台かの戦車に割り振られた車体番号から、戦車の全体数を統計学的に見積もりました。
この問題は、統計学の古典的な課題の1つとして知られており、その解法は統計学の基本的な原則を示しています。
え・・何台かの車体番号だけで全体数を見積もる?ムリムリ!
注目はサンプル値の間隔なのだ。
たぶん最大の車体番号が、戦車の総数じゃないか。
1940年代、連合国軍は捕獲したり撃破したドイツ軍の戦車から車体番号を収集していました。
これらの車体番号は、生産された戦車の総数を推測する手がかりとなり得ると考えられましたが、どのようにしてこの断片的な情報から戦車の総生産数を導き出せば良いのか、それが大きな問題でした。
そんな時、統計学の原理を使ってドイツ軍の全戦車数を算出できると主張したのは数学者たちです。
捕獲した戦車の車体番号から生産された戦車の最大車体番号を推定し、それを基に総数を導き出すというアイデアでした。
車体番号の間隔に注目する
仮に捕獲した戦車の車体番号が 2, 6, 7, 14 だったとします。
このデータから、戦車の総生産数を推測するには以下のステップに従います。
1)データの観察
捕獲した戦車の車体番号から最大値(この場合は14)を特定します。
2)推定
最大車体番号を基に、総生産数の推定値を計算します。統計学的には、捕獲した戦車の最大車体番号に基づき、総数の推定式を用います。ここでは車体番号の値の間隔に注目します。
以下の計算式は、車体番号間の平均間隔を2.5と算出し、手持ちの車体番号の最大値に2.5を足して、戦車の総数(母集団)を16.5と推定しています。
連合国の統計学者たちによる推定は非常に正確であり、戦争終結後に明らかになった実際の生産数との間にはわずかな差しかありませんでした。
この手法による推定値は、他の情報源から得られた推定値よりもはるかに正確であることが証明されました。
現代での応用
ドイツの戦車問題は、限られたデータから全体を推測するための統計学の威力を示す典型例として、現代でも多くの分野で応用されています。
ビジネスの意思決定、生物学的な種の個体数推定、ソフトウェアエンジニアリングにおけるバグの発見率の推定など、さまざまなシナリオでこの手法が利用されています。
コメント