世の中には3種類の嘘がある:嘘、大嘘、そして統計だ
イギリスの政治家、ベンジャミン・ディズレーリの言葉だと言われている(異説もある)。
ビッグデータの時代が到来しても、統計の嘘に騙されないための基本は何ら変わっていない。
統計データを作るためには、大きくわけて「入力」「処理」「出力」の3つの段階がある。
そして、それぞれの段階で嘘が入り込む余地がある。今回は「入力」段階について考える。
入力(誘導質問、調査結果の偏り)
データを集める段階。
アンケート調査が代表的で、我が国で最も大きなものは国勢調査だろう(昨年実施された)。
この段階でまぎれこむ嘘は「誘導質問」がもっとも多いように思う。
たとえば、あるテーマに対して、ポジティブな説明を行った後でそのテーマの是非について質問する。
回答者は、直前に与えられたポジティブな説明に引きずられて、肯定的な回答をしがちになる。
逆にネガティブな情報を与えれば、回答者は当該テーマに対して否定的な回答をすることが多くなる。
そのテーマに対して明確に賛成・反対の意見を持っている回答者は設問の影響を受けない。
しかし、賛成でも反対でもない、このテーマに対して明確な意見のない層は、このような設問に影響を受けやすい。
結果として、アンケート結果は出題者の意図した方向に歪んでしまう。
また、調査対象がそもそも偏っているケースもある。日中平日の電話調査であれば、いくら無作為に電話をかけたとしても、その時間に自宅に居る人達(主婦、老人がほとんどだろう)からしか調査ができない。
逆に、ネットを使ったアンケートでは、若者に偏る傾向がある。