그는 옥석을 가리기 위해 당시 야구계에서 외면했던 ‘출루율’과 ‘장타율’ 그리고 ‘사사구 비율’ 등과 같은 경기 데이터를 중요시했다. 그에게는 ‘좋은 선수’는 기본적으로 ‘누상에 자주 출루하는 타자’와 ‘볼넷을 적게 허용하는 투수’였기 때문이다. 심지어 예일대 출신 경제학자를 데이터 분석관으로 고용하여 선수들의 모든 능력을 수치화하고 통계를 조합하여 가장 예산이 적으면서도 우수한 팀을 만들었다. 현대야구는 통계를 많이 활용하는데, 빌리 빈은 그 통계를 가장 철저하게 활용한 사람으로 알려져 있다.
조사통계에 있어서 일반적으로 시간과 비용의 제약으로 일일이 전체를 다 조사(전수조사, censusu)하지 않고 모집단 일부만을 조사(표본조사, sampling survey)한다. 이때 관심의 대상이 되는 전체를 ‘모집단’이라 하고 조사된 일부를 ‘표본’이라 부른다. 모집단의 특성을 수치로 나타내어 ‘모수’라 하고 표본으로부터 계산해내는 수치는 ‘통계량’이라 부른다.
금년도에 시행되는 대통령선거를 예로 들어 보자. 모집단은 투표 당일 투표장에 갈 유권자 전체이며, 모수는 투표 당일 투표장에 갈 유권자 전체 중 특정후보를 지지하는 유권자의 비율이다. 시간적 제약 때문에 어쩔 수 없이 일부 유권자를 나타내는 표본에서 설문결과를 정리하여 모수를 추정한다. 따라서, 고용통계나 기업경기조사와 같은 표본조사 통계는 조사원의 질적 수준, 응답자의 진정성, 표본의 크기나 표본의 추출방법 등에 따라 결과가 크게 차이가 날 수 있다.
1963년 미국 대통령선거에서 1000만 명의 대규모 표본을 뽑아 여론조사를 했던 ‘리터러리 다이제스트’잡지사는 공화당의 랜던이 57% 대 43%로 민주당 루스벨트에게 승리할 것으로 예상했으나, 결과는 62% 대 38%로 루스벨트가 승리했다. 이유는 다이제스트 사의 표본추출방식에 심각한 문제가 있었기 때문이다. 전화번호부에서 파악한 주소로 우편물을 보내 조사하였는데, 당시에는 4가구당 1가구만 전화가 있어 전화보유자는 부유층에 속하였다. 즉, 다이제스트 사의 표본은 가난한 사람들을 배제하는 체계적 왜곡(표본추출 편의)이 있었고, 가난한 사람들에게 인기 있었던 루스벨트에 대한 불리한 예측치를 내놓았던 것이다. 또한 루스벨트 지지자들은 조사에 응답을 잘 하지 않았는데(무응답 편의), 이는 저소득층이나 고소득층은 응답을 거부하는 경향이 컸기 때문이며, 이는 여론조사 결과가 중산층의 의견만을 많이 반영하는 까닭이 되었다.
그런데 당시 ‘갤럽’은 다이제스트 사와 다른 뛰어난 표본조사방법을 사용하여 불과 5만 명의 표본만으로 루스벨트가 승리할 것을 예견하였다. 이처럼 표본의 크기뿐 아니라 표본을 뽑아내는 방식에 따라 결과를 추정하는데 큰 차이가 발생한다. 요즘은 전업주부나 장·노년층이 주로 응답할 가능성이 큰 집 전화 표본과 함께 휴대전화 표본을 증가시켜 왜곡현상을 교정하고 있다.
우리 생활과 밀접하고 유용한 통계를 수록하여 통계활용도가 가장 높은 사이트로는 한국은행 경제통계시스템과 통계청 사이트를 들 수 있다. 한국은행 경제통계시스템은 통계이용, 통계분석 등 다양하고 유익한 자료를 제공한다. 스마트폰을 통한 ‘한국은행 모바일 경제통계시스템’을 이용하면, 대화할 때 통계를 인용하기도 좋고, 경제통계용어를 좀더 자세히 알고 싶을 때 활용할 수 있다. 부모님도 이러한 통계사이트를 접속해서 유익한 통계로 자녀와의 가족 식사 시에 이야기 소재로 삼으면 좋을 것 같다.