理想は、1000名全員の情報収集ができることが望ましいです。登録している全員から情報が得られればそれが「すべて」になるからです。
統計の世界でも、全数を調査するというアプローチがあります。しかし、全員から情報を収集することは労力もかかるため、例えば、100名であるとか、300名であるとか、全対象の一部の情報から全体を推測するといった手法もよく使われます。また、時間がなく、費用もかけられない、でも、何も調べないよりはいいので、とりあえず20名に聞いてみるということもあるでしょう。
ここで大切なことは、全員に対して、どの程度の割合の情報を得ているかをきちんと理解していることです。20名の場合は、全体の2%の人の声しか聞けていない、100名の場合は、10%の人の声は聞けているということをしっかりと理解したうえで、調査結果に解釈を加えていきましょう。
例えば、前者の場合は、ある傾向が見えたとしても2%でしかないので、少し慎重に判断をする必要があります。逆に、後者の場合は、全体の10%には聞くことができているので、ある程度見えてきた傾向を信じてもよさそうです。このように全体に対して、どの程度の割合の情報を得ているのかということを押さえて、解釈の程度をきちんと考えるようにしておきましょう。
最後に調査に際して、いくつかの留意点を紹介しておきます。
一部の人しか調べられない場合は、調べられた人の属性が偏っていないということが重要です。調べたい集団が、年齢層が幅広い集団であるならば、たとえ一部の集団を調査するとしても幅広い年齢層の構成である必要があります。
若手に偏る、年配者に偏るといったことが起こってしまうと、調べた対象は、集団の全体を表しているとは考えにくくなるからです。調べたい集団と同じような構成比になるように選ぶといったことが必要です。乱数を使って、恣意性が働かないようランダムに選ぶといった工夫などがよくなされます。
全体の母集団が100名の場合の10件と全体の母集団が20名の場合の10件では、10件の意味が異なってきます。前者は、全体の10%、後者は、全体の50%になりますので、同じ10件でも後者のほうが全体を表していると考えてもよさそうです。
このように何件調べればよいのかは、調べたい母集団の大きさによって変わります。詳細な数式などは割愛しますが、類推したい母集団の大きさごとに、調べればよいデータ数は統計的に算出されます。
何かの比率(例:1年以内に不具合を経験した人の割合)を求めたい場合、許容誤差を5%とすると、95%の信頼性でという前提の下では、100名の母集団を理解するためには、80名、約8割のデータが必要になります。これが、母集団が、1000名の場合は、278名と3割弱、1万名の場合は、370名、4%弱となります。必要なデータ数は、母集団の人数が増えても、それほど増やさなくても大丈夫ということになります。
また、10万名の場合は、383名、100万名の場合は、384名と母集団が10万から100万に増えたとしても、調べなければならない数は1名しか違いません。つまり、400名弱のデータがあれば、逆に母集団がどれだけ大きくなろうとも大体、数的には類推が可能な量であるということを理解しておきましょう。なお、許容誤差を3%、1%とせばめていくと必要な人数が増えることも知っておきましょう。
加えて、確認できる事象自体が希少なものも存在します。何万人に1人といった病気などや異常になることが非常に低い確率でしか発生しないものです。また、年間で1回程度しか発生しないもの、1年単位でしか試行が繰り返せないものなどもあります。
いくつのデータがあればいいのかと考えるだけでなく、そのデータはどの程度発生するのか、扱っている事象はどういう性質のものなのかといったことも合わせて考えるようにしましょう。