標本調査(ひょうほんちょうさ)とは、母集団をすべて調査対象とする全数調査(悉皆調査)に対して、母集団から標本を抽出して調査し、それから母集団の性質を統計学的に推定する方法である。
標本調査の例として、商品などの抜き取り調査、一般の社会調査や世論調査などがある。国勢調査は全数調査であり、選挙の投票も建前上は全数調査である。別の視点からいえば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるので、動機づけのひずみ (motivational bias) を考慮する必要がある。
全数調査は一般に以下のような理由によって不可能なことが多いので、標本調査が必要になる。方法としては単純無作為抽出を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方動物実験のように、母集団を特定すること(実験データの理想化)がむしろ目的となる場合もある。
次に、各要素を識別するための抽出枠(リスト)を設定する。
抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。
一例を挙げると、1936年のアメリカ大統領選で、Literary Digestは230万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ(57%対43%)と予想した。しかし、世論調査会社ギャラップははるかに少ない人数の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestの調査では、電話や自動車の保有者リストを用いたことや、1,000万の調査対象に対し230万の有効回答しか得られなかったこと、読者層に保守派が多かったことなどが原因となって、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまった。同じようなことは、近年のインターネットによる調査でも問題になっている。
具体的には、まず全体を決め、次に以下のような枠組みを決定する。
これは全要素を平等に扱い、分割はしない方法である。
母集団が互いに重ならない複数のカテゴリからなる場合には、枠をそのカテゴリ、すなわち層に分ける。各層は、平均が互いに十分異なり、分散が全体の分散より小さいように選ぶとよい。各層から抽出する標本サイズの配分は比例割当法 (proportional allocation) または(ネイマンの)最適割当法 (optimum allocation) などによって決定される。
母集団の要素がクラスターを作っている場合、抽出にこれを利用してコストを省くことができる。例えば電話の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話(クラスターを作る)を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。
まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。
無作為抽出は確率的抽出の代表的なものであり、全ての要素の組合せの起こる確率がわかっている(必ずしも同じとは限らない)場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う誤差からそのリスクを計算し、適切な(リスクが容認できる範囲で実用的な)標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかし、これは実用的でない場合も多い。より実用的な確率的抽出として層化抽出(上述)や多段階抽出(無作為抽出を反復する)をよく用いる。社会調査では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないので、無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。
系統抽出の例としては、電話帳から10番目ごとに抽出する方法がある。簡単ではあるが、データの非対称性と偏りから、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。
機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は、機械の設計の意図、機械の動作条件によって偏りが生じる可能性があるので、無作為ではない。機械の設計の意図、機械の動作条件を確率論的に表現できれば、確率的抽出の一種であるということもできる。標本が枠を確実に代表するように注意を要する。
要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。社会科学の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
一度調査した対象をまた調査対象に含める}}。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
一度調査した対象は調査対象から除外する}}。複数の調査が短期間であったり、調査の謝礼を渡す方式だったりすると、一度調査した対象は除外することがある。
伝統的な標本調査は、標本から中心極限定理と正規分布近似(場合によっては正規分布によらないノンパラメトリック推定も利用できる)を利用して、母集団と母数を推定することで行う。これは計画に基づく抽出といわれる。
現代的な方法としては、抽出過程からベイズ推定などを用いてモデルを作る、モデルに基づく抽出がある。この方法は標本サイズが小さいときに実用的であるが、モデルの前提の正しさを確認しておく必要がある。
層別抽出では、一般に標本として抽出される比率が層によって異なるので、データには正しく母集団を代表するように加重をしなければならない。
例えば社会調査で単純無作為抽出をするには、僻地の人も含めねばならないが、僻地の人にインタビューするにはコストがかかる。このコストを節約する方法として、都会と地方に層化する方法がある。地方の標本サイズが小さくなっても、分析で重みをつけることによって補うことができる。
抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは、調査不能対象である。
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り(非確率的誤差)につながるおそれがあるので、しばしば追跡調査が必要になる。