サンプリング

標本調査（ひょうほんちょうさ）とは、母集団をすべて調査対象とする全数調査（悉皆調査）に対して、母集団から標本を抽出して調査し、それから母集団の性質を統計学的に推定する方法である。

標本調査の例として、商品などの抜き取り調査、一般の社会調査や世論調査などがある。国勢調査は全数調査であり、選挙の投票も建前上は全数調査である。別の視点からいえば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるので、動機づけのひずみ (motivational bias) を考慮する必要がある。

全数調査は一般に以下のような理由によって不可能なことが多いので、標本調査が必要になる。

物品を対象とする場合、破壊検査では調査すること自体が調査目的に合わない。全数検査は非破壊的検査に限る。
費用・手間・時間がかかる。
:例えば医学・心理学などの調査では、全人類（これから生まれる人も含む）が母集団になり、全数調査は費用・手間・時間が問題となるので調査は不可能。

手順

標本調査は次のような段階を踏んで行われる。

対象とする母集団の定義
抽出の枠（測定する要素のリスト）の設定
枠から要素を選択する（標本抽出）方法の特定
標本抽出とデータ収集
データ解析
再調査

方法としては単純無作為抽出を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。

母集団の定義

まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方動物実験のように、母集団を特定すること（実験データの理想化）がむしろ目的となる場合もある。

標本抽出

抽出の枠

次に、各要素を識別するための抽出枠（リスト）を設定する。

抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。

一例を挙げると、1936年のアメリカ大統領選で、Literary Digestは230万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ（57%対43%）と予想した。しかし、世論調査会社ギャラップははるかに少ない人数の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestの調査では、電話や自動車の保有者リストを用いたことや、1,000万の調査対象に対し230万の有効回答しか得られなかったこと、読者層に保守派が多かったことなどが原因となって、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまった。同じようなことは、近年のインターネットによる調査でも問題になっている。

具体的には、まず全体を決め、次に以下のような枠組みを決定する。

単純抽出

これは全要素を平等に扱い、分割はしない方法である。

層化（層別）抽出（層化抽出法）

母集団が互いに重ならない複数のカテゴリからなる場合には、枠をそのカテゴリ、すなわち層に分ける。各層は、平均が互いに十分異なり、分散が全体の分散より小さいように選ぶとよい。各層から抽出する標本サイズの配分は比例割当法 (proportional allocation) または（ネイマンの）最適割当法 (optimum allocation) などによって決定される。

クラスター抽出

母集団の要素がクラスターを作っている場合、抽出にこれを利用してコストを省くことができる。例えば電話の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話（クラスターを作る）を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。

割当て抽出（クォータ・サンプリング）

まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。

抽出方法

上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。

無作為（ランダム）抽出

無作為抽出は確率的抽出の代表的なものであり、全ての要素の組合せの起こる確率がわかっている（必ずしも同じとは限らない）場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う誤差からそのリスクを計算し、適切な（リスクが容認できる範囲で実用的な）標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかし、これは実用的でない場合も多い。より実用的な確率的抽出として層化抽出（上述）や多段階抽出（無作為抽出を反復する）をよく用いる。社会調査では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないので、無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。

無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。

系統抽出

系統抽出の例としては、電話帳から10番目ごとに抽出する方法がある。簡単ではあるが、データの非対称性と偏りから、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。

機械的抽出

機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は、機械の設計の意図、機械の動作条件によって偏りが生じる可能性があるので、無作為ではない。機械の設計の意図、機械の動作条件を確率論的に表現できれば、確率的抽出の一種であるということもできる。標本が枠を確実に代表するように注意を要する。