無作為抽出

無作為抽出ランダム・サンプリング、英:random sampling)とは、ある調査対象の全体(母集団)から調査対象となる標本(サンプル)を無作為(ランダム)に抽出(サンプリング)する行為のことである。日本工業規格では、「無作為標本」の項で、「無作為な選択方法によって選んだ標本」と定義している。

概要

無作為抽出とは、統計学における標本調査において用いられる手法である。

その名の通り、母集団から要素を抽出するのに、作為的な手順を使わないことが特徴である。そのため、無作為抽出法によるサンプリングを行うと、母集団の全ての要素が同じ確率で抽出されることになる。

母集団の全ての要素を対象として単純に無作為抽出を行う単純無作為抽出が最も基本的な方法だが、標本抽出枠が大きかった場合は費用や手間なども大きくなるため、単純無作為抽出を行うのは難しい場合も多い。そのため、「単純無作為抽出法」以外にも無作為抽出を行う様々な手法が存在する。主な方法としては、系統抽出法、層化抽出法、確率比例抽出法、多段抽出法などがある。

手法

単純無作為抽出の前提として、まず母集団から無作為抽出するための「標本抽出枠」(sampling frame)を用意する必要がある。いわば母集団を代表する要素が記述された「リスト」が用意されていないと、そこから無作為抽出を行うことが出来ない。既に用意されている場合もあり、例えば学校では標本抽出枠としてクラスの名簿を使うことが出来る。日本の世論調査では、標本抽出枠として自治体が制作した住民基本台帳などが用いられるが、もし標本抽出枠が無い場合は母集団の要素を自力でリストアップする。現代ではコンピューターで電話番号の標本抽出枠を生成するRDD法(Random Digit Dialing)など様々な方法が実用化されている。

標本抽出枠から要素を無作為に抽出するには、まず標本抽出枠の全ての要素に通し番号を振り、そこから抽出する番号を乱数で決める必要がある。乱数の生成方法は、昔は乱数表乱数さいなどが使われた時代もあったが、現代では普通コンピューターの擬似乱数が使われる。自力で簡易に乱数を抽出する手法としてはコイントスなどがあるが、「0(表)」と「1(裏)」しか生成できない上に、コインを無くしやすい。現代では100円ショップで乱数発生器(ダイス、サイコロ)が購入できるほか(ルーレットを置いているショップもある)、ホビーショップでテーブルトークRPG用の様々な多面ダイスが購入できるので、そのコインで乱数発生器を買った方がいい。

単純無作為抽出法

単純無作為抽出とは、母集団の全ての要素を対象として無作為抽出する方法である。無作為抽出の最も基本的な方法で、もっとも単純な方法である。

単純無作為抽出法以外では、「標本抽出枠に何らかの規則性がないか」とか「全校生徒の男子と女子の比率」などの様々な情報が必要になるのとは違い、単純無作為抽出法は「抽出枠」の情報さえあれば行うことが出来、抽出枠の大きさが小さい場合はこの手法を使うのが最も楽である。しかし、抽出枠が大きい場合は非常に手間と時間がかかるので、「層化」や「多段抽出」を行った方が楽である。

系統抽出とは違い、隣り合った要素同士が選ばれたり、3個以上連続した要素が選ばれる可能性がある。住民の意識調査などでは、同じ世帯の人は同じ意見を持つ可能性が高いので、同じ世帯から複数の人が抽出される可能性が有ることは、デメリットになる。ただし、抽出枠が非常に大きい場合は、隣り合った要素同士が選ばれる可能性はほとんどないので、あまり気にされない。

系統抽出法

抽出枠の「先頭からm番目」の要素を開始点として、そこから「nつ飛ばし」に、要素をそれぞれサンプリングする方法(m,nはそれぞれ任意の数)。

開始点を作為的に選んだ場合は無作為抽出にならないが、開始点を無作為に選ぶので、全ての要素が同じ確率で選ばれる無作為抽出となる。

隣り合った要素がサンプリングされることが無いのが特徴。「n番目」を機械的に選出するだけなので、乱数発生器が使えない場合、つまりコンピュータが使えない状況でも人力で行うことが出来る。「3の倍数の時にアホが並んでいる名簿」など、標本抽出枠に何らかの規則性が有る場合、無作為抽出にならない欠点がある。

層化抽出法

母集団をあらかじめいくつかのグループ(層)に分け、それぞれのグループで単純無作為抽出を行う「層化」と呼ばれる手法を用いる。

例えば世論調査で、国民を個別訪問して意識を聞く場合、都道府県別・自治体別などに分けてサンプリングする層化抽出法が行われている。母集団の要素数が約1億2000万のデータを「抽出枠」として使って単純無作為抽出するよりも、層化した方が楽だし、都道府県別の世論も見られるメリットがある。ただし、電話のRDD方式の世論調査だとコンピュータで制作した数億の母集団から機械の力で単純無作為抽出した方が楽なので、そちらが使われている。

世論調査で国民全体から単純無作為抽出を行うと、東京23区全体どころか練馬区や世田谷区よりも人口が少ない鳥取県民や島根県民などの民意が全く見られない可能性が有るが、層化抽出法だと人口が少ない地方民の意見もばっちりフォローできる。

比例配分法

層化抽出法の一種で、各層の大きさに合わせて標本数を配分する。

例えば学校では、全校生徒から単純無作為抽出するよりも、男子と女子の比率に合わせてサンプルを揃えた方が都合が良い場合、「男子」と「女子」と言う層の大きさに合わせて標本数を決める。全校生徒で皆サンプリングされる確率が同じならば、無作為抽出である。

あらかじめ全数調査するなどして、各層の比率が分かっていないと行えないという欠点がある。

クラスター抽出法

母集団をいくつかのクラスターに分け、その中からいくつかのクラスターを無作為抽出し、それを全数調査する。

例えば、市内の高校生を高校ごとに分け、その中から3つの高校を無作為抽出し、その高校に通う高校生を全数調査する。

この例では、市内の全ての高校生において選ばれる可能性が同じであるため、無作為抽出である。高校生の代表としてワルばかりいる高校の生徒を大量にサンプリングしてしまう可能性もあるなど、単純無作為抽出法などよりも代表性が低くなってしまうという欠点がある。しかし市内の全ての高校に行って調査しなくていいのは楽であり、利点である。

多段抽出法

母集団をいくつかのグループに分け、そこからランダムにグループを抽出する。抽出されたグループの中からさらにランダムにグループを抽出…と言う作業を何度か繰り返し、何段階かに分けてサンプルを抽出する方法。

例えば、全国の高校生から500人をサンプリングする場合、全国の都道府県の中から10の都道府県を無作為抽出する。抽出された都道府県ごとに10の高校を無作為抽出する。抽出された高校ごとに5人を無作為抽出する、と言う形である。全国の全ての高校生において選ばれる可能性が同じであるため、無作為抽出である。クラスター抽出法と同じく、単純無作為抽出法などよりも代表性が低くなってしまうという欠点がある。

無作為抽出法による標本調査

無作為抽出法による標本調査は、しばしば全数調査にかわって行なわれるが、これは主として、下記の理由による。
 

  • 全数調査の実施が困難、又はコストやスケジュールが成果に対して過大と見積もられる。
  • ランダムサンプリングを行なえば、標本調査の結果から、標本を抜き出すもとの集団(=母集団)における有益な情報(平均値や比率など)が推定出来る。
  • この母集団の推定値(=母数)は、確率サンプリングが行なわれていれば、統計学の知識から、その誤差の大きさを見積もる事が出来る。

推測統計学を創始したとされるR.A.フィッシャーは、イギリスの農事試験所に14年間勤め、この時期に分散分析法を完成させた。差の有無などの検証にもランダムサンプリングが理論的前提となった様々な手法が使われる。

有意抽出法による標本調査との比較

標本調査における標本抽出の方法としては、「無作為抽出」の他に「有意抽出」がある。母集団を代表する標本を無作為に抽出したものを「無作為抽出」と呼ぶのに対して、母集団を代表する標本を有意に抽出したものを「有意抽出」と呼ぶ。

標本調査は全数調査とのズレ(誤差)が発生することが必ず避けられないが、無作為抽出法を用いた標本調査において発生する誤差(標本誤差)の範囲が確率論に基づいて統計学的に計算できるのに対し、有意抽出法を用いた標本調査において発生する誤差の範囲は確率論的に計算することが出来ず、不明となる。

インターネットのモニターによる市場調査(モニター調査)を例にすると、インターネットによる自発記入のアンケートを用いて標本を集めるので、非常に手軽にできるというメリットがある反面、1)インターネットを利用できる環境にある人、2)アンケートに関心を示した人、のようにサンプル自体に偏りが生じる。サンプル自体に偏りがあるため、このモニター調査の結果が全数調査の結果(真の値)とどの程度ずれているかの範囲は、統計学的に算出することが出来ず、客観的に信頼性が置けるデータがゲットできない、と言うのがデメリットである。

このため、例えば世論調査など客観的な信頼性が重視される標本調査では、いくら手軽にできても有意抽出法は使われず、面倒な手順を踏んでも必ず無作為抽出法が使われる。

参考文献

  • }}

関連項目

Category:数学に関する記事

wikipediaより

このキーワードに関連するベストプラクティス

詳細検索:条件をk選択して検索できます。

google地図から検索:Google Mapから検索できます。 google画像から検索:事例ごとの画像で検索できます。
環境首都コンテスト全国ネットワーク
辞令を動画でみる:公益財団法人ハイライフ研究所