統計的仮説検定

ある事象の解釈が妥当かどうか、統計的に検証してみる方法があります。これは証明とは違い、妥当性はどの程度かを調べる方法です。高校数学ではこういった方法の中で一つだけ、推定した母平均の区間推定について知っておく必要があります。

先に問題設定をしておきます。ある母集団の平均が推定されており、また母標準偏差σは経験的にわかっています。しかしこの推定されている平均が正しいのか、現在は疑問が持たれています。そこでこの母集団からn個の標本を取りだし標本平均を調べ、この値を使って推定された平均が妥当かどうか調べてみることにします。

ごく簡単に仮説検定の考え方を言うと、示したいことと逆の仮説を立て、その仮説の通りだと調べたデータとなる確率がとても小さくなることを示すことで、そんな小さい確率でしか起こらないことが起きているということはむしろその仮説が間違っていたと考えて、元の仮説の方が妥当だったと示す、というものです。数1のところで出てきた背理法とよく似ています。

新しい言葉の定義がたくさん出てきますので、下の表にまとめておきます。

帰無仮説示したいことと反対の仮説で、この仮説の誤りを示すことを目指す。
対立仮説帰無仮説と反対の仮説でこちらが本来の示したい仮説。
区間推定帰無仮説を棄却するための設定を、確率分布の区間として設定する方法。
有意水準起こる確率が低いと考えるときの、その確率のこと。95%、1%、0.1%のいずれかを用いる場合が多い。確率が低いほど対立仮説の妥当性が高い。

今回は具体例で手順を示そうと思います。問題は次のものです。

「家の水槽にある魚が10匹いて、その魚は成魚で8cmくらいになるとされています。家の魚10匹のサイズを測ると7.0、8.5、9.0、10.5、10.0、11.0、7.0、8.0、9.5、10.5cmでした。平均をとると9.1cmであり、平均成魚サイズは8cmとは違っているかもしれません。有意水準95%で平均8cmかどうか区間推定で検定します。なおその魚の仲間全体で、全長の標準偏差は2.5だとわかっています(非現実的な設定の気はしますがご了承ください。標準偏差がわからないときはもう少し複雑な方法が必要です。)。」

手順は下のようになります。

  1. 帰無仮説を「平均成魚サイズmは8cmである。」、対立仮説を「平均成魚サイズmは8cmではない。」とする。
  2. 標本平均は正規分布N(8, 2.52)に従うと考えられるので、標準正規分布(確率変数Z)に変換する。
  3. 標本のデータと帰無仮説のm=8を用いてZの値を求める。
  4. 求めたZの値が有意水準95%、つまり-1.96≦Z≦1.96の範囲に含まれるかどうか確かめる。

では計算して確かめてみます。

\begin{align} 標本平均\bar{X}=\frac{7.0+8.5+9.0+10.5+10.0+11.0+7.0+8.0+9.5+10.5}{10}=9.1\\ Z=\frac{\bar{X}-m}{\frac{\sigma}{\sqrt{n}}}\\ 実現値z=\frac{9.1-8}{\frac{2.5}{\sqrt{10}}}≒1.39\\ 実現値z=1.39は採択域に含まれるので帰無仮説m=8.0は採択される。 \end{align}

ということで-1.96≦Z≦1.96の範囲(採択域)に入っているので(図1)、標本平均の9.1cmというずれはそれほどめずらしくなく起こることなので、帰無仮説「平均成魚サイズmは8cmである。」を否定するほどのこともない(採択される)、という結論になりました。もし-1.96≦Z≦1.96の範囲外(棄却域)なら、5%以下の低い確率でしか起こらないことが起こっているのだから、これはむしろ最初の仮定「平均成魚サイズmは8cmである。」の方が間違っていたんじゃないかと判断して、帰無仮説が棄却されて対立仮説「平均成魚サイズmは8cmではない。」が採択されます。これはあくまでこっちの方が妥当だという判断です。そして「帰無仮説が正しいのに棄却してしまう誤り(第一種の誤り)」と「帰無仮説が間違っているのに採択してしまう誤り(第二種の誤り)」の可能性を捨て去ることができません。具体的な利用ではこのことを決して忘れてはいけないのですが、高校数学の範囲では、こんな話があったなくらいでよいので記憶に留めておいてください。

母平均の仮説検定では正規分布を利用しました。検定したい値によって分布が異なるので、それに合わせて多様な検定方法があります。また現実の問題に仮説検定を適用するには、帰無仮説と対立仮説を検証可能な現実的な仮説に設定する必要があって、けっこう難しいです。こちらは大学の卒論などで実体験してみてください。

<< 母平均と母比率の推定

ホーム

母平均と母比率の推定

前回、標本数nの標本を取ると、標本平均の分布は母平均mと母分散σを使って正規分布N(m, σ2/n)に近似できることを紹介しました。正規分布に従うということは標準正規分布に変換できるということです。そして今度は、標準正規分布を使ってある範囲に入る確率を求めるのではなく、ある確率の範囲に入る変数の値を推定することができます。例えば標本平均の値から、95%の確率で母平均があるであろう値の範囲を推定する、といったことが可能です。

まずは標本平均Xバーの分布を標準正規分布に変換すると下の形になります。

\begin{align} Z=\frac{\bar{X}-m}{\frac{\sigma}{\sqrt{n}}}\cdots① \end{align}

正規分布を利用した確率の推定とは逆に、平均値を中心にして確率95%の範囲を考えます。95%の半分の確率0.475を与えるZの範囲は、正規分布表よりZ=1.96とわかります(図1)。図2のように-1.96≦Z≦1.96のとき、斜線部の面積は全体の95%となります。

次に、-1.96≦Z≦1.96に①式を代入して式変形すると下のようになります。

\begin{align} -1.96≦Z≦1.96\\ -1.96≦\frac{\bar{X}-m}{\frac{\sigma}{\sqrt{n}}}≦1.96\\ -1.96\frac{\sigma}{\sqrt{n}}≦\bar{X}-m≦1.96\frac{\sigma}{\sqrt{n}}\cdots②\\ m-1.96\frac{\sigma}{\sqrt{n}}≦\bar{X}≦m+1.96\frac{\sigma}{\sqrt{n}}\cdots③\\ ②より-\bar{X}-1.96\frac{\sigma}{\sqrt{n}}≦-m≦-\bar{X}+1.96\frac{\sigma}{\sqrt{n}}\\ \bar{X}-1.96\frac{\sigma}{\sqrt{n}}≦m≦\bar{X}+1.96\frac{\sigma}{\sqrt{n}}\cdots④\\ \end{align}

②の式から③と④の形に変形できます。上の式変形で得られた③の式は、標本平均が95%の確率で現れる範囲はこの範囲、ということを示していると解釈できます。ほとんど同じ形の式④は、母平均が95%の確率でそこに含まれているであろう範囲を示しています。というわけで実際に使用するのは④の式の方です。④の式を見返してみると、左辺は標本平均Xバーから、先ほど見つけた1.96の値をσ/√nにかけたものを引いてます。右辺はほぼ同じ形でXバーに足してます。この式より、標本平均Xバーと標本数nを使って母平均の範囲を推定することができます。

ちょっと注意しないといけないのが母標準偏差σで、母平均を推定するのに母標準偏差を使用してます。母平均がわからないのに母標準偏差がわかるの?というのは妥当な疑問で、経験則から母標準偏差はだいたいわかる場合があったりするので、そういうときにはこの式で推定できます。そうでないときは不偏分散を用いたt検定が必要だったりするのですが、こちらはもう高校数学の範囲外なので、ひとまずそのときのための方法が別にあることだけ覚えておいてください。

では一題、問題を解いてみましょう。問題は次のものです。

「ある池からある魚の成魚10匹を採取しました。その魚10匹のサイズを測ると9.0、12.5、9.5、8.5、14.0、11.0、8.0、10.0、12.5、10.0cmで、平均をとると10.5cmでした。信頼区間95%で少数第一位までで、母平均の区間推定をしてください。なおこの魚の成魚全体で、全長の標準偏差は2.5(cm)だとわかっています。」

\begin{align} 10.5-1.96\frac{2.5}{\sqrt{10}}≦m≦10.5+1.96\frac{2.5}{\sqrt{10}}\\ 10.5-1.5≦m≦10.5+1.5\\ 9.0≦m≦12.0 \end{align}

区間推定の結果は上のようになり、母平均は95%の確率で9cm以上12cm以下の間にある、という推定結果が得られました。

次に母比率の推定についてです。例えば1000個の製品を作ってそのうち不良品が5個なら、不良品率は5/1000で0.5%です。この抽出した標本での比率から、母集団での比率を推定しよう、というのが母比率の推定です。母比率の推定も考え方は同じで、標本比率をp0として、標本比率の標準偏差がp0(1-p0)/nとなるところだけが違うと考えてよいです。よって母比率pの推定は④の式とよく似た下の式になります。

\begin{align} p_0-1.96\sqrt{\frac{p_0(1-p_0)}{n}}≦p≦p_0+1.96\sqrt{\frac{p_0(1-p_0)}{n}}\\ \end{align}

こちらの問題は母平均の推定が理解できれば比較的容易に理解できると思うので、ここでは省略させてもらいます。

<< 標本の平均と分散 統計的仮説検定 >>

ホーム

標本の平均と分散

正規分布の利用例の一つである母平均と母比率の推定の前に、母集団から取り出した標本に関する性質の説明をしておこうと思います。生物とか製品とかのある集団があって、そこから集団の性質を調べるためにいくつか取り出したとします。このとき元の集団を母集団、取り出したものを標本と呼びます。標本の平均値や分散には、ある重要な特徴があります。

まず前提として、復元抽出(一度ずつ取り出して元に戻す)の場合の性質なのですが、母集団の大きさが標本の数より十分大きいときは、非復元抽出の場合でも復元抽出に近似することができます。そうでないと統計推定にほぼ利用できなくなってしまいますしね。話を戻して、母集団から大きさn(n個取り出すこと)の標本を無作為抽出したとき、次のような性質があることがわかっています。

\begin{align} 母平均をm、母集団の標準偏差を\sigmaとする\\ \bar{X}=\frac{x_1 + x_2 + \cdots x_n}{n}\\ E(\bar{X})=m \cdots ①\\ \sigma(\bar{X})=\frac{\sigma}{\sqrt{n}} \cdots ② \end{align}

①と②の式でXバーの平均と標準偏差であることに注意してください。これは標本を取り出して平均と標準偏差を求めることを、何回も繰り返してその平均と標準偏差をとったときの性質です。標本平均の平均は母集団の平均と一致し、標準偏差は母集団よりも小さくなります。

とりあえず分散に関しては、そうなることが確認されていると思ってください。平均の方は、確かに母集団と標本で一致するように思えますが、取り出した標本の平均が母平均に完全に一致したりはしないであろうことは、経験からわかります。一致するのはあくまで標本平均の平均です。一回の調査で得られた標本平均は確率分布に従うのであって、一つの標本平均は母平均に近い値になる確率は高いのですが、場合によってはかなり異なる値となることもあり得ます。標本平均の平均が母集団の平均と一致することを示すには、「各標本を変数として考える」こととかかなり抽象的な思考が必要で、ここでは省略させてください。

さらに標本平均の確率分布にはある大きな特徴があります。母集団がどのような確率分布をしていたとしても、標本数nが十分大きければ標本平均の分布は正規分布N(m, σ2/n)に近似可能です。例えば母集団の分布が図1だとして、取り出した標本の平均の分布は図2のような正規分布になります。

これはなんだか不思議な事態なんですが、今はこのありがたい性質を利用させてもらいましょう。標本平均の分布が正規分布に従うということは、標準正規分布に変換して正規分布表を利用することができるということです。その利用方法である母平均の推定と母比率の推定は次のページで説明します。

<< 正規分布の利用 母平均と母比率の推定 >>

ホーム

正規分布の利用

前回に正規分布の説明を行ったので、今回はその実用の具体例についてです。確率密度関数が正規分布になる場合、全体の面積が1となることを利用して、ある幅の間に収まる確率をその面積によって求めることができます。例えば図1でaからbの間に収まる確率は下の積分計算で求めることができます。

\begin{align} f(x)=\frac{1}{2\pi\sigma}e^{-\frac{{x-m}^2}{2\sigma^2}}\\ \int_{a}^{b} f(x) dx \end{align}

といってもこれを毎回手計算するのはとても大変です。計算機を使えばよい話なのですが、後の統計推定のもとになっていることもあり、高校数学では正規分布表を利用して確率を求めます。

具体例で考えることにします。

「ある国の成人男性の平均身長が170cm、標準偏差が5cmの正規分布(確率変数X)に従うとわかっています。身長160から175cmの男性の割合はいくらですか。」

これを前回紹介した次の変換式により標準正規分布(確率変数はZ)に変換します。

\begin{align} Z=\frac{X-m}{\sigma} \end{align}

そうすると平均が0で標準偏差1の標準正規分布に変わります。全面積が1なので該当する幅の面積を求めれば、その値が求めたかった割合(その幅に入っている確率)となります。今求めたいのは確率変数Xが160≦X≦175のときの割合です。確率変数XをZに変換する必要があって、下のようにして変換できます。

\begin{align} Z=\frac{X-170}{5}\\ X=5Z+170\\ 160≦5Z+170≦175(160≦X≦175より)\\ -10≦5Z≦5\\ -2≦Z≦1 \end{align}

こうして-2≦Z≦1が160≦X≦175に対応していることがわかったので、このZの値の面積を正規分布表を用いて求めます。Zへの変換後は図2のようになっています。

正規分布表は0≦Zの範囲(0≦Z≦3.99など)しかありません。正規分布は左右対称形であることから、-2≦Z≦0の面積は0≦Z≦2と同じです。そのため-2≦Z≦1での面積は0≦Z≦2(-2≦Z≦0と同じ、図2の①)と0≦Z≦1(図2の②)の面積を足し合わせて求めます。

正規分布表の該当部分は図3のようになっています。縦の値がZの一桁目と少数第一位目で、横が少数第二位です。たとえばZ=1.96なら縦の1.9と横の6の列が交叉するところの0.4750の値をみます。Z=2.00の値0.4772が0≦Z≦2での面積です。同様にZ=1.00の値0.3413を求めて足すと0.8185となります。これが求めていた身長160cmから175cmの間の人の割合で、約8割にあたるというのがわかりました。

<< 正規分布 標本の平均と分散 >>

ホーム

正規分布

統計学で最も利用されているのは正規分布でしょう。正規分布は図1のような左右均等な山型の分布です。

山の頂点のところの横軸の値が平均値で、分散が大きいとなだらかな形の山、小さいと尖った形の山となります。自然界でデータをとって、各値(値の範囲)とその頻度の関係をグラフにしてみると、正規分布になることはよくあります。一般的によく見られることは重要で、これもよく利用される理由の一つですが、その他にも平均0、分散1の標準正規分布への変換が容易なことも重要な性質です。この性質により、ある範囲のグラフの面積を、正規分布表を使って簡単に求めることができます。

ここである確率分布が正規分布であることがわかったとします。確率分布において、その曲線と横軸に囲まれた面積全体で1の値になります。とすると、ある値からある値の範囲に入っている割合は、その面積を計算することで求めることができます(図2)。これは積分計算をすればよいのですが、正規分布の式は下の形で、この複雑な形で微積の計算はやりやすいという性質があったりするのですが、これを毎回計算するのは大変です。

\begin{align} f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{x-m}^2}{2\sigma^2}} \end{align}

そこで標準正規分布において、各範囲における面積をあらかじめ細かく計算して表(正規分布表)にしておいて、正規分布の確率分布を標準正規分布に変換し、正規分布表を使うことで確率値を求める、ということをよく行います。

平均をm、標準偏差をσ(分散はσ2)とする正規分布をN(m,σ2)で表すのが一般的です。これを下の式で標準化すると、新たな変数Zが標準正規分布に従います。

\begin{align} Z=\frac{X-m}{\sigma} \end{align}

この式を少し変形するとZ=(1/σ)X-m/σ(Z=aX+bの形)になって、これは確率変数の変換の式の形をしています。

関連ページ:確率変数の変換

この変換式をどうやって見つけたか、専門外の私は知らないですが、ここは過去の偉大な発見を利用させてもらうとしましょう。正規分布の式は、平均と標準偏差、エクスポーネンシャルeを使って表現されたとても重要な式ですが、高校数学の範囲ではこれを覚えておく必要はないでしょう。覚える必要があるとすれば標準正規分布への変換式の方ですが、定期テストなどではあらかじめ与えてくれるかもしれないので、その都度、教員の指示に従っておいてください。

長くなったので、具体的な利用の仕方については次のページで示したいと思います。
<< 連続型確率分布 正規分布の利用 >>

ホーム

Older posts