標本の平均と分散

正規分布の利用例の一つである母平均と母比率の推定の前に、母集団から取り出した標本に関する性質の説明をしておこうと思います。生物とか製品とかのある集団があって、そこから集団の性質を調べるためにいくつか取り出したとします。このとき元の集団を母集団、取り出したものを標本と呼びます。標本の平均値や分散には、ある重要な特徴があります。

まず前提として、復元抽出(一度ずつ取り出して元に戻す)の場合の性質なのですが、母集団の大きさが標本の数より十分大きいときは、非復元抽出の場合でも復元抽出に近似することができます。そうでないと統計推定にほぼ利用できなくなってしまいますしね。話を戻して、母集団から大きさn(n個取り出すこと)の標本を無作為抽出したとき、次のような性質があることがわかっています。

\begin{align} 母平均をm、母集団の標準偏差を\sigmaとする\\ \bar{X}=\frac{x_1 + x_2 + \cdots x_n}{n}\\ E(\bar{X})=m \cdots ①\\ \sigma(\bar{X})=\frac{\sigma}{\sqrt{n}} \cdots ② \end{align}

①と②の式でXバーの平均と標準偏差であることに注意してください。これは標本を取り出して平均と標準偏差を求めることを、何回も繰り返してその平均と標準偏差をとったときの性質です。標本平均の平均は母集団の平均と一致し、標準偏差は母集団よりも小さくなります。

とりあえず分散に関しては、そうなることが確認されていると思ってください。平均の方は、確かに母集団と標本で一致するように思えますが、取り出した標本の平均が母平均に完全に一致したりはしないであろうことは、経験からわかります。一致するのはあくまで標本平均の平均です。一回の調査で得られた標本平均は確率分布に従うのであって、一つの標本平均は母平均に近い値になる確率は高いのですが、場合によってはかなり異なる値となることもあり得ます。標本平均の平均が母集団の平均と一致することを示すには、「各標本を変数として考える」こととかかなり抽象的な思考が必要で、ここでは省略させてください。

さらに標本平均の確率分布にはある大きな特徴があります。母集団がどのような確率分布をしていたとしても、標本数nが十分大きければ標本平均の分布は正規分布N(m, σ2/n)に近似可能です。例えば母集団の分布が図1だとして、取り出した標本の平均の分布は図2のような正規分布になります。

これはなんだか不思議な事態なんですが、今はこのありがたい性質を利用させてもらいましょう。標本平均の分布が正規分布に従うということは、標準正規分布に変換して正規分布表を利用することができるということです。その利用方法である母平均の推定と母比率の推定は次のページで説明します。

<< 正規分布の利用

ホーム

正規分布の利用

前回に正規分布の説明を行ったので、今回はその実用の具体例についてです。確率密度関数が正規分布になる場合、全体の面積が1となることを利用して、ある幅の間に収まる確率をその面積によって求めることができます。例えば図1でaからbの間に収まる確率は下の積分計算で求めることができます。

\begin{align} f(x)=\frac{1}{2\pi\sigma}e^{-\frac{{x-m}^2}{2\sigma^2}}\\ \int_{a}^{b} f(x) dx \end{align}

といってもこれを毎回手計算するのはとても大変です。計算機を使えばよい話なのですが、後の統計推定のもとになっていることもあり、高校数学では正規分布表を利用して確率を求めます。

具体例で考えることにします。

「ある国の成人男性の平均身長が170cm、標準偏差が5cmの正規分布(確率変数X)に従うとわかっています。身長160から175cmの男性の割合はいくらですか。」

これを前回紹介した次の変換式により標準正規分布(確率変数はZ)に変換します。

\begin{align} Z=\frac{X-m}{\sigma} \end{align}

そうすると平均が0で標準偏差1の標準正規分布に変わります。全面積が1なので該当する幅の面積を求めれば、その値が求めたかった割合(その幅に入っている確率)となります。今求めたいのは確率変数Xが160≦X≦175のときの割合です。確率変数XをZに変換する必要があって、下のようにして変換できます。

\begin{align} Z=\frac{X-170}{5}\\ X=5Z+170\\ 160≦5Z+170≦175(160≦X≦175より)\\ -10≦5Z≦5\\ -2≦Z≦1 \end{align}

こうして-2≦Z≦1が160≦X≦175に対応していることがわかったので、このZの値の面積を正規分布表を用いて求めます。Zへの変換後は図2のようになっています。

正規分布表は0≦Zの範囲(0≦Z≦3.99など)しかありません。正規分布は左右対称形であることから、-2≦Z≦0の面積は0≦Z≦2と同じです。そのため-2≦Z≦1での面積は0≦Z≦2(-2≦Z≦0と同じ、図2の①)と0≦Z≦1(図2の②)の面積を足し合わせて求めます。

正規分布表の該当部分は図3のようになっています。縦の値がZの一桁目と少数第一位目で、横が少数第二位です。たとえばZ=1.96なら縦の1.9と横の6の列が交叉するところの0.4750の値をみます。Z=2.00の値0.4772が0≦Z≦2での面積です。同様にZ=1.00の値0.3413を求めて足すと0.8185となります。これが求めていた身長160cmから175cmの間の人の割合で、約8割にあたるというのがわかりました。

<< 正規分布 標本の平均と分散 >>

ホーム

正規分布

統計学で最も利用されているのは正規分布でしょう。正規分布は図1のような左右均等な山型の分布です。

山の頂点のところの横軸の値が平均値で、分散が大きいとなだらかな形の山、小さいと尖った形の山となります。自然界でデータをとって、各値(値の範囲)とその頻度の関係をグラフにしてみると、正規分布になることはよくあります。一般的によく見られることは重要で、これもよく利用される理由の一つですが、その他にも平均0、分散1の標準正規分布への変換が容易なことも重要な性質です。この性質により、ある範囲のグラフの面積を、正規分布表を使って簡単に求めることができます。

ここである確率分布が正規分布であることがわかったとします。確率分布において、その曲線と横軸に囲まれた面積全体で1の値になります。とすると、ある値からある値の範囲に入っている割合は、その面積を計算することで求めることができます(図2)。これは積分計算をすればよいのですが、正規分布の式は下の形で、この複雑な形で微積の計算はやりやすいという性質があったりするのですが、これを毎回計算するのは大変です。

\begin{align} f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{x-m}^2}{2\sigma^2}} \end{align}

そこで標準正規分布において、各範囲における面積をあらかじめ細かく計算して表(正規分布表)にしておいて、正規分布の確率分布を標準正規分布に変換し、正規分布表を使うことで確率値を求める、ということをよく行います。

平均をm、標準偏差をσ(分散はσ2)とする正規分布をN(m,σ2)で表すのが一般的です。これを下の式で標準化すると、新たな変数Zが標準正規分布に従います。

\begin{align} Z=\frac{X-m}{\sigma} \end{align}

この式を少し変形するとZ=(1/σ)X-m/σ(Z=aX+bの形)になって、これは確率変数の変換の式の形をしています。

関連ページ:確率変数の変換

この変換式をどうやって見つけたか、専門外の私は知らないですが、ここは過去の偉大な発見を利用させてもらうとしましょう。正規分布の式は、平均と標準偏差、エクスポーネンシャルeを使って表現されたとても重要な式ですが、高校数学の範囲ではこれを覚えておく必要はないでしょう。覚える必要があるとすれば標準正規分布への変換式の方ですが、定期テストなどではあらかじめ与えてくれるかもしれないので、その都度、教員の指示に従っておいてください。

長くなったので、具体的な利用の仕方については次のページで示したいと思います。
<< 連続型確率分布 正規分布の利用 >>

ホーム

Reafferenzの原理

神経作動の古典的な考え方に反する原理として、Reafferenzの原理があります。神経生理学や動物行動学の本では割と普通に出てくるんですが、それ以外の分野だと馴染みのない考え方です。まず神経作動の原理として、刺激→知覚→中枢→運動という反射図式があって、もちろん間違っているわけではないですが、ある程度身体が発達した動物では単純に過ぎます。それがわかった上で、このように知覚と運動を分離して考えてしまう傾向が、どうしても出てきてしまいます。この単純な感覚→運動の反射図式を打ち破るために考え出されたものが、Reafferenzの原理です。Von HolstとMittelstaedt(1950)によって唱えられ、Held(1965)、Teuber(1969)などが神経心理学に積極的に導入したそうです。Reafferenzの原理はあくまで理論であって、このような原理の存在が実証されているわけではありません。しかし数少ない具体的な生理学的機構の考え方なので、ここで紹介しておこうと思います。

1 Reafferenzの原理

図1にReafferenzの原理の基本的な考え方を示します。

まず出発点は高次中枢(Zn)です。中継地点(Z2)を経て一次中枢(Z1)から遠心性神経インパルスが出ています。図からは、このあたりが脊髄の介在神経とかにあたりそうですが、仮想的な原理ですので具体的な場所が局所的に対応しているとは考えない方がよいでしょう。

出発点が中枢からなので脊髄反射ではなく、随意運動の方がこれに近いです。一般的な考え方と違うのはEとMの分岐の部分です。遠心性刺激Eは分岐して中枢Znへと向かい、これを遠心コピー(EK)とします。さらに効果器では回帰性求心インパルス(Reafferenz)Aが生じます。このReafferenzは通常の効果器由来のものではなく、仮想的な概念です。AとEKは相補的に作用し、反対方向の量としてお互いに相殺し合います。正常ではAとEKは相殺されるのですが、二つの相互関係が崩れると、中枢へ上行する情報(M)に変化が生まれ、Znでの知覚に変化があらわれます。

2 Reafferenzの原理を用いた知覚恒常性の説明

Reafferenzの原理を用いた、知覚恒常性の説明を一つ示すことにします。図2は「急激な眼筋麻痺の時に二重視が起こり、しかも虚像が麻痺筋の本来の運動方向の側に分離して出現するのは何故か」を説明する図です。

まず正常な場合が右下のdです。中枢Zからの指令で眼球が動き、Z1で分岐したプラスの遠心性インパルスとマイナス方向の求心性インパルスが生じ、Z1において打ち消します。このときZnには求心性インパルスが到達しないので、眼球を意図的に動かして網膜像が移動しているにもかかわらず、知覚される像は静止して現れてきます。

aでは遠心性インパルスが分岐した後で眼筋に到達しない、眼筋麻痺などの通常ではない状態です。実際には眼球が動かないため求心性インパルスが発生せず、分岐したプラスのEとの間で打ち消し合いがおこらず、中枢Znに到達した遠心コピーにより、意図した方向に虚像が生まれることになります。bは対象の方を移動した場合で、網膜像の移動により求心性インパルスAとなってZnに到達し対象の動きとして知覚されます。cは眼球を機械的に動かした場合で、bとは逆方向の網膜像の移動およびマイナスの求心性インパルスAが生じ、bのときと同様に対象の動きが知覚されます。

上をまとめると、正常な場合(図2d)は二つのインパルスの打ち消し合いにより、網膜像の動きにかかわらず像が静止したままと知覚され、意図して眼球を動かした場合ではないとき(図2b、c:対象物を移動した場合と眼球を機械的に動かしたとき)対象物の移動として現れ、眼球麻痺のような中枢からの指令があるにもかかわらず眼球が動かないとき(図2a)はインパルスの打ち消し合いが生じず虚像が現われます。このように二つのインパルスの打ち消し合いが起こるかどうかで、正常な場合と眼球麻痺のような場合の知覚の違いが説明されています。

参照にした著書にはReafferenzの原理に関して次のような記述があります。「あくまで理論であって、具体的に遠心コピーや、回帰性求心系が見つかっているわけではない。しかし、証拠はないにせよ、知覚は末梢に発するとおなじぐらい、中枢にも発するのだという考え方は重要である。自発性を抜いては心理現象はわからないのである。」。心理学者が神経生理学的知見をどう考えているのか、著書からはわからない場合が多いのですが、身体・神経系の自律性・自発性の重要性を認識していることがよくわかる、貴重な表現となってくれています。

  • 参照文献:『神経心理学入門』(山鳥重、医学書院)

<< 反射とCPGとプレ・プログラム反応

ホーム

連続型確率分布

二項分布のところで離散型確率分布の言葉を出しました。確率変数の値が飛び飛びの場合に離散型で、連続している場合が連続型です。確率変数が連続しているというのはよく考えると不思議なことなんですが(取れるデータは有限)、実のところ私にはよくわからないので、ひとまずそんなものだとさせてください。具体例を挙げた方がわかりやすいですので、図1に連続型確率分布の一例を示します。

横軸が確率変数の値で縦軸が関数f(x)の値です。確率なので全ての場合を足せば1になるのですが、連続型確率分布の場合で全ての場合に当たるのはそのグラフと横軸で囲まれた面積です。図1では確率分布が変数Xのαからβの範囲に収まっているので、この範囲の面積が1になります。式で表現すると下のようになります。

\begin{align} \int_{\alpha}^{\beta} f(x) dx = 1 \end{align}

f(x)は確率密度関数と呼ばれ、f(x)≧0の条件があります。f(x)は確率値のように見えて確率値そのものではないです。じゃあf(x)はなんなんだという話ですが、これも私の手には負えないのでそんなものだとさせてください。連続型確率分布では全体の面積が1で、部分的な確率はやはり積分により面積を得ることで求めることができます。これは確率変数の値が連続しているので、確率はある値からある値までの範囲として考える必要があるためです。図2のa≦X≦bの確率は下の定積分で求めればよいです。

\begin{align} \int_{a}^{b} f(x) dx \end{align}

定積分すればよいと簡単に言いましたが、積分の計算は大変な場合が多いです。高校数学では知識として積分で求められることを知っておけば十分でしょう。

上で確率密度関数の範囲がαとβで区切られていると書きましたが、この範囲が無限に大きい場合なんかでも対象に含まれます。連続型確率分布で最も重要な正規分布がこれにあたります。正規分布については次回に説明します。

離散型確率分布では表を書いて、次の式で平均と分散を求めることができました。

\begin{align} E(X)=\sum_{i=1}^nx_ip_i\\ V(x)=\sum_{i=1}^n (x_i-\bar{x})^2 p_i=\sum_{i=1}^n (x_i)^2 p_i – \bar{x}^2\\ \end{align}

連続型確率分布の場合は次の式で平均と分散を計算することができます。

\begin{align} E(X)=\int_{\alpha}^{\beta} xf(x) dx\\ V(x)=\int_{\alpha}^{\beta} (x-\bar{x})^2f(x) dx = \int_{\alpha}^{\beta} x^2f(x) dx-\bar{x}^2\\ \end{align}

離散型と連続型の式を見比べると似た形になっています。実際のところ式の意味はほとんど同じです。定積分の意味から、連続型の場合は無限に分割した確率ヒストグラムで離散型の平均と分散の計算をした、と解釈することも可能です。こちらも高校数学においては知識としてなんとなく知っておけば問題ありません。
<< 二項分布 正規分布 >>

ホーム

Older posts