確率変数の平均と分散 - 趣味で学問

確率変数の平均と分散

高校数学で「確率分布」という分野があって、これはいわゆる「統計学」のことです。昔は大学で履修していた統計学ですが、新課程になって事実上大学入試に必須になってしまいました。自分でデータ取って解析とかやって初めてやってることの意味が分かる分野だと思うので、自分としては大学に入ってからデータ取るのとかと一緒にやるので十分だと思ってます。

とはいえ大学入試に必須である限り高校でやらざるを得ません。正直、自分が高校の時にやって意味を読み取れたとは思えないです。とりあえずなんとなくわかった気がすれば覚えやすくなるので、「わかった気がする」ページを目標にして書いていこうと思います。

まずは確率分布表が与えられた時の平均値(期待値)と分散の出し方からです。確率分布において最も重要な数値が平均と分散です。標準偏差は分散の√をとったものなのでほぼ同じものと思ってよいです。ある値Xがある確率で起こるとき、これを確率変数Xと呼び、各Xの値に対する確率を表にしたものが確率分布表です。例えばサイコロを2回投げて1の目が出る回数をXとおくと、確率分布表(この形の分布を離散型確率分布と呼びますがまた今度説明します)は下のようになります。

確率変数X012合計
確率P(X)25/3610/361/361

Xの平均とはこの場合、2回のうちXが平均して何回出るか、というものです。分散は平均からどれくらい離れた値をとるか、平均からの散らばり具合を示す値です。まず平均と分散の一般的な式を示します。x_iがi番目のデータ値でxバーがxの平均、データ数はNです。

\begin{align} E(X)=\frac{x_1+x_2+\cdots+x_n}{N}\cdots①\\ V(X)=\frac{(x_1-\bar{x})^2+(x_1-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{N}\cdots②\\ \end{align}

そして確率分布表が与えられた場合の平均と分散の式が次の形になります。

\begin{align} E(X)=\sum_{i=1}^nx_ip_i=x_1\cdot p_1+x_2\cdot p_2+\cdots+x_n\cdot p_n\cdots③\\ V(X)=\sum_{i=1}^n (x_i-\bar{x})^2 p_i=(x_1-\bar{x})^2\cdot p_1+(x_2-\bar{x})^2\cdot p_2+\cdots+(x_n-\bar{x})^2\cdot p_n\cdots④\\ \end{align}

これを使って上の確率分布表における平均と分散を求めると下のようになります。

\begin{align} E(X)=0\cdot\frac{25}{36}+1\cdot\frac{10}{36}+2\cdot\frac{1}{36}=\frac{1}{3}\\ V(X)=(0-\frac{1}{3})^2\cdot\frac{25}{36}+(1-\frac{1}{3})^2\cdot\frac{10}{36}+(2-\frac{1}{3})^2\cdot\frac{1}{3}=\frac{5}{18}\\ \end{align}

③と④の式の証明は、たぶん大学レベルの統計学の本には載っていると思うので、気になる人はそちらを参考にしてみてください。ここではちょっとだけ、上の表と①と③の式を見比べて、確率分布表が与えられたときの平均の意味を考えてみます。①の式で全ての値を足した後で全データ数で割ってます。ここで考えるための例「データ数が3でデータが1,2,3」で式を立てると、(1+2+3)/3=1/3 +2/3 +3/3です。右辺の形は分布表の計算過程の形とよく似ています。上の分布表で確率の分母が36なのは、サイコロを二回振るので全通り数6×6=36であるためです。なので上の表は、全データ数が36で0が25個、1が10個、2が1個のデータ数だったと考えれば、

\begin{align} \frac{0\cdot25+1\cdot10+2\cdot1}{36}=0\cdot\frac{25}{36}+1\cdot\frac{10}{36}+2\cdot\frac{1}{36}\\ \end{align}

となって確かに①と③で同じ形になります。各確率に、平均を求める際のデータ値を足したものを全データ数で割る操作が一部含まれている、と考えると考えやすいでしょうか。分散もこれと同様の考え方ができます。こんなふうにそこに自分なりの意味を見つけ出すと、式の覚えやすさと思い出しやすさが格段に上がります。数学の式をなかなか覚えられないという人は、自分なりの意味を見つけ出してみてください。

最後に分散のもう一つの式を示します。導入は④の式を展開して計算すると割と簡単にできますが、ここでは省略します。

\begin{align} V(X)=\sum_{i=1}^n (x_i-\bar{x})^2 \cdot p_i=\sum_{i=1}^n (x_i)^2 \cdot p_i – \bar{x}^2\\ \end{align}

二乗の平均-平均の二乗とか呼ばれている形で、手計算するときはだいたいこちらの方が楽なのでこちらを使ってみてください。この式にはそれとは別の使い道があるのですがそれは大学レベルの話なので、今はこっちの方が計算が楽だと覚えておけば大丈夫です。こちらの式でも計算しておきます。

\begin{align} V(X)=0^2\cdot\frac{25}{36}+1^2\cdot\frac{10}{36}+2^2 \cdot \frac{1}{36}-(\frac{1}{3})^2\\ =0+\frac{10}{36}+\frac{4}{36}-\frac{1}{9}=\frac{5}{18} \end{align}

確率変数の変換 >>

ホーム » 高校数学を理解する » 数2B » 確率変数の平均と分散

むつきさっち

物理と数学が苦手な工学博士。 機械翻訳で博士を取ったので一応人工知能研究者。研究過程で蒐集した知識をまとめていきます。紹介するのはたぶんほとんど文系分野。 でも物理と数学も入門を書く予定。いつの日か。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA