度数分布表とヒストグラム
中学数学に統計に関する単元があります。データを集めて集団としての特徴を見るとき、一番使いやすい統計値は平均と分散です。平均は真ん中あたりの値を示す指標で、分散は全体の散らばり具合を示す指標です。このうち中学で出てくるのは平均値の方です。それから真ん中あたりを示す指標としてもう一つ、中央値も出てきます。他に出てくる言葉には、度数分布、ヒストグラム、相対度数、階級値、最頻値、分布の範囲、近似値などがあります。けっこうたくさん出てくるんですが、字面から言葉の意味が推測できるものも多く、平均と中央値の出し方を理解できれば、他はそれほど問題ではないでしょう。
表1のような体重のデータを取ったとします。
表1 体重
番号 |
体重(kg) |
|
番号 |
体重(kg) |
1 |
43.5 |
|
6 |
35.3 |
2 |
38.2 |
|
7 |
48.9 |
3 |
51.3 |
|
8 |
43.7 |
4 |
45.2 |
|
9 |
56.2 |
5 |
52.0 |
|
10 |
49.1 |
このデータのまま考えてもいいですが、グラフにして視覚化すると特徴を見つけやすくなります。グラフにするときは一工夫入れる必要があるときが多くて、この場合も階級分けと階級ごとの度数を調べる必要があります。階級と度数は言葉で説明するより表を見た方が早いでしょう。表1のデータを5kgごとに階級分けして、表2の度数分布表を書くことができます。
表2 度数分布表
階級(kg) |
度数(人) |
35以上~40未満 |
2 |
40~45 |
2 |
45~50 |
3 |
50~55 |
2 |
55~60 |
1 |
35kg以上40kg未満の人は2番と6番で二人いるので、この階級の度数は2になります。表2のように表現することで、ヒストグラムと呼ばれる棒グラフで体重の分布を視覚的に表現することができます。表2をもとにヒストグラムにすると、図1のようになります。
45kg以上50kg未満の階級が一番人が多くて、そこから離れると少なくなる山型の分布になっていることがわかります。こんなふうに人間はデータそのままよりも、加工してグラフのような視覚的表現に直してやった方が情報を取り出しやすくなります。
次にデータから真ん中あたりの情報を計算で取り出す、平均値と中央値の計算の仕方を示しておきます。平均値の式は次の通りです。
平均値=資料の個々の値の合計/資料の個数
表1をもとに計算すると
(43.5+35.3+38.2+48.9+51.3+43.7+45.2+56.2+52.0+49.1)/10=46.3(46.34を四捨五入)
となります。平均値は直感的にわかりやすい指標ですが、逆にこの式で得られた値がなぜ真ん中あたりを示す値と言えるのかと聞かれると困ってしまいます。
ここは言葉から考えてみましょう。平均の値ということは平らに均した値ということです。二つの値43.5と35.3で見てみると、大きい方の43.5から4.1を引いて小さい方の35.3に足すと、どちらも同じ39.4になって、でこぼこが均されて平になります。この39.4という値は二つの値の平均値(43.5+35.3)/2=39.4と同じ値です。今は二つの値でこの操作をしましたが、たくさんの値で一度に均す操作が平均の式だと考えることができます。このように平らに均すという操作で平均値を考えることができるのですが、今言ったことがわからなくても別にかまいません。平均の式を見て、真ん中あたりを見つける操作なんだな、となんとなくわかれば問題はありません。
平均値は表2の度数分布表からも求めることができます。階級の平均をとって階級値を求め、その階級に含まれる人の値を全て階級値と同じだとみなして計算します。35kg以上40kg未満の階級値は35と40の平均を取って37.5になり、ここに含まれる二人の体重はいずれも37.5kgと考えます。計算すると下のようになります。
37.5×2+42.5×2+47.5×3+52.5×2+57.5=46.5
階級値に近似しているので元データから計算したときに比べて、少し不正確な値が出てきます。
もう一つの中央値は、値の大きさ順に並べてその真ん中の値が中央値です。データ数が奇数のときは真ん中が一つだけきまるのですが(例えば9個なら真ん中は5番目)、今はデータが10個あるので真ん中が5番目か6番目か決められません(図2)。
そこで5番目の値と6番目の値の平均値をとって中央値とします。中央値は(45.2+48.9)/2=47.1となります。
平均値と中央値は取り方が違うので少し値が違っていますが、どちらも真ん中あたりを示す指標です。中央値の方がグラフの形状との対応関係が強いのですが、平均値や中央値だけで何かを判断することはほとんどないので、細かい違いはいったん置いておいてください。自然科学などでは平均値の方が利用されることが多いです。
<< 扇形 分配法則 >>