Top ⇒ Report ⇒ Data処理

・簡単な統計処理Program
・検定に用いる統計数値表   χ2分布表  F分布表  t分布表
● Data処理
 観察や実験に伴い、例えば長さ・重さ・数などのdataを蒐集する事になるが、蒐集した生dataをそのまま提示しても何にもならない。必ず統計処理を行い、その結果を示さなければいけない。

 平均値、中央値、最瀕値、分散、偏差、誤差、相関関係、相関係数、回帰、回帰式、最小二乗法、共分散、検定、有意などの言葉が意味するものを理解する事。表の書き方、図の描き方にも留意。正規分布やポアソン分布はどの様なもので見られるか。棒グラフ、折線グラフ、散布図をどの様な時に描いたら良いのか、Histogramと棒グラフは何が違うのか、x軸とy軸に何を選ぶべきか、独立変数と従属変数の区別、dataに何等かの変換処理を施した方が良いのはどんな時か、変換にはどんな物があるか、等など。ある事に付いて何かを言うためには、様々な手続が必要である。


統計処理
1) histogram : ある形質の度数分布をみる為の図である。測定値の最大、最小を知った上で、適当な区間幅に区切る必要がある。
  (例 個体数: 3   4   7   6   6   4   2   0   1   1
          -----------------------------------------------
     長 さ:0-1 -2  -3  -4  -5  -6  -7  -8  -9  10- [mm]
       の様に調べた後で、横軸に測定値、縦軸に個体数を示す。 [区間幅の取り方で、分かり易くも分かり難くもなるので注意。]
2) 散布図(scattergram):二形質の測定値を一枚の図上に描くことで、両者の関係をたやすく捉えられる。
 (例えば、横軸に茎の直径、縦軸に花の数をとり、各個体の計測値を図に打っていく。)

3) 中央値(median)と最頻値(mode)
  中央値:標本を値の大小の順に並べた時、中央の物が示す値
  最頻値:最も頻出する値
   これら2つの値は、上記 histogam を描く際に求まっている筈である。

4) * 平均と標準偏差(mean, standard deviation)
  標本数 =N    総和 Sx=肺    ・平均 xm=Sx/N
    偏差平方和 Sx2=(x-xm)2=肺2-xm肺 =肺2-N・xm・xm
    分散 S2=Sx2/(N-1)          ・標準偏差 SD=√S2

・分散は偏差平方和を標本数(N-1)で割ったもの、偏差は分散の平方根である。
これらは、dataの散らばり具合いを表わす指標となる。平均と偏差は、一緒に使われる事が多い(mean ± SD のように)。

 ある形質に付いて、調べた二群が同じ平均値を示しても、dataの散らばり具合が同じとは限らない。例えば、下図の白棒で示されたA群と斜線で示されたB群の平均値は共に10.0であるが、dataの散らばりを表す指標である標準偏差値は、それぞれ 1.8(標本数 23)と 5.5(標本数 20)になる。





5) * 相関係数(correlation coefficient)と回帰直線(regression line)

    偏差積和 Sxy=(x-xm)(y-ym) =(xy-x・ym-xm・y+xm・ym)
                =肺y-ym肺-xm輩+肺m・ym =肺y-ym・N・xm-xm・N・ym+N・xm・ym
                =肺y-N・xm・ym
    共分散(Covariance) Cxy=Sxy/(N-1)    ・相関係数 r=Sxy/√(Sx2・Sy2)
    回帰係数(yのxへの)    b=Sxy/Sx2 =r・√Sy2/√Sx2 =r・SDy/SDx
   ・回帰直線 (y-ym)=b・(x-xm)    →   y=b・x+(ym-b・xm)
・相関係数は(-1.0〜 1.0)の値をとる。0 は、比べた両形質が全く独立であること。絶対値 1は、完全な直線関係があることを示す。相関係数は必ず求まるが、有意な相関か否かについては、別に統計量 F=(n-2)・r2/(1-r2)を出して判定する。F は、自由度対[1, n-2]のF-分布に従って分布するので、統計の本に載っているF-分布表の対応する数値と比較する。計算値が表値より大きければ有意である。ここでは、何と何の関係を見るのか、その事に意味があるのか等を考えねばならない。また、計測値に何らかの操作を加えた方が、よい相関が得られる場合がある。その時には、その理由を考える。
・回帰直線は、通常は最小2乗法により求める。これは、各dataの点と直線との距離の2乗の総和が最小になるような直線である。



 こういう事がある程度分かっていれば、偶然の揺らぎに惑わされてとんでもない結論を導く事も減るだろう。 統計処理に関する考え方や方法などを身に付けるために、参考になりそうな本を何冊か挙げておく。
 ・女の能力、男の能力−(付録部分ドリーン・キムラ新曜社
    ごく初歩的な統計概念の説明。
 ・生物学の考える技術クリス・バーナード他 講談社 Blue Backs
 ・生物統計学入門石居 進培風館
 ・生物系のための統計学入門R.C.キャンベル培風館
 ・生物学を学ぶ人のための統計のはなし粕谷英一文一総合出版

○ Data処理の例
No.高さ(cm)茎径(mm)花数
 1
 2
 3
 4
 5
 6
 7
 8
 ・
 ・
 ・
105
160
180
205
80
105
205
180
 ・
 ・
 ・
6
6.5
10.3
12.8
7
3.5
12.9
8.5
 ・
 ・
 ・
158
302
498
1834
663
71
1148
771
 ・
 ・
 ・

 左表は、セイヨウカラシナの高さ、茎の太さ、花の数を示したものである。

 表を元にして、各形質の平均値と標準偏差、中央値、最頻値を求める。頻度分布図(histogram)を描いて、これらの値を図中に書き込んで置くと、分かり易い図ができる。
 また、二形質間の散布図を描き、そこから形質Aと形質Bの間にどんな関係があるかを考える。
No.xx2yy2xy
 1
 2
 3
 4
 5
 6
 7
 ・
 ・
 n
6
6.5
10.3
12.8
7
3.5
12.9
 ・
 ・
 ・
36
42.25
106.09
163.84
49
12.25
166.41
 ・
 ・
 ・
158
302
498
1834
663
71
1148
 ・
 ・
 ・
24964
91204
248004
3363556
439569
5041
1317904
 ・
 ・
 ・
948
1963
5129.4
23475.2
4641
248.5
14809.2
 ・
 ・
 ・
 nΣxΣx2ΣyΣy2Σxy

 平均や標準偏差、また二形質(xとy)間の相関を調べるためには、x,x2,y,y2,xyの総和(Σ)を知る必要がある。そこで、例えば右の様な表を作り、これを元にして計算する。ここでは、茎径と花数の関係を見ようとしている。最下段は標本数と各列の総和である。

 二乗値や総和を求めるにはパソコン等を用いてもよいが、平均や偏差、相関係数など、最終的な値を求める時は手計算で行うのが望ましい(これは、値の意味を確認するため [式の持つ意味を充分意識して記述する事])。詳しくは、統計の本を各自で参照のこと。


 パソコンに入力したDataを元にしてExcelなどに図を描かせると、勝手に図を描いて呉れるが、そのままでは到底使用に耐える図は出来ない。字の大きさ、記号の形、色(基本的に白黒とする)など細かい手直しが必要である。Softwareに遊ばれないようにしよう。

  図の例


花数の頻度分布図(histogram)

 図中に中央値や平均値を示すと様子が分かり易い。
 ここでは、data区分の関係で最頻値の山が幾つか出たが、区分値を工夫すれば、別の形のhistogramになる。

 値がどの様な分布をしているかで、代表値に何を用いたら良いかが異なる。



 右は、高さと花数の関係を見た散布図

 相関係数を求め、有意な相関であればP値を付け、回帰直線を引いてみるのも良い(先ずは、直線回帰のみを考える)。

 下の二図は茎の太さと花数、茎の太さの二乗と花数の関係を見た散布図である。右図の方が左図より若干相関が良く、原点回帰とみなせるものになっている。勿論、上図よりも遥かに良い。なぜ、そうなるのか? そこは考察。

 得られた観測(計測)値に何らかの変形処理を加えたら、綺麗な図になる事がままある。その様な変形には、二乗や対数変換など様々なものがあるが、何故そういう変換を施した方が良いのか考えた上で図を描いてみること。

 独立変数(x)と従属変数(y)の別を弁えること。訳の分からない図を描いて良しとしないように。

 図表には、題目・説明を付けて置く。表の説明は上側に、図の説明は下側に付けるのが原則。


(前に戻る)  ○研究室の先頭頁