標準偏差
標準偏差(ひょうじゅんへんさ、英: standard deviation, SD)は、日本工業規格では、分散の正の平方根と定義している[1]。データや確率変数の散らばり具合(ばらつき)を表す数値の一つ。物理学[2]、経済学、社会学などでも使う。例えば、ある試験でクラス全員が同じ点数、すなわち全員が平均値の場合、データにはばらつきがないので、標準偏差は 0 になる。
母集団や確率変数の標準偏差を σ で、標本の標準偏差を s で表すことがある。二乗平均平方根 (RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。
目次
1 母集団の標準偏差
2 標本の標準偏差
2.1 名称の混乱
2.1.1 英語
2.1.2 日本語
3 確率変数の標準偏差
3.1 離散型確率変数
3.2 連続型確率変数
4 標準偏差の推定
5 脚注
6 参考文献
7 関連項目
8 外部リンク
母集団の標準偏差
n 個のデータ x1, x2, …, xn からなる母集団を考える。その母集団の平均(または母平均)μ は、次の通りに定義される:
- μ=1n∑i=1nxi.{displaystyle mu ={frac {1}{n}}sum _{i=1}^{n}x_{i}.}
このとき、母平均 μ を使って次式で得られる量 σ2 を分散(または母分散)と定義する。
- σ2=1n∑i=1n(xi−μ)2=1n∑i=1nxi2−μ2.{displaystyle sigma ^{2}={frac {1}{n}}sum _{i=1}^{n}(x_{i}-mu )^{2}={frac {1}{n}}sum _{i=1}^{n}{x_{i}}^{2}-mu ^{2}.}
この分散の非負の平方根 σ を、母集団の標準偏差と定義する[3]。分散はデータの散らばり具合を表す量であるが、元のデータを平方しているので元のデータや平均値と次元が異なり直接比較することができない。平方根をとると元のデータと同じ次元になるので、分散よりも標準偏差の方が散らばり具合を表す量として便利なことがある[4]。
標本の標準偏差
母集団の中から、n 個のデータ x1, x2, …, xn からなる標本を抽出したとする。このとき、標本平均を次式で定義する:
- x¯=1n∑i=1nxi.{displaystyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}.}
この標本平均を使って次式で定義される量を標本の分散と呼ぶ。
- s2=1n∑i=1n(xi−x¯)2=1n∑i=1nxi2−x¯2.{displaystyle s^{2}={frac {1}{n}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}={frac {1}{n}}sum _{i=1}^{n}{x_{i}}^{2}-{bar {x}}^{2}.}
標本の分散の平方根 s を標本の標準偏差と呼ぶ[3]。
σ2 を母集団の分散、s2 を標本の分散とすると、
- E[s2]=n−1nσ2{displaystyle E[s^{2}]={frac {n-1}{n}}sigma ^{2}}
となることが示される。つまり、標本の分散は母集団の分散よりも小さくなる傾向がある[5]。そのため、標本の分散は母集団の分散の不偏推定量ではない。そこで、
- u2=1n−1∑i=1n(xi−x¯)2=1n−1∑i=1nxi2−nn−1x¯2{displaystyle u^{2}={frac {1}{n-1}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}={frac {1}{n-1}}sum _{i=1}^{n}{x_{i}}^{2}-{frac {n}{n-1}}{bar {x}}^{2}}
を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。こうして定義される u2 を不偏分散という。標本分散と呼ぶこともある。
u2 の平方根 u を標本標準偏差ということもある。
不偏分散の平方根 u は、標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は次式で与えられる[6]。
- D=n−12Γ(n−12)Γ(n2)u.{displaystyle D={sqrt {frac {n-1}{2}}}{frac {Gamma left({frac {n-1}{2}}right)}{Gamma left({frac {n}{2}}right)}}u.}
ここで、Γ はガンマ関数、u2 は不偏分散である。
標本サイズが大きくなれば、標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を n − 1.5 で割った値の平方根として求められる[7]。
- D≈1n−1.5∑i=1n(xi−x¯)2=1n−1.5∑i=1nxi2−nn−1.5x¯2.{displaystyle Dapprox {sqrt {{frac {1}{n-1.5}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}={sqrt {{frac {1}{n-1.5}}sum _{i=1}^{n}{x_{i}}^{2}-{frac {n}{n-1.5}}{bar {x}}^{2}}}.}
名称の混乱
統計の教科書によっては n − 1 で割ったものが標本分散という名称になっており[8]、用語が混乱して使用されている場合がある。母平均が不明であって、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[9]。
英語
英語では不偏分散による標準偏差のことを「sample standard deviation」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[10]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。
- ウィキペディア英語版の「standard deviation」という記事では、不偏分散による標準偏差(平均からの偏差平方和を n − 1 で割った値の平方根)のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和を n で割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している[出典無効]。
- アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は n − 1 で割る方を意味する。
- アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ[11]では、「sample standard deviation」を平均からの偏差平方和を n で割った値の平方根だと解説している。
日本語
日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 u2 の平方根を、不偏標準偏差だと教える大学教員も多いが、標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。
- 兵庫大学の河野稔によるウェブページ[12]や神戸大学の中澤港によるウェブページ[13]では前者である。
- 東北学院大学の根市一志による資料[14]では後者である。
このように、同じ用語でも話者によって定義が異なる場合がある。
確率変数の標準偏差
離散型確率変数
X を離散型確率変数とする。X のとりうる値が x1, x2, …, xn で X が xi をとる確率を pi で表す。ここで、
- ∑i=1npi=1{displaystyle sum _{i=1}^{n}p_{i}=1}
とする。このとき、
- E[X]=∑i=1npixi{displaystyle E[X]=sum _{i=1}^{n}p_{i}x_{i}}
を確率変数 X の期待値という。また、
- V[X]=E[(X−E[X])2]=∑i=1npi(xi−E[X])2{displaystyle V[X]=E{Big [}{big (}X-E[X]{big )}^{2}{Big ]}=sum _{i=1}^{n}p_{i}{big (}x_{i}-E[X]{big )}^{2}}
を確率変数 X の分散という。この分散の非負の平方根を標準偏差という。
連続型確率変数
X を連続型確率変数とする。連続関数 f(x) が
- f(x)≥0,∫−∞∞f(x)dx=1{displaystyle f(x)geq 0,quad int _{-infty }^{infty }!f(x),dx=1}
を満たし、かつ X の値が区間 [x1, x2] に属する確率が
- ∫x1x2f(x)dx{displaystyle int _{x_{1}}^{x_{2}}!f(x),dx}
のとき、f(x) を X の確率密度関数という。このとき、
- E[X]=∫−∞∞xf(x)dx{displaystyle E[X]=int _{-infty }^{infty }!xf(x),dx}
を確率変数 X の期待値という。また、
- V[X]=∫−∞∞(x−E[X])2f(x)dx{displaystyle V[X]=int _{-infty }^{infty }!{big (}x-E[X]{big )}^{2}f(x),dx}
を確率変数 X の分散という。この分散の平方根を標準偏差という。
標準偏差の推定
母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本サイズ N の標本標準偏差を s とすると母集団分布が正規分布ならば σ2 は次の自由度 N − 1 の χ2 分布に従う。
- χ2=Ns2/σ2.{displaystyle chi ^{2}=Ns^{2}/sigma ^{2}.}
σ の95%信頼区間は P = 0.975 の χ2 から P = 0.025 の χ2 までの範囲で、s と σ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。
Table
Confidence interval | Proportion within | Proportion without | |
---|---|---|---|
Percentage | Percentage | Fraction | |
0.318 639σ | 25% | 75% | 3 / 4 |
6999674490000000000♠0.674490σ | 7001500000000000000♠50% | 7001500000000000000♠50% | 1 / 7000200000000000000♠2 |
6999994458000000000♠0.994458σ | 68% | 32% | 1 / 3.125 |
1σ | 7001682689492000000♠68.2689492% | 7001317310508000000♠31.7310508% | 1 / 7000315148720000000♠3.1514872 |
7000128155200000000♠1.281552σ | 80% | 20% | 1 / 5 |
7000164485400000000♠1.644854σ | 90% | 10% | 1 / 10 |
7000195996400000000♠1.959964σ | 95% | 5% | 1 / 20 |
2σ | 7001954499736000000♠95.4499736% | 7000455002640000000♠4.5500264% | 1 / 7001219778950000000♠21.977895 |
7000257582900000000♠2.575829σ | 99% | 1% | 1 / 100 |
3σ | 7001997300204000000♠99.7300204% | 6999269979600000000♠0.2699796% | 1 / 370.398 |
7000329052700000000♠3.290527σ | 99.9% | 0.1% | 1 / 7003100000000000000♠1000 |
7000389059200000000♠3.890592σ | 99.99% | 0.01% | 1 / 7004100000000000000♠10000 |
4σ | 7001999936660000000♠99.993666% | 6997633400000000000♠0.006334% | 1 / 7004157870000000000♠15787 |
7000441717300000000♠4.417173σ | 99.999% | 0.001% | 1 / 7005100000000000000♠100000 |
7000450000000000000♠4.5σ | 99.9993204653751% | 0.0006795346249% | 1 / 7005147159535800000♠147159.5358 3.4 / 7006100000000000000♠1000000 (on each side of mean) |
7000489163800000000♠4.891638σ | 7001999999000000000♠99.9999% | 6996100000000000000♠0.0001% | 1 / 7006100000000000000♠1000000 |
5σ | 7001999999426697000♠99.9999426697% | 6995573303000000000♠0.0000573303% | 1 / 7006174427800000000♠1744278 |
7000532672399999999♠5.326724σ | 7001999999900000000♠99.99999% | 6995100000000000000♠0.00001% | 1 / 7007100000000000000♠10000000 |
7000573072900000000♠5.730729σ | 7001999999990000000♠99.999999% | 6994100000000000000♠0.000001% | 1 / 7008100000000000000♠100000000 |
7000600000000000000♠6σ | 7001999999998027000♠99.9999998027% | 6993197300000000000♠0.0000001973% | 1 / 7008506797346000000♠506797346 |
7000610941000000000♠6.109410σ | 7001999999999000000♠99.9999999% | 6993100000000000000♠0.0000001% | 1 / 7009100000000000000♠1000000000 |
7000646695100000000♠6.466951σ | 7001999999999900000♠99.99999999% | 6992100000000000000♠0.00000001% | 1 / 7010100000000000000♠10000000000 |
7000680650200000000♠6.806502σ | 7001999999999990000♠99.999999999% | 6991100000000000000♠0.000000001% | 1 / 7011100000000000000♠100000000000 |
7σ | 99.9999999997440% | 6990256000000000000♠0.000000000256% | 1 / 7011390682215445000♠390682215445 |
脚注
^ JIS Z 8101-1:1999, 1.13 分散.
^ 伏見, p. 364, 第 VII 章 確率と統計 63節 算術平均、標準偏差.
- ^ ab栗原 2011, p. 47
^ 稲垣 1990, p. 21.
^ 例えば、標本サイズが 1 の場合、ばらつきがないので標本の分散は必ず 0 となるが、母集団のばらつきは通常 0 ではない。
^ 吉澤 1989, pp. 78–79.
^ Brugger 1969, p. 32.
^ 例:(東京大学教養学部統計学教室編 1991)。
^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。
^ “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
^ 「Estimating Parameters Web Page」
^ 「健康統計学-散布度」
^ 「高崎経済大学非常勤講義 第4回「記述統計(2):代表値」」
^ 「標準偏差の不偏性」
参考文献
Brugger, Richard M (1969-10). “A Note on Unbiased Estimation of the Standard Deviation”. The American statistician (American Statistical Association) 23 (4): 32. ISSN 0003-1305.
- 吉澤, 康和 『新しい誤差論 - 実験データ解析法』 共立出版、1989年。.mw-parser-output cite.citation{font-style:inherit}.mw-parser-output .citation q{quotes:"""""""'""'"}.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/thumb/6/65/Lock-green.svg/9px-Lock-green.svg.png")no-repeat;background-position:right .1em center}.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Lock-gray-alt-2.svg/9px-Lock-gray-alt-2.svg.png")no-repeat;background-position:right .1em center}.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Lock-red-alt-2.svg/9px-Lock-red-alt-2.svg.png")no-repeat;background-position:right .1em center}.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration{color:#555}.mw-parser-output .cs1-subscription span,.mw-parser-output .cs1-registration span{border-bottom:1px dotted;cursor:help}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/thumb/4/4c/Wikisource-logo.svg/12px-Wikisource-logo.svg.png")no-repeat;background-position:right .1em center}.mw-parser-output code.cs1-code{color:inherit;background:inherit;border:inherit;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;font-size:100%}.mw-parser-output .cs1-visible-error{font-size:100%}.mw-parser-output .cs1-maint{display:none;color:#33aa33;margin-left:0.3em}.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration,.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left,.mw-parser-output .cs1-kern-wl-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right,.mw-parser-output .cs1-kern-wl-right{padding-right:0.2em}
ISBN 4320014243。 - 稲垣, 宣生 『数理統計学』 裳華房、1990年。
ISBN 4-7853-1406-0。 - 『統計学入門』 東京大学出版会、1991年。
ISBN 4-13-042065-8。 - 村瀬, 洋一、高田, 洋、廣瀬, 毅士 『SPSSによる多変量解析』 オーム社、2007年。
ISBN 4-27-406626-6。 - 栗原, 伸一 『入門統計学検定から多変量解析・実験計画法まで』 オーム社、2011年。
ISBN 978-4-274-06855-3。 - 西岡, 康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。
ISBN 9784274214073。 - 伏見, 康治 『確率論及統計論』 河出書房、1942年。
ISBN 9784874720127。 - 『数学辞典』 日本数学会、岩波書店、2007年。
ISBN 9784000803090。
日本規格協会, JIS Z 8101-1:1999 統計−用語と記号−第1部:確率及び一般統計用語, http://kikakurui.com/z8/Z8101-1-1999-01.html
関連項目
- 分散 (確率論)
二乗平均平方根 (RMS)
標準誤差 (SE)- 統計学
- リスク
- 正規分布
- 偏差値
- 四分位偏差
外部リンク
- 日本大百科全書(ニッポニカ)『標準偏差』 - コトバンク
|