평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.
확률론 과 통계학 에서 어떤 확률변수 의 분산 (分散, 영어 : variance ,
Var
{\displaystyle \operatorname {Var} }
)은 그 확률변수가 기댓값 으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[ 1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균 이나 분산의 제곱근 인 표준편차 와 보다 밀접한 관련이 있다.
분산 (variance)은 관측값에서 평균 을 뺀 값을 제곱 하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
모분산 (population variance) σ2 은 모집단 의 분산이다. 관측값에서 모 평균 을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
표본분산 (sample variance) s2 은 표본 의 분산이다. 관측값에서 표본 평균 을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
확률변수
X
{\displaystyle X}
의 분산은
X
{\displaystyle X}
의 기댓값
μ
=
E
[
X
]
{\displaystyle \mu =\operatorname {E} [X]}
로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.
Var
(
X
)
=
E
[
(
X
−
μ
)
2
]
{\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}
이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.
Var
(
X
)
=
E
[
(
X
−
E
[
X
]
)
2
]
=
E
[
X
2
−
2
X
E
[
X
]
+
E
[
X
]
2
]
=
E
[
X
2
]
−
2
E
[
X
]
E
[
X
]
+
E
[
X
]
2
=
E
[
X
2
]
−
E
[
X
]
2
{\displaystyle {\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}}
따라서 확률변수
X
{\displaystyle X}
의 분산은
X
{\displaystyle X}
제곱의 기댓값에서
X
{\displaystyle X}
기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.
이 정의는 이산확률변수 , 연속확률변수 , 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산 을 사용해 다음과 같이 나타내기도 한다.
Var
(
X
)
=
Cov
(
X
,
X
)
{\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)}
분산은 보통
var
(
X
)
{\displaystyle \operatorname {var} (X)}
또는
σ
X
2
{\displaystyle \sigma _{X}^{2}}
, 혹은 간단히
σ
2
{\displaystyle \sigma ^{2}\,}
으로 표현한다.
σ
{\displaystyle \sigma \,}
는 표준편차 를 가리킨다.[ 1]
만일 확률 변수
X
{\displaystyle X}
의 생성 원리가
x
1
↦
p
1
,
x
2
↦
p
2
,
…
,
x
n
↦
p
n
{\displaystyle x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}}
의 확률 질량 함수 를 따르는 이산확률분포 라면, 분산은 다음과 같이 정의할 수 있다.
Var
(
X
)
=
∑
i
=
1
n
p
i
⋅
(
x
i
−
μ
)
2
{\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}}
이와 다음의 식은 동치이다.
Var
(
X
)
=
(
∑
i
=
1
n
p
i
x
i
2
)
−
μ
2
{\displaystyle \operatorname {Var} (X)=\left(\sum _{i=1}^{n}p_{i}x_{i}^{2}\right)-\mu ^{2}}
이 때
μ
=
∑
i
=
1
n
p
i
x
i
{\displaystyle \mu =\sum _{i=1}^{n}p_{i}x_{i}}
는 기댓값을 의미한다. 이 가중 산술 평균 에 사용되는 가중치 p 의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.
n
{\displaystyle n}
번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.
Var
(
X
)
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
=
(
1
n
∑
i
=
1
n
x
i
2
)
−
μ
2
{\displaystyle \operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu ^{2}}
여기서
μ
=
1
n
∑
i
=
1
n
x
i
{\displaystyle \mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[ 2]
Var
(
X
)
=
1
n
2
∑
i
=
1
n
∑
j
=
1
n
1
2
(
x
i
−
x
j
)
2
=
1
n
2
∑
i
∑
j
>
i
(
x
i
−
x
j
)
2
.
{\displaystyle \operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})^{2}.}
만일 확률 변수
X
{\displaystyle X}
의 생성 원리가 확률 밀도 함수
f
(
x
)
{\displaystyle f(x)}
와 누적 분포 함수
F
(
x
)
{\displaystyle F(x)}
를 따르는 연속확률분포 라면, 분산은 다음과 같이 구할 수 있다.
Var
(
X
)
=
σ
2
=
∫
R
(
x
−
μ
)
2
f
(
x
)
d
x
=
∫
R
x
2
f
(
x
)
d
x
−
2
μ
∫
R
x
f
(
x
)
d
x
+
μ
2
∫
R
f
(
x
)
d
x
=
∫
R
x
2
d
F
(
x
)
−
2
μ
∫
R
x
d
F
(
x
)
+
μ
2
∫
R
d
F
(
x
)
=
∫
R
x
2
d
F
(
x
)
−
2
μ
⋅
μ
+
μ
2
⋅
1
=
∫
R
x
2
d
F
(
x
)
−
μ
2
{\displaystyle {\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2}\end{aligned}}}
이는 확률 밀도 함수
f
(
x
)
{\displaystyle f(x)}
를 이용해 다음과 같이 적을 수 있다.
Var
(
X
)
=
∫
R
x
2
f
(
x
)
d
x
−
μ
2
{\displaystyle \operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2}}
여기서
μ
=
∫
R
x
f
(
x
)
d
x
=
∫
R
x
d
F
(
x
)
{\displaystyle \mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x)}
는 확률 변수
X
{\displaystyle X}
의 기댓값이다.
여기서
d
x
{\displaystyle dx}
에 대한 적분은 르베그 적분 을,
d
F
(
x
)
{\displaystyle dF(x)}
에 대한 적분은 르베그-스틸티어스 적분 을 의미한다.
만일
x
2
f
(
x
)
{\displaystyle x^{2}f(x)}
가 모든 폐구간
[
a
,
b
]
⊂
R
{\displaystyle [a,b]\subset \mathbb {R} }
에서 리만 적분 가능한 함수라면 분산은 이상 적분 을 통해 다음과 같이 서술할 수 있다.
Var
(
X
)
=
∫
−
∞
+
∞
x
2
f
(
x
)
d
x
−
μ
2
{\displaystyle \operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2}}
어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.
Var
(
X
)
≥
0
{\displaystyle \operatorname {Var} (X)\geq 0}
상수 하나로 이루어진 변수는 평균이 모든 항목의 값과 동일하므로 0의 분산을 가진다.
Var
(
a
)
=
0
{\displaystyle \operatorname {Var} (a)=0}
이 역도 성립하여, 만일 어떤 확률변수
X
{\displaystyle X}
에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.
Var
(
X
)
=
0
⟺
∃
a
:
P
(
X
=
a
)
=
1
{\displaystyle \operatorname {Var} (X)=0\iff \exists a:P(X=a)=1}
전체 집단의 값이 b 만큼 이동해 X + b 가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a 를 곱하면 분산은 a 2 배가 된다. 식으로 쓰면 다음과 같다.
Var
(
a
X
+
b
)
=
a
2
Var
(
X
)
{\displaystyle \operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)}
두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.
Var
(
a
X
+
b
Y
)
=
a
2
Var
(
X
)
+
b
2
Var
(
Y
)
+
2
a
b
Cov
(
X
,
Y
)
{\displaystyle \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)}
이 때
Cov
(
X
,
Y
)
{\displaystyle \operatorname {Cov} (X,Y)}
는 X 와 Y 의 공분산 을 나타낸다. 이를 N 개의 확률변수
{
X
1
,
…
,
X
N
}
{\displaystyle \{X_{1},\dots ,X_{N}\}}
의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.
Var
(
∑
i
=
1
N
a
i
X
i
)
=
∑
i
,
j
=
1
N
a
i
a
j
Cov
(
X
i
,
X
j
)
=
∑
i
=
1
N
a
i
2
Var
(
X
i
)
+
∑
i
≠
j
a
i
a
j
Cov
(
X
i
,
X
j
)
=
∑
i
=
1
N
a
i
2
Var
(
X
i
)
+
2
∑
1
≤
i
<
j
≤
N
a
i
a
j
Cov
(
X
i
,
X
j
)
.
{\displaystyle {\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}}
만일 확률 변수
X
1
,
…
,
X
N
{\displaystyle X_{1},\dots ,X_{N}}
가 서로 비상관 관계라면 다음의 성질을 만족한다.
Cov
(
X
i
,
X
j
)
=
0
,
∀
(
i
≠
j
)
{\displaystyle \operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j)}
이는 곧 다음을 의미한다.
Var
(
∑
i
=
1
N
X
i
)
=
∑
i
=
1
N
Var
(
X
i
)
{\displaystyle \operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {Var} (X_{i})}
상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.
분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차 를 주로 쓴다.
모집단의 분산은
σ
2
{\displaystyle \sigma ^{2}}
로 나타내고, 표본의 분산은
s
2
{\displaystyle s^{2}}
로 나타낸다.
s
2
{\displaystyle s^{2}}
은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치인 표본 분산
s
2
{\displaystyle s^{2}}
는 다음과 같다.
s
2
=
Σ
(
y
−
y
¯
)
2
n
−
1
=
S
S
d
f
{\displaystyle s^{2}={\frac {\Sigma (y-{\overline {y}})^{2}}{n-1}}={\frac {SS}{df}}}
s
2
{\displaystyle s^{2}}
: 표본 분산
y
{\displaystyle y}
: 변인
y
¯
{\displaystyle {\overline {y}}}
: 표본의 평균
n
{\displaystyle n}
: 표본의 크기
S
S
{\displaystyle SS}
: 편차들의 제곱합
d
f
{\displaystyle df}
: 자유도
분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의 추정량 (biased estimator)이 되므로, 분산이 불편 추정량 (unbiased estimator)이 되도록 하기 위해서이다.[ 1]
σ
2
=
∑
(
Y
i
−
μ
¯
)
2
N
{\displaystyle \sigma ^{2}={{\sum (Y_{i}-{\overline {\mu }})^{2}} \over {N}}}
σ
2
{\displaystyle \sigma ^{2}}
모집단의 분산(모 분산)
Y
{\displaystyle Y}
: 변인
μ
¯
{\displaystyle {\overline {\mu }}}
: 모집단의 평균
N
{\displaystyle N}
: 표본의 크기
모집단의 모분산
σ
2
{\displaystyle \sigma ^{2}}
으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 표준 편차
σ
{\displaystyle \sigma }
를 얻을수있다.
σ
2
=
σ
{\displaystyle {\sqrt {\sigma ^{2}}}=\sigma }
표본집단의 표본분산
s
2
{\displaystyle s^{2}}
으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 표준 편차
s
{\displaystyle s}
를 얻을수있다.
s
2
=
s
{\displaystyle {\sqrt {s^{2}}}=s}
컴퓨터 프로그램의 대표적인 경우에서 스프레드시트 는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.
↑ 가 나 다 이재기; 최석근; 박경식; 정성혁 (2013). 《측량학1》 2판. 형설출판사. 76쪽.
↑ Yuli Zhang, Huaiyu Wu, Lei Cheng (June 2012). 《Some new deformation formulas about variance and covariance》. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). 987–992쪽.