공분산(covariance) & 상관계수(correlation coefficient)
공분산
# 개념
앞서 분산이란걸 공부할때 분산은 한 변수의 평균에 대해서 각 값이 얼마나 떨어져 있었는지를 수치화 한것이라면 공분산은 두 변수가 각각의 평균에 대해서 얼마나 떨어져 있는지를 수치화 한것이라 할 수 있다.
#공분산을 구하는 예시
두 속성 x, y에 대한 값이 다음과 같다고 해보자 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1)
#공분산 값의 해석
Cov(X, Y) > 0 X가 증가 할 때 Y도 증가한다.(양의 상관관계)
Cov(X, Y) < 0 X가 증가 할 때 Y는 감소한다.(음의 상관관계)
Cov(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음
#공분산의 한계
공분산은 값의 범위가 정해져 있지 않아서 어떤 값을 기준으로 정하기 애매하다. 그리하여 공분산의 값을 정규화하여 특정 범위에서만 나오게 하는 상관계수라는 개념이 나왔다.
상관계수
# 개념
위에서 말한 공분산의 한계를 보완하기 위해 공분산을 정규화하여 그 결과가 -1 ~ 1 범위에서 나오게 한것. 상관관계를 나타내는 상관계수는 피어슨, 스피어만, 켄달 등 여러가지가 있으나 가장 많이 사용하는 것은 피어슨 상관계수이다.
#피어슨 상관계수를 구하는 예시
두 속성 x, y에 대한 값이 위의 문제와 같은 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1) 이라고 해보자
#상관관계 값 해석
일반적으로 상관계수의 절대값이 0.3보다 작으면 약한 관계로, 0.7보다 크면 강한 관계로 해석한다.
Cor(X, Y) > 0 X가 증가 할 때 Y도 증가한다.(양의 상관관계)
Cor(X, Y) < 0 X가 증가 할 때 Y는 감소한다.(음의 상관관계)
Cor(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음
Cor(X, Y) = 1 X와 Y가 동일한 값을 가진다.
Cor(X, Y) = -1 X와 Y가 반대 방향으로 동일한 값을 가진다.