관리 메뉴

Storage Gonie

공분산(covariance) & 상관계수(correlation coefficient) 본문

데이터 사이언스/수학(미분, 통계)

공분산(covariance) & 상관계수(correlation coefficient)

Storage Gonie 2019. 6. 22. 09:24
반응형

공분산

# 개념
앞서 분산이란걸 공부할때 분산은 한 변수의 평균에 대해서 각 값이 얼마나 떨어져 있었는지를 수치화 한것이라면 공분산은 두 변수가 각각의 평균에 대해서 얼마나 떨어져 있는지를 수치화 한것이라 할 수 있다.


#공분산을 구하는 예시

두 속성 x, y에 대한 값이 다음과 같다고 해보자 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1)

#공분산 값의 해석

Cov(X, Y) > 0    X가 증가 할 때 Y도 증가한다.(양의 상관관계)

Cov(X, Y) < 0    X가 증가 할 때 Y는 감소한다.(음의 상관관계)

Cov(X, Y) = 0   공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음

#공분산의 한계

공분산은 값의 범위가 정해져 있지 않아서 어떤 값을 기준으로 정하기 애매하다. 그리하여 공분산의 값을 정규화하여 특정 범위에서만 나오게 하는 상관계수라는 개념이 나왔다.

상관계수

# 개념
위에서 말한 공분산의 한계를 보완하기 위해 공분산을 정규화하여 그 결과가  -1 ~ 1 범위에서 나오게 한것. 상관관계를 나타내는 상관계수는 피어슨, 스피어만, 켄달 등 여러가지가 있으나 가장 많이 사용하는 것은 피어슨 상관계수이다.

#피어슨 상관계수를 구하는 예시

두 속성 x, y에 대한 값이 위의 문제와 같은 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1) 이라고 해보자

#상관관계 값 해석

일반적으로 상관계수의 절대값이 0.3보다 작으면 약한 관계로, 0.7보다 크면 강한 관계로 해석한다.

Cor(X, Y) > 0    X가 증가 할 때 Y도 증가한다.(양의 상관관계)

Cor(X, Y) < 0    X가 증가 할 때 Y는 감소한다.(음의 상관관계)

Cor(X, Y) = 0   공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음

Cor(X, Y) = 1    X와 Y가 동일한 값을 가진다.

Cor(X, Y) = -1  X와 Y가 반대 방향으로 동일한 값을 가진다.

 

반응형
Comments