일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- c++
- EOF
- double ended queue
- 알고리즘 공부방법
- scanf
- 자료구조
- 프레임워크와 라이브러리의 차이
- 매크로
- 입출력 패턴
- iOS14
- vscode
- string 메소드
- Django Nodejs 차이점
- correlation coefficient
- Django의 편의성
- 입/출력
- UI한글변경
- 연결요소
- string 함수
- 표준 입출력
- k-eta
- getline
- 시간복잡도
- 이분그래프
- 엑셀
- 2557
- 장고란
- 구조체와 클래스의 공통점 및 차이점
- Django란
- 백준
- Today
- Total
Storage Gonie
공분산(covariance) & 상관계수(correlation coefficient) 본문
공분산(covariance) & 상관계수(correlation coefficient)
Storage Gonie 2019. 6. 22. 09:24공분산
# 개념
앞서 분산이란걸 공부할때 분산은 한 변수의 평균에 대해서 각 값이 얼마나 떨어져 있었는지를 수치화 한것이라면 공분산은 두 변수가 각각의 평균에 대해서 얼마나 떨어져 있는지를 수치화 한것이라 할 수 있다.
#공분산을 구하는 예시
두 속성 x, y에 대한 값이 다음과 같다고 해보자 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1)
#공분산 값의 해석
Cov(X, Y) > 0 X가 증가 할 때 Y도 증가한다.(양의 상관관계)
Cov(X, Y) < 0 X가 증가 할 때 Y는 감소한다.(음의 상관관계)
Cov(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음
#공분산의 한계
공분산은 값의 범위가 정해져 있지 않아서 어떤 값을 기준으로 정하기 애매하다. 그리하여 공분산의 값을 정규화하여 특정 범위에서만 나오게 하는 상관계수라는 개념이 나왔다.
상관계수
# 개념
위에서 말한 공분산의 한계를 보완하기 위해 공분산을 정규화하여 그 결과가 -1 ~ 1 범위에서 나오게 한것. 상관관계를 나타내는 상관계수는 피어슨, 스피어만, 켄달 등 여러가지가 있으나 가장 많이 사용하는 것은 피어슨 상관계수이다.
#피어슨 상관계수를 구하는 예시
두 속성 x, y에 대한 값이 위의 문제와 같은 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1) 이라고 해보자
#상관관계 값 해석
일반적으로 상관계수의 절대값이 0.3보다 작으면 약한 관계로, 0.7보다 크면 강한 관계로 해석한다.
Cor(X, Y) > 0 X가 증가 할 때 Y도 증가한다.(양의 상관관계)
Cor(X, Y) < 0 X가 증가 할 때 Y는 감소한다.(음의 상관관계)
Cor(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음
Cor(X, Y) = 1 X와 Y가 동일한 값을 가진다.
Cor(X, Y) = -1 X와 Y가 반대 방향으로 동일한 값을 가진다.