2018년 10월 31일 수요일

Covariance and Correlation coefficient note (공분산, 상관계수)

Covariance (공분산)

  • 두 개의 데이터 셋트의 상관관계를 나타내는 지표
  • 두 개의 데이터 셋트가 서로 동일하게 증가하는지 감소하는지 정도의 경향 정도는 유추할 수 있음.

Formula: 

  • 그러나 covariance 는 normalize 가 되어있지 않기 때문에 그 크기로써 의미를 찾아내기란 쉽지 않다.


Correlation coefficient (상관관계계수)

  • Covariance 를 단위와 무관하게 표준편차 (standard devition) 로 정규화 (Normalization) 시킨 것.
Formula: 

  • Correlation 은 -1 ~ +1 사이의 값을 가지며, +1 이나 -1 로 갈수록 선형적인 관계를 가지며, 0으로 갈수록 무관한 관계를 가짐. (Fig. 참고)

Fig. Several sets of (x,y) points with Pearson correlation coefficient of x and y for each set. (Source: en.wikipedia.org/wiki/Correlation_and_dependence)