Étude
article thumbnail

어떤 두 현상이 서로 관련이 있는지를 알고 싶을 때 사용하는 개념이 있다.

바로 공분산과 상관관계이다.

 

예를 들어, 날씨가 더워질수록 아이스크림 매출이 올라가는 것처럼, 두 가지가 함께 변하는 상황을 종종 볼 수 있다.

이런 ‘같이 움직이는 정도’를 수치로 표현하면 훨씬 명확하게 이해할 수 있다.

 


공분산이란?

참고 !

 

공분산은 두 숫자 집합이 함께 어떻게 변하는지를 나타내는 값이다.

조금 더 쉽게 말하면, “둘이 같이 올라가거나 같이 내려가는 경향이 있는지”를 보는 것이다.

 

예를 들어보자.

어떤 날은 기온이 높고 아이스크림 판매량도 많다.

또 어떤 날은 기온이 낮고 아이스크림 판매량도 적다.

이런 상황에서는 두 데이터가 같이 움직이고 있다고 말할 수 있다.

이럴 때 공분산 값은 양수가 된다.

 

반대로, 기온이 높을수록 옷 판매량이 줄어든다면,

즉 한 쪽이 올라가면 다른 쪽이 내려간다면,

공분산은 음수가 된다.

 

공분산이 0에 가까운 경우는,

기온과 노트북 사이처럼, 거의 관련이 없는 데이터일 수 있다.

 


그런데 공분산에는 단점이 있다

 

공분산은 단위에 영향을 받는다.

예를 들어, 아이스크림 판매량이 ‘개수’가 아니라 ’금액(원)’으로 기록되어 있다면,

값이 훨씬 커져서 공분산도 갑자기 커진다.

이 경우에는 값이 커졌다고 해서 관계가 더 강해졌다고 말할 수는 없다.

 

이 단점을 해결하기 위해 등장한 개념이 상관계수이다.

 


상관계수란?

참고 !

상관계수는 공분산을 일정한 범위로 표준화한 값이다.

값의 범위는 항상 -1부터 1 사이이며,

이 값만 보면 관계가 얼마나 강한지를 쉽게 알 수 있다.

 

 

상관계수 의미
1 완벽하게 같은 방향으로 움직임
0 거의 무관
-1 완벽하게 반대 방향으로 움직임

예를 들어,

-  기온이 오를수록 에어컨 판매가 늘어난다면 → 상관계수는 1에 가까움

- 비 오는 날에는 야외 활동이 줄어든다면 → 상관계수는 -1에 가까움

- 미국주식 주가와 팀장님의 점심 메뉴처럼 아무 관계가 없다면 → 상관계수는 0에 가까움 (관계있나?)

 

공분산과 상관계수는 어떤 차이가 있을까?

항목 공분산 상관계수
의미 같이 움직이는 정도 움직임의 강도를 단위 없이 표현
값의 범위 제한 없음 –1 ~ 1 사이
해석 단위에 따라 달라짐 해석이 직관적임(값이 -1 ~ 1 사이에 분포하므로)

 

2편에서는 실제 수식과 함께 어떻게 계산하는지를 다뤄보겠다.

profile

Étude

@프랑스어전공

https://blog.naver.com/captprice