어떤 두 현상이 서로 관련이 있는지를 알고 싶을 때 사용하는 개념이 있다.
바로 공분산과 상관관계이다.
예를 들어, 날씨가 더워질수록 아이스크림 매출이 올라가는 것처럼, 두 가지가 함께 변하는 상황을 종종 볼 수 있다.
이런 ‘같이 움직이는 정도’를 수치로 표현하면 훨씬 명확하게 이해할 수 있다.
공분산이란?
공분산은 두 숫자 집합이 함께 어떻게 변하는지를 나타내는 값이다.
조금 더 쉽게 말하면, “둘이 같이 올라가거나 같이 내려가는 경향이 있는지”를 보는 것이다.
예를 들어보자.
어떤 날은 기온이 높고 아이스크림 판매량도 많다.
또 어떤 날은 기온이 낮고 아이스크림 판매량도 적다.
이런 상황에서는 두 데이터가 같이 움직이고 있다고 말할 수 있다.
이럴 때 공분산 값은 양수가 된다.
반대로, 기온이 높을수록 옷 판매량이 줄어든다면,
즉 한 쪽이 올라가면 다른 쪽이 내려간다면,
공분산은 음수가 된다.
공분산이 0에 가까운 경우는,
기온과 노트북 사이처럼, 거의 관련이 없는 데이터일 수 있다.
그런데 공분산에는 단점이 있다
공분산은 단위에 영향을 받는다.
예를 들어, 아이스크림 판매량이 ‘개수’가 아니라 ’금액(원)’으로 기록되어 있다면,
값이 훨씬 커져서 공분산도 갑자기 커진다.
이 경우에는 값이 커졌다고 해서 관계가 더 강해졌다고 말할 수는 없다.
이 단점을 해결하기 위해 등장한 개념이 상관계수이다.
상관계수란?
상관계수는 공분산을 일정한 범위로 표준화한 값이다.
값의 범위는 항상 -1부터 1 사이이며,
이 값만 보면 관계가 얼마나 강한지를 쉽게 알 수 있다.
상관계수 | 값의미 |
1 | 완벽하게 같은 방향으로 움직임 |
0 | 거의 무관 |
-1 | 완벽하게 반대 방향으로 움직임 |
예를 들어,
- 기온이 오를수록 에어컨 판매가 늘어난다면 → 상관계수는 1에 가까움
- 비 오는 날에는 야외 활동이 줄어든다면 → 상관계수는 -1에 가까움
- 미국주식 주가와 팀장님의 점심 메뉴처럼 아무 관계가 없다면 → 상관계수는 0에 가까움 (관계있나?)
공분산과 상관계수는 어떤 차이가 있을까?
항목 | 공분산 | 상관계수 |
의미 | 같이 움직이는 정도 | 움직임의 강도를 단위 없이 표현 |
값의 범위 | 제한 없음 | –1 ~ 1 사이 |
해석 | 단위에 따라 달라짐 | 해석이 직관적임(값이 -1 ~ 1 사이에 분포하므로) |
2편에서는 실제 수식과 함께 어떻게 계산하는지를 다뤄보겠다.
'Data Science > Basic study' 카테고리의 다른 글
이상치 이해와 처리방법 기초 (0) | 2025.04.16 |
---|---|
데이터 분석의 기법과 프로세스: CRISP-DM, SEMMA, 그리고 그 응용 (0) | 2025.04.13 |
시계열 분석 개요 및 기초 (0) | 2023.09.21 |
PCA(주성분분석) 이란 (0) | 2023.09.14 |
손실함수(Loss function)과 경사하강법(Gradient Descent) θ 업데이트 풀이 (0) | 2023.08.24 |