Data Science/Basic study
이상치 이해와 처리방법 기초
프랑스어전공
2025. 4. 16. 09:34
🧾 “마케팅 캠페인 전환율이 92%?”
A 쇼핑몰의 마케팅 팀에서, 고객 1000명을 대상으로 메일을 보냈다고 하자.
그런데 한 고객이 이메일을 200번 열고, 클릭도 150번 했다고 한다.
그 결과, 전체 평균 클릭률이 92%까지 치솟았다.
이런 경우, 마케팅 담당자는 이렇게 생각할 수 있다.
“이 캠페인 완전 성공했네!”
하지만 실제로는 이상하게 튀는 한 명의 행동 때문에 생긴 착각일 수 있다.
이처럼 비즈니스 현장에서는 데이터에 이상치(outlier)가 섞여 있을 수 있고,
이를 제대로 다루지 않으면 잘못된 판단으로 이어질 수 있다.
🚨 이상치란?
이상치란 일반적인 데이터 범위를 벗어난 극단적인 값을 의미한다.
주로 다음과 같은 문제를 일으킨다.
- 평균값을 왜곡시켜 잘못된 의사결정을 유도한다.
- 예측 모델의 정확도를 떨어뜨릴 수 있다.
예를 들어, 고객의 월 평균 구매금액이 5만원인데
한 고객이 1000만원을 결제했다면?
→ 전체 마케팅 전략이 그 고객에 맞춰질 수 있다.
→ 일반 고객과는 맞지 않는 전략이 되어 버린다.
🔍 이상치는 어떻게 찾을까?
1. 눈으로 보는 방법 (시각 기반 탐지)
- 박스 플롯(Box Plot)
- → 평균보다 많이 벗어난 값들을 직관적으로 확인 가능하다.
- 산점도(Scatter Plot)
- → 전체 분포에서 멀리 떨어진 점이 이상치일 가능성이 높다.
- 히스토그램(Histogram)
- → 특정 구간에서 데이터가 갑자기 줄어드는 지점을 통해 이상치를 탐지할 수 있다.
2. 수학으로 찾는 방법 (통계 기반 탐지)
- Z-score 기준
- 평균으로부터 ±3 표준편차를 넘는 값은 이상치로 간주한다.
- IQR 기준
- 사분위 범위(IQR)를 기준으로 Q1 - 1.5×IQR 또는 Q3 + 1.5×IQR을 벗어나는 값이 이상치다.
- MAD 기준
- 중위수 기반으로 탐색하며, 평균보다 이상치에 강건하다.
이상치는 무조건 삭제해야 할까?
꼭 그렇지는 않다.
이상치는 중요한 정보일 수도 있기 때문이다.
예를 들어,
- VIP 고객의 구매 패턴은 일반 고객과 달라도, 별도로 분석해야 할 대상일 수 있다.
- 제조 공정에서 튀는 센서 수치는 장비 이상이나 불량의 신호일 수 있다.
여러가지 이상치 처리 방법
방법 | 설명 | 장점 | 단점 |
삭제 (Trimming) | 이상치를 완전히 제거한다 | 분석이 깔끔해진다 | 데이터 손실 발생 |
값 변경 (Value Modification) | 튀는 값을 최대/최소 허용값으로 바꾼다 | 왜곡 방지 | 기준 정하기 어렵다 |
가중치 조정 | 이상치의 영향력을 줄인다 | 유연한 대응 가능 | 복잡할 수 있다 |
결측값 대체 | 이상치를 NA로 바꾼 뒤 다른 값으로 채운다 | 손실 최소화 | 적절한 대체값 선택 필요 |
변수화 | 이상치 여부를 새로운 변수로 만든다 | 정보 보존 + 분석 정밀도 향상 | 변수 추가 필요 |
처리 방법 선택 추천
상황 | 추천방법 |
데이터가 많고 이상치가 명확함 | 삭제 |
데이터가 적고 이상치 영향 최소화 필요 | 가중치 조정 |
정규분포가 아님 | IQR, MAD |
이상치가 의미 있는 정보일 가능성 있음 | 변수화 |
자동화된 모델링 파이프라인 | 값 변경 또는 결 |
끝 !
- 이상치는 모델 왜곡의 원인이 될 수 있지만, 잘 활용하면 중요한 비즈니스 인사이트가 된다.
- 이상치는 단순히 “지워야 할 값”이 아니다! 데이터 분석의 맥락, 도메인 지식, 분석 목표를 함께 고려해 처리해야 한다!
- 처리 방법은 단순 삭제부터 변수화까지 분석 목적에 따라 달라져야 한다