Data Science/Basic study

이상치 이해와 처리방법 기초

프랑스어전공 2025. 4. 16. 09:34

 

🧾 “마케팅 캠페인 전환율이 92%?”

 

A 쇼핑몰의 마케팅 팀에서, 고객 1000명을 대상으로 메일을 보냈다고 하자.

그런데 한 고객이 이메일을 200번 열고, 클릭도 150번 했다고 한다.

그 결과, 전체 평균 클릭률이 92%까지 치솟았다.

 

이런 경우, 마케팅 담당자는 이렇게 생각할 수 있다.

 

“이 캠페인 완전 성공했네!” 

 

하지만 실제로는 이상하게 튀는 한 명의 행동 때문에 생긴 착각일 수 있다.

이처럼 비즈니스 현장에서는 데이터에 이상치(outlier)가 섞여 있을 수 있고,

이를 제대로 다루지 않으면 잘못된 판단으로 이어질 수 있다.

 


 

🚨 이상치란?

 

이상치란 일반적인 데이터 범위를 벗어난 극단적인 값을 의미한다.

주로 다음과 같은 문제를 일으킨다.

 

  • 평균값을 왜곡시켜 잘못된 의사결정을 유도한다.
  • 예측 모델의 정확도를 떨어뜨릴 수 있다.

 

예를 들어, 고객의 월 평균 구매금액이 5만원인데

한 고객이 1000만원을 결제했다면?

→ 전체 마케팅 전략이 그 고객에 맞춰질 수 있다.

→ 일반 고객과는 맞지 않는 전략이 되어 버린다.

 


 

🔍 이상치는 어떻게 찾을까?

 

 

1. 눈으로 보는 방법 (시각 기반 탐지)

 

  • 박스 플롯(Box Plot)
  • → 평균보다 많이 벗어난 값들을 직관적으로 확인 가능하다.
  • 산점도(Scatter Plot)
  • → 전체 분포에서 멀리 떨어진 점이 이상치일 가능성이 높다.
  • 히스토그램(Histogram)
  • → 특정 구간에서 데이터가 갑자기 줄어드는 지점을 통해 이상치를 탐지할 수 있다.

 

 

2. 수학으로 찾는 방법 (통계 기반 탐지)

  • Z-score 기준
  • 평균으로부터 ±3 표준편차를 넘는 값은 이상치로 간주한다.
  • IQR 기준
  • 사분위 범위(IQR)를 기준으로 Q1 - 1.5×IQR 또는 Q3 + 1.5×IQR을 벗어나는 값이 이상치다.
  • MAD 기준
  • 중위수 기반으로 탐색하며, 평균보다 이상치에 강건하다.

MAD (중앙절대편차) 방식

이상치는 무조건 삭제해야 할까?

 

꼭 그렇지는 않다.

이상치는 중요한 정보일 수도 있기 때문이다.

 

예를 들어,

  • VIP 고객의 구매 패턴은 일반 고객과 달라도, 별도로 분석해야 할 대상일 수 있다.
  • 제조 공정에서 튀는 센서 수치는 장비 이상이나 불량의 신호일 수 있다.

 

여러가지 이상치 처리 방법 

방법 설명 장점 단점
삭제 (Trimming) 이상치를 완전히 제거한다 분석이 깔끔해진다 데이터 손실 발생
값 변경 (Value Modification) 튀는 값을 최대/최소 허용값으로 바꾼다 왜곡 방지 기준 정하기 어렵다
가중치 조정 이상치의 영향력을 줄인다 유연한 대응 가능 복잡할 수 있다
결측값 대체 이상치를 NA로 바꾼 뒤 다른 값으로 채운다 손실 최소화 적절한 대체값 선택 필요
변수화 이상치 여부를 새로운 변수로 만든다 정보 보존 + 분석 정밀도 향상 변수 추가 필요

 

 

처리 방법 선택 추천 

상황 추천방법
데이터가 많고 이상치가 명확함 삭제
데이터가 적고 이상치 영향 최소화 필요 가중치 조정
정규분포가 아님 IQR, MAD
이상치가 의미 있는 정보일 가능성 있음 변수화
자동화된 모델링 파이프라인 값 변경 또는 결



 

끝 ! 

  • 이상치는 모델 왜곡의 원인이 될 수 있지만, 잘 활용하면 중요한 비즈니스 인사이트가 된다.
  • 이상치는 단순히 “지워야 할 값”이 아니다! 데이터 분석의 맥락, 도메인 지식, 분석 목표를 함께 고려해 처리해야 한다!
  • 처리 방법은 단순 삭제부터 변수화까지 분석 목적에 따라 달라져야 한다