Étude
article thumbnail
이상치 이해와 처리방법 기초
Data Science/Basic study 2025. 4. 16. 09:34

🧾 “마케팅 캠페인 전환율이 92%?” A 쇼핑몰의 마케팅 팀에서, 고객 1000명을 대상으로 메일을 보냈다고 하자.그런데 한 고객이 이메일을 200번 열고, 클릭도 150번 했다고 한다.그 결과, 전체 평균 클릭률이 92%까지 치솟았다. 이런 경우, 마케팅 담당자는 이렇게 생각할 수 있다. “이 캠페인 완전 성공했네!” 하지만 실제로는 이상하게 튀는 한 명의 행동 때문에 생긴 착각일 수 있다.이처럼 비즈니스 현장에서는 데이터에 이상치(outlier)가 섞여 있을 수 있고,이를 제대로 다루지 않으면 잘못된 판단으로 이어질 수 있다. 🚨 이상치란? 이상치란 일반적인 데이터 범위를 벗어난 극단적인 값을 의미한다.주로 다음과 같은 문제를 일으킨다. 평균값을 왜곡시켜 잘못된 의사결정을 유도한다.예측 모델..

article thumbnail
데이터 분석의 기법과 프로세스: CRISP-DM, SEMMA, 그리고 그 응용
Data Science/Basic study 2025. 4. 13. 23:24

처음 데이터 분석 프로젝트를 시작할 때, 무엇부터 해야 할지 막막할 수 있습니다. 막연히 “데이터를 분석해야 한다”는 생각만 가지고 시작하면, 어느 시점에선지 무엇을 어떻게 진행해야 할지 혼란스러워지기 마련입니다. 하지만 데이터 분석은 구조적이고 단계적인 접근이 필요합니다. 이 과정에서 중요한 점은 “첫걸음을 잘 내딛는 것”입니다. 이때, 방법론이 도움이 될 수 있습니다. CRISP-DM이나 SEMMA와 같은 체계적인 분석 방법론을 따르는 것이 바로 그 첫걸음을 내딛는 데에 도움이 될 수 있습니다. 이 방법론은 각 단계에서 무엇을 해야 할지 명확히 제시해주므로, 프로젝트를 체계적으로 진행할 수 있도록 돕습니다. 분석 목표부터 데이터 준비, 모델링, 평가, 배포까지, 각 단계마다 필요한 작업을 명확하게 파..

article thumbnail
공분산과 상관계수 쉽게 이해하기 - 수식 없이
Data Science/Basic study 2025. 4. 7. 21:21

어떤 두 현상이 서로 관련이 있는지를 알고 싶을 때 사용하는 개념이 있다.바로 공분산과 상관관계이다. 예를 들어, 날씨가 더워질수록 아이스크림 매출이 올라가는 것처럼, 두 가지가 함께 변하는 상황을 종종 볼 수 있다.이런 ‘같이 움직이는 정도’를 수치로 표현하면 훨씬 명확하게 이해할 수 있다. 공분산이란? 공분산은 두 숫자 집합이 함께 어떻게 변하는지를 나타내는 값이다.조금 더 쉽게 말하면, “둘이 같이 올라가거나 같이 내려가는 경향이 있는지”를 보는 것이다. 예를 들어보자.어떤 날은 기온이 높고 아이스크림 판매량도 많다.또 어떤 날은 기온이 낮고 아이스크림 판매량도 적다.이런 상황에서는 두 데이터가 같이 움직이고 있다고 말할 수 있다.이럴 때 공분산 값은 양수가 된다. 반대로, 기온이 높을수록 옷 판매..

article thumbnail
데이터 분석에서 반드시 알아야 할 학습 방법 4가지
Data Science 2025. 2. 24. 21:06

데이터 분석을 할 때 가장 중요한 질문 중 하나는 “이 데이터를 어떻게 활용해야 할까?” 입니다. 같은 데이터라도 분석 목표와 접근 방식에 따라 적용할 수 있는 기법이 달라집니다. 어떤 데이터는 명확한 정답(Label)이 있어 예측 모델을 만들기 적합하고, 어떤 데이터는 정답이 없지만 숨겨진 패턴을 찾아야 할 수도 있습니다. 또한, 일부 데이터만 라벨이 붙어 있거나, 최적의 의사결정을 반복적으로 내려야 하는 경우도 있습니다. 이러한 다양한 상황에서 지도학습, 비지도학습, 준지도학습, 강화학습은 데이터 분석의 핵심 개념이 됩니다. 이 개념들을 정확히 이해하면, “어떤 데이터에 어떤 방법을 적용해야 할지”를 판단할 수 있고, 분석 결과의 신뢰성을 높이며, 효과적인 비즈니스 인사이트 도출을 도울 수 있습니다...

article thumbnail
PyCaret으로 AutoML 첫걸음 하기
Data Science/Machine Learning 2023. 12. 24. 07:14

autoML 중에서 PyCaret을 가장 선호한다. 이유는 너무나 단순하다. 다른 autoML라이브러리는 설치오류가 잔뜩 났지만 pycaret은 오류가 나지 않기때문. 또한 쓰기 너무나 쉽다. 나중에 잊어먹을 까봐 기록한다. PyCaret은 적은 코드로 머신러닝 워크 플로우를 자동화하는 오픈 소스 라이브러리이다. 머신러닝 모델 개발시 많은 시간을 소요했던 코딩, 전처리, 모델 선택, 파라미터 튜닝 작업을 자동화해주어 쉽고, 높은 생산성의 작업을 가능하게 한다. PyCaret 3.0 - Docs (gitbook.io) 분석은 퇴직 촉발 요인을 발굴하는 프로젝트 였으며 종속변수(퇴직여부)에 가장 영향을 많이 미치는 변수를 찾아내야 하는 것이었다. 따라서, 예측기능은 사용하지 않을것이고 가장 정확도 높은 모델..

article thumbnail
회귀 모델의 성능 평가 지표

회귀 모델(regression model)을 평가할 때 주로 MAE, MSE, RMSE, MAPE 등을 사용 MAE(Mean Absolute Error) = 평균 절대 오차 실제 정답 값과 예측 값의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다. 특이값이 많은 경우에 주로 사용된다. 값이 낮을수록 좋다. 장점 직관점임 정답 및 예측 값과 같은 단위를 가짐 단점 실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦 스케일 의존적임(scal dependency): 모델마다 에류 크기가 동일해도 에러율은 동일하지 않음 MSE(Mean Squared Error) = 평균 제곱 오차 실제 정답 값과 예측 값의 차이를 제곱한 뒤 평균을 구한다. 값이 낮을수록 좋다. 장점 직관적임 단점 제곱하기 때문에..

article thumbnail
시계열 분석 개요 및 기초
Data Science/Basic study 2023. 9. 21. 18:02

시계열 데이터의 속성 시계열(종단면) 데이터 vs 비시계열(횡단면) 데이터 시계열 데이터의 특징 계절성(s) 추세성(t) 반복성(r) 순환성(c) 자기상관성(Autocorrelation): 횡단면 데이터의 가정 (i.i.d.) = individually and independently distributed, 각 데이터 포인트는 각각 독립 정상성(定常, stationarity) 단위근(Unit Root) 존재여부 검정 KPSS(Kwiatkowski-Phillips-Schmidt-Shin Test) 검정: (H0) 단위근이 존재하지 않을 것이다 ADF(Augemented Dickey-Fullter Test) 검정: (H0) 단위근이 존재할 것이다 등분산성(or 이분산성, Heteroskedasticity) ..

article thumbnail
PCA(주성분분석) 이란
Data Science/Basic study 2023. 9. 14. 16:59

주성분분석 여러 특성(feature) 가운데 대표 특성을 찾아 분석하는 방식으로, 대표 특성의 선별은 자료의 차원을 고차원에서 하위 차원으로 축소하는(차원축소) 기법을 활용한다. 차원축소기법에 대한 이해가 주성분 분석의 시작이자 끝이며 여기서는 2차원을 1차원으로 축소하는 범위로 한정해 설명하고자 한다. 분산, 차원축소를 위한 주성분의 선택 기준 위 그림과 같이 차원축소를 위한 정사영의 시작은 무엇을 기준으로 선택되는 것일까? 선택에 따라 데이터의 실제 특성을 보존할 수도 있고 반대로 잃을 수도 있다. C1을 참고하면 우린 자연스럽게 데이터 간 거리가 가장 큰 쪽이 가장 강력한 데이터 변화 방향이란 사실을 직관적으로 이해할 수 있다. 결국 주성분 선택에 있어 최초로 고려되는 요소는 분산이 가장 큰 하나의..

article thumbnail
손실함수(Loss function)과 경사하강법(Gradient Descent) θ 업데이트 풀이
Data Science/Basic study 2023. 8. 24. 18:29

Loss function 손실 함수는 주로 가설 함수를 평가하기 위한 함수로 사용된다. 만약 손실 함수의 아웃풋이 작을수록 가설 함수의 손실이 적을 때 더 좋은 가설 함수로 판단할 수 있다. 그러나 반대로 손실 함수의 아웃풋이 클수록 가설 함수의 손실이 크므로 더 나쁜 가설 함수로 볼 수 있다. 일반적으로 선형 회귀에서는 평균 제곱 오차가 손실 함수의 아웃풋으로 사용된다 만약 특정 가설 함수의 평균 제곱 오차가 크다면 손실 함수의 아웃풋도 커지므로 해당 가설 함수는 좋지 않다는 것을 알 수 있다. 반대로 가설 함수의 평균 제곱 오차가 작다면 손실 함수의 아웃풋도 작아지므로 좋은 가설 함수로 판단할 수 있다. 특히 선형 회귀에서는 손실 함수 J의 인풋으로 세타를 사용한다. 가설 함수에서 조절 가능한 값은 ..

article thumbnail
추천 시스템의 기본 - 협업필터링(Collaborative Filtering)

Mes itinéraires : 네이버 블로그 (naver.com) 협업 필터링, 당신의 추천 영화는? 협업 필터링의 이해 협업 필터링(collaborative filtering)은 다수의 사용자들로부터 얻은 기호정보(taste information)를 기반으로 사용자들의 관심사를 자동적으로 예측하는 기법입니다. 협업 필터링 접근법은 사용자들의 과거 경향이 미래에도 유지될 것이라고 가정합니다. 예를 들어, 음악 추천 시스템에서 협업 필터링은 사용자들의 기호(좋아함, 싫어함)에 대한 부분적인 목록을 이용하여 해당 사용자의 음악 기호를 예측합니다. 이 시스템의 특징은 특정 사용자의 정보에만 초점을 맞추는 것이 아니라 다수의 사용자들로부터 수집한 정보를 활용한다는 점입니다. 이는 각 아이템에 대한 관심사에 평..