Étude
article thumbnail
이상치 이해와 처리방법 기초
Data Science/Basic study 2025. 4. 16. 09:34

🧾 “마케팅 캠페인 전환율이 92%?” A 쇼핑몰의 마케팅 팀에서, 고객 1000명을 대상으로 메일을 보냈다고 하자.그런데 한 고객이 이메일을 200번 열고, 클릭도 150번 했다고 한다.그 결과, 전체 평균 클릭률이 92%까지 치솟았다. 이런 경우, 마케팅 담당자는 이렇게 생각할 수 있다. “이 캠페인 완전 성공했네!” 하지만 실제로는 이상하게 튀는 한 명의 행동 때문에 생긴 착각일 수 있다.이처럼 비즈니스 현장에서는 데이터에 이상치(outlier)가 섞여 있을 수 있고,이를 제대로 다루지 않으면 잘못된 판단으로 이어질 수 있다. 🚨 이상치란? 이상치란 일반적인 데이터 범위를 벗어난 극단적인 값을 의미한다.주로 다음과 같은 문제를 일으킨다. 평균값을 왜곡시켜 잘못된 의사결정을 유도한다.예측 모델..

article thumbnail
데이터 분석의 기법과 프로세스: CRISP-DM, SEMMA, 그리고 그 응용
Data Science/Basic study 2025. 4. 13. 23:24

처음 데이터 분석 프로젝트를 시작할 때, 무엇부터 해야 할지 막막할 수 있습니다. 막연히 “데이터를 분석해야 한다”는 생각만 가지고 시작하면, 어느 시점에선지 무엇을 어떻게 진행해야 할지 혼란스러워지기 마련입니다. 하지만 데이터 분석은 구조적이고 단계적인 접근이 필요합니다. 이 과정에서 중요한 점은 “첫걸음을 잘 내딛는 것”입니다. 이때, 방법론이 도움이 될 수 있습니다. CRISP-DM이나 SEMMA와 같은 체계적인 분석 방법론을 따르는 것이 바로 그 첫걸음을 내딛는 데에 도움이 될 수 있습니다. 이 방법론은 각 단계에서 무엇을 해야 할지 명확히 제시해주므로, 프로젝트를 체계적으로 진행할 수 있도록 돕습니다. 분석 목표부터 데이터 준비, 모델링, 평가, 배포까지, 각 단계마다 필요한 작업을 명확하게 파..

article thumbnail
공분산과 상관계수 쉽게 이해하기 - 수식 없이
Data Science/Basic study 2025. 4. 7. 21:21

어떤 두 현상이 서로 관련이 있는지를 알고 싶을 때 사용하는 개념이 있다.바로 공분산과 상관관계이다. 예를 들어, 날씨가 더워질수록 아이스크림 매출이 올라가는 것처럼, 두 가지가 함께 변하는 상황을 종종 볼 수 있다.이런 ‘같이 움직이는 정도’를 수치로 표현하면 훨씬 명확하게 이해할 수 있다. 공분산이란? 공분산은 두 숫자 집합이 함께 어떻게 변하는지를 나타내는 값이다.조금 더 쉽게 말하면, “둘이 같이 올라가거나 같이 내려가는 경향이 있는지”를 보는 것이다. 예를 들어보자.어떤 날은 기온이 높고 아이스크림 판매량도 많다.또 어떤 날은 기온이 낮고 아이스크림 판매량도 적다.이런 상황에서는 두 데이터가 같이 움직이고 있다고 말할 수 있다.이럴 때 공분산 값은 양수가 된다. 반대로, 기온이 높을수록 옷 판매..

article thumbnail
WHERE 절과 HAVING 절의 차이점
Programme/SQL 2025. 3. 1. 20:18

SQL에서 데이터를 필터링할 때 가장 많이 사용하는 두 가지 방법이 WHERE 절과 HAVING 절입니다.이 두 절은 모두 특정 조건을 만족하는 데이터를 추출하는 역할을 하지만, 적용 방식과 위치에 차이가 있습니다. 1. WHERE 절 (WHERE Clause) WHERE 절이란? WHERE 절은 각 개별 행(row)에 대해 조건을 검사하여, 해당 조건을 만족하는 행만 필터링하는 역할을 합니다.주로 SELECT, UPDATE, DELETE, INSERT 문에서 사용되며, GROUP BY 절이 있다면 그 이전에 위치해야 합니다. WHERE 절 사용법 일반적으로 WHERE 절에서는 비교 연산자 (>, 패턴 매칭 (LIKE) 등을 사용할 수 있습니다. ① SELECT 문에서의 사용 예시SELECT order_..

article thumbnail
Python으로 BigQuery에 데이터 업로드 & Tableau 연결하기
산업&직무 분석, etc 2025. 2. 27. 00:58

MongoDB에 적재되어 있는 데이터를 실시간 대시보드로 제작해야 하는 과제가 주어졌다. 실시간까지는 아니더라도 주기적인 업데이트가 가능해야 했고, 다양한 분석이 용이하도록 설계해야만 했다. MongoDB 데이터를 그대로 시각화에 사용할 수 없다는 문제가 있었다.  데이터를 정리하고 가공한 후, SQL 기반의 환경으로 옮겨야 했다. 결국 BigQuery에 적재하고, Tableau와 연동하는 흐름을 구축하는 것이 최선의 방법이었다. 모든 것이 새로운 것 투성이었지만.. 문제를 해결해 나가는 재미도 있었다.  데이터를 효과적으로 분석하고 시각화하려면, 비정형 데이터를 정형화된 분석 환경으로 변환하는 과정이 필수적이다. 특히, NoSQL 데이터베이스인 MongoDB에서 수집된 데이터를 SQL베이스인 BigQu..

article thumbnail
데이터 분석에서 반드시 알아야 할 학습 방법 4가지
Data Science 2025. 2. 24. 21:06

데이터 분석을 할 때 가장 중요한 질문 중 하나는 “이 데이터를 어떻게 활용해야 할까?” 입니다. 같은 데이터라도 분석 목표와 접근 방식에 따라 적용할 수 있는 기법이 달라집니다. 어떤 데이터는 명확한 정답(Label)이 있어 예측 모델을 만들기 적합하고, 어떤 데이터는 정답이 없지만 숨겨진 패턴을 찾아야 할 수도 있습니다. 또한, 일부 데이터만 라벨이 붙어 있거나, 최적의 의사결정을 반복적으로 내려야 하는 경우도 있습니다. 이러한 다양한 상황에서 지도학습, 비지도학습, 준지도학습, 강화학습은 데이터 분석의 핵심 개념이 됩니다. 이 개념들을 정확히 이해하면, “어떤 데이터에 어떤 방법을 적용해야 할지”를 판단할 수 있고, 분석 결과의 신뢰성을 높이며, 효과적인 비즈니스 인사이트 도출을 도울 수 있습니다...

데이터 분석 직무 이해 및 직무 절학 기술
산업&직무 분석, etc 2025. 2. 24. 19:52

데이터 분석 직무를 선택한 이유 숫자 속에서 의미를 발견하고, 이를 바탕으로 실질적인 변화를 만들어내는 과정이 매력적이라고 생각합니다. 군 시절 정보병으로 근무하며 숫자로만 이루어진 데이터를 분석하며 가치를 찾아내는 과정을 경험하였습니다. 단순한 숫자의 나열이 아닌, 숨겨진 패턴과 인사이트를 통해 실질적인 의사결정을 돕는 과정에서 데이터의 가치를 실감했습니다. 데이터 분석 직무는 데이터를 기반으로 문제를 해결하고 비즈니스의 방향성을 제시하는 강력한 도구이며, 이를 활용해 조직의 성과를 극대화할 수 있다는 점에서 데이터 분석 직무를 선택했습니다.(fact 요약 및 개인 견해) 직무에 대한 이해[직무 소개]데이터 분석직무는 조직 내,외부 데이터를 기반으로 비즈니스 인사이트를 도출하고, 이틀 통해 전략적 의사..