데이터분석 기초 정리
기술통계와 추론통계
기술 통계는 데이터의 간결한 요약 정보를 제공한다. 수치적으로 또는 그래픽적으로 데이터를 요약할 수 있다.
추론통계는 모집단에 대한 추론을 하기 위해서 모집단으로부터 추출한 샘플을 사용한다. 추론통계는 전체 모집단의 모든 맴버들을 조사할 수 없을 때, 유용하다. 예를 들어, 공장에서 생산되는 모든 못의 지름을 측정하는 것은 비실용적이다. 하지만, 몇몇 대표 되는 못들의 랜덤 샘플들의 지름은 측정할 수 있다. 그리고 그 정보를 이용해서 생산된 모든 못들의 지름에 대한 일반화를 할 수 있다.
모집단과 표본추출
모집단과 표본, 전수조사와 표본조사
표본추출에서 나타나는 편향의 종류
표본오차 : 여론조사에서 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차.
비표본오차 : 표본오차를 제외한 조사의 전체과정에서 발생할 수 있는 모든 오차
비표본 오차의 한 원인이 편향(표본에서 나타나는 모집단과의 체계적인 차이)
표본 추출 과정에서 체계적인 경향이 개입되어 모집단에서 펀항된 표본만 추출되는경우.
자신이 본래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향
분석가가 가장 처음에 접하는 정보에 지나치게 매몰되는 편향
본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향
4. 분모 편향
분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향
5. 생존자 편향
소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향
머신러닝 모델 측면의 편향과 분산
편향과 분산은 트레이드오프 관계다. 예측이나 분류 모델을 만들 때 주어진 학습 데이터에 잘 맞도록 모델을 만들수록 편향은 줄어들고 분산은 증가할 수밖에 없다. 이러한 둘 간의 균형을 잘 맞춰 상황에 맞는 최적의 모델을 만드는 것이 데이터 과학자의 역할.


왼쪽 상단의 표적은 이상적으로 정중앙에 점이 몰려 있다. 이는 편향과 분산이 모두 작은 상태다. 반면 오른쪽 상단은 편향은 작지만 분산이 크기 때문에 정가운데에서 약간 벗어난 점들이 보인다. 일반적인 머신러닝 모델은 이러한 형태를 갖는다. 이렇게 분산이 큰 이유는 모델의 복잡성이 너무 커서 과적합이 일어났기 때문이다. 오른쪽 하단의 표적은 편향과 분산이 모두 큰 상태로 모델로서 효과가 없는 상태다. 마지막 왼쪽 하단의 표적은 분산은 적지만 편 향이 크다. 이런 경우는 정답 값을 제대로 설명할 수 있는 변수가 부족한 상태라 할 수 있다. 그렇기 때문 에 표본 추출 방법을 바꾸거나 새로운 변수를 탐색하거나 고도화된 데이터 가공 방식을 적용해야 한다.
표본 편향을 최소화하기 위한 표본 추출 방법
데이터에 이상이 없는 모집단과 표본프레임이 확정이 되면 확률 표본추출과 비확률 표본 추출 방법 그라고 복원추출과 비복원추출 중 적절한 방법을 선택해야 함.
확률 표본추출방법은 대표적으로 단순 무작위 추출방법, 계층적 표본추출방법, 층화 표본추출방법, 군집 표본추출방법 등이 있음.
단순 임의 추출방법은 우리가 흔히 경험하는 제비뽑기나 로또 당첨 번호를 선정하듯이 표본을 추출한다.
계층적 표본추출방법은 모든 구성단위에 일련번호를 부여한 뒤 일정한 간격으로 표본을 선택하는 방법 이다.
층화 표본추출방법은 모집단이 특정한 기준으로 분류가 가능할 때 쓰일 수 있는 방법이다.
군집 표본추출방법은 층화 표본추출방법처럼 모집단을 특정한 기준으로 분류한 뒤, 그중 하나의 소집단 을 선택하여 분석하는 방법이다.
4.3 산포도와 범위, 사분위수, 변동계수
산포도(dispersion)는 분산도(variation)라고도 불리며 대훗값을 중심으로 자료틀이 흩어져 있는 정도 를 의미.
산포도를 측정하는 방법 : 범위, 분산, 표준 편차, 사분위수 범위, 변동계수 등
변동계수 (CV ; Coefficient of Variation)
변동계수(CV ; Coefficient of Variation)는 표준편차를 평균에 대한 백분율로 나타낸 것으로,
CV = ( s / m ) × 100 ( % )
변동계수가 10% 미만이면 평균이 매우 안정적이고,
10% ~ 30%이면 대체로 안정적이지만,
30%가 넘으면 불안정한 것으로 해석한다.
"코끼리 발크기의 변동계수" V.s. "청년월급의 변동계수" 따위의 행위는 하지 말자.
- 적당히 비교하라고~
En conclusion, R^2가 낮아도 Coeff var 를 보고 자료를 참고할지 버릴지 고민할 수 있음
아 씨 F-test 결과 봐야하는데 이걸로 답 썼다가 하나 틀렸음 이거 아님
4.4 왜도와 첨도
1. 왜도(skewness) : 데이터 분포의 좌우 벼대칭도를 표현하는 척도
정규분포가 좌우대칭을 이룰수록 왜도값은 작아짐.

2. 첨도(kurtosis)는 분포가 정규분포보다 얼마나 뾰족하거나 완만한지의 정도를 나타내는 척도
정규분포의 첨도 기준이 0일 경우에는 점도가 음수로 작을수록 분포는 넓게 퍼져 있게 되고 양수로 클수 록뾰족한형태의 분포를 갖게 됨.
4.5 표준편차의 경험법칙
일반적인 정규분포에서는 표준편차를 통해 데이터 값들의 범위를 가늠할 수 있다. 이를 경험법칙 (empirical rule)oj라 히는데, 데이터의 분포가 정규분포로서 종 모양으로 좌우대칭 형태이면 다음과 같은 경험적 사실이 적용될 수 있다.
5.3.2 베이지안 이론
“사건 발생 전에 이미 가지고 있는 사전확률 p(A)와 조건부확률p(BIA)를 안다면 사후확률 p(AIB)를 계산할 수 있다"
5.5 심슨의 역설
심슨의 역설(Simpson's paradox)은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다. 이 현상은 사회과학이나 의학 통계 연구에서 종종 발생한다.심슨의 역설은 통계의 함정이 유발할 수 있는 잘못된 결과를 설명하는 데 쓰이기도 한다.
ex) 버클리 대학의 성별 합격률이 여성이 더 낮아 성차별이 존재한다고 주장했지만, 오히려 개별학과의 합격률은 여성이 높았음
6. 확률분포
6.1 확률분포의 정의와 종류
지수분포의 경우, 확률이 지수적으로 계속해서 감소하는 형태. 이러한 분포는 지하철 대기시간과 같은 사례에 적용할 수 있음.
t분포는 모집단이 정규 분포를 하더라도 분산을 알 수 없고 표본의 수가 적은 상태에서 평균(μ)에 대한 신뢰구간 추정 및 가설검정에 쓰이는 분포.
6.2 이산확률분포
6.2.1 균등분포
6.2.2 이항분포
6.2.3 초기하분포
초기하분포(hypergeometric distribution)는 이항분포(베르누이 시행)와 달리, 각 시행이 서로 독립적이지 않아서 시행마다 성공할 획률이 달라진다. 왜냐하면 이항분포는 복원추출이지만 초기하분포는 비복원추출이기 때문.
6.2.4 포아송분포
일정한 관측 공간에서 특정 사건이 발생하는 횟수를 나타내는 이산확률분포. 품질관리나 보험상품 개발 등에 주로 사용.
예를 들어 어느 콜센터는 10분에 평균4.5번의 전화가 온다고 했을 때, 이 콜센터에 10분 동안 전화가 7번 올 확률을 구하고자 한다면 다음과같이 계산할 수 있다.

즉, 이 콜센터에 10분동안 전화가 7번 올 확률은 8.24%인 것이다.
6.3 연속확률분포
6.3.1 정규분포
6.3.2 지수분포
특정 사건이 발생한 시점으로부터 다음 사건이 발생할 때까 지의 시간을 확률변숫값으로 하는 분포.
앞의 이산확률분포 부분에서 다뤘던 포아송분포가 특정 사건이 발생하는 횟수를 나타내는 변수였다면,지수분포는 발생하는 사건 다음 사건이 일어날 때까지 대기 시간을 다룬다는 것에 차이가 있다.
6.4 중심극한정리
무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리
7. 가설검정
7.1 귀무가설과 대립가설
귀무가설(Null hypothesis): 증명하고자 하는 가설과 반대되는 가설로써, 효과와 차이가 없는 가설을 의미
대립가설(Alternative hypothesis): 귀무가설이 기각됐을 때 대안적으로 채택되는 가설(귀무가설과 반대되는 가설)
7.2 가설검정 절차

7.3 가설검정의 유의수준과 p값
유의수준 : 표본에서 얻은 표본통계량이 기각역(rejection region)에 들어갈 확률
p-value : 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것
기각역(Critical Region, Rejection Region) : 귀무가설을 기각하게 되는 검정통계량의 범위, 기각역의 경계값을 임계치라 함.
7.4 1종 오류와 2종 오류
• 1종 오류: 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류. (실제로 효과가 없는데 효과가 있다고 판단)
1종오류가 발생할 확률 : a(alpha)
• 2종 오류 : 귀무가설이 거짓임에도 불구하고 귀무가설을 채택하는 오류. (실제로 효과가 있는데 효과가 없다고 판단)
1종오류가 발생할 확률 : b(beta)
분석 프로젝트 준비 및 기획
데이터 분석 전체 프로세스
CRISP - DM 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론으로 단계, 일반 과제, 세부과제, 프로세스 실행 등의 4가지 레벨로 구성된 계층적 프로세스 모델이기도 하다.
CRISP-DM의 절차는 6단계로 구성되어 있는데 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간의 반복 수행을 통해 분석의 품질을 향상시킨다.
비즈니스 문제 정의와 분석 목적 도출
- 비즈니스 이해 및 문제 정의가 조금이라도 잘못되면 최종 인사이트 도출 및 솔루션 적용 단계에서 제대로 된 효과 를 보기 힘듦
- 데이터 분석은 결국 통계적인 검증을 통해 의미를 찾는 것이고 통계적인 모댈을 구축하기 위해서는 명 확한 분석 모델과 변수가 설정되어야 한다. 그렇기 때문에 축적된 데이터가 아무리 많이 있다 하더라도 하나의 데이터 분석 프로젝트가 원활히 진행되기 위해서는 명확한 문제 정의와 분석 시나리오 그리고 분석 모델에 적합한 데이터 수집 및 가공 과정이 필요하다.
- 비즈니스 문제는 현상에 대한 설명으로 끝나서는 안되고,본질적인 문제점이 함께 전달되어야 함
도메인 지식
해당되는 분야의 엽(業)에 대한 이해도. 크게는 금융, 유통, 제조, 의료정책등업종단위가될수도있고세부적으로는하나의기업,하나의조직단 위에 대한 이해도가 될 수도 있다. 모니터와 같은 전자제품을 유통하는 것과 시즌성이 강한 패션 의류를 유통히는것의 특성이 다르듯이 같은분야라 하더라도 전혀 다른 비즈니스 문제와 분석 목적이 있을수 있다.
- 직접 의미 있는 변수를 찾아내고 분석 방향을 설정하는 것은 도메인 지식이 충분하게 수반됐을 때 가능
- 기본적으로 데이터가 생성되는 현장을 직접 보고 소비자 혹은 사용자의 입장이 되어 경험을 해보는 것이 좋음
ㄹ
외부 데이터 수집과 크롤링ㄹ
1. 데이터를 판매하는 전문 기업으로부터 필요한 데이터를 구매하거나 MOU 등을 통해 데이터를 공유하는 방법
-> 비용이 많이 드나 어느정도 정데된 고품질 데이터 확보 가능
2. 공공 오픈 데이터를 제공하는 사이트에서 엑셀이나 csv 형태로 데이터를 받아서 활용하는 방법
-> 데이터 확보에 특별한 비용이나 노력이 크게 들어가지 않지만 데이터 가공에 리소스가 많이 들 수 있고 활요성 높은 데이터 확보 확률이 낮음
3. 웹 데이터 크롤링하여 수집
-> 원하는 데이터를 실시간으로 자유롭게 수집할 수 있음, 하지만 적절한 프로그래밍이 필요함.
분산데이터 처리
:컴퓨터가 처리해야 할 일을 여러 컴퓨터가 나눠서 한 다음 그 결과를 합치는 것
- scale-up 방식
빅데이터를 처리하기 위해 하나의 컴퓨터의 용량을 늘리고 더 빠른 프로세서를 탑재
- scale- out 방식
분산데이터 처리처럼 여러 대의 컴퓨터를 병렬적으로 연결