Data preprocessing (.drop , .columns & .loc & lamda )

.drop : 컬럼 제거

.columns : 컬럼 이름 변경(생성)

.loc : 특정 값을 가진 행 추출

.lamda 특정 컬럼들의 평균을 구하고 새로운 컬럼 생성

다음과 같이 총 468개의 컬럼으로 구성된 데이터이다. 분석 과정에서 시간별 유동인구 수와 블록코드는 제외하기로 결정하였으므로 5번 행과 13번째 이후의 행을 모두 제거해야 했다. 따라서 .drop 메소드를 활용하였다.

여러개를 한번에 적용시키는 방법을 몰라 하나씩 코드를 작성해 주었다.

data_eli = data.drop(data.columns[12:], axis = 1)

data_eli = data_eli.drop(data.columns[0], axis = 1)

data_eli = data_eli.drop(data.columns[4], axis = 1)

cf) axis = 0 일 경우 행, axis = 1일 경우 열을 기준삼는다.

그리고 컬럼의 이름을 지정해줬다.

data_eli.columns=['KATECH_X', 'KATECH_Y', 'ADSTRD_CODE','MON_POP', 'TUES_POP', 'WED_POP',
                  'THUR_POP', 'FRI_POP', 'SAT_POP', 'SUN_POP']

우리가 분석을 할 곳은 압구정동이기 때문에 압구정동 고유의 행정코드를 .loc 메서드를 통해 추출했다.

data2 = data_eli.loc[data_eli['ADSTRD_CODE'] == 11680545]

평일과 주말의 유동인구를 따로 더해서 평균을 구해야 했다. 하지만 실수로 한번에 더해서 나눠버리니 잘못된 값이 나왔다.

lambda expression 을 활용했다. ( 정확한 식으로 수정이 필요하나 람다식은 맞게 썼다)

'Etc > TAVE' 카테고리의 다른 글

Lec. 6-2: Softmax classifier 의 cost함수 (0)	2023.03.26
Lec. 6-1 - Softmax Regression (0)	2023.03.26
Lec. 7-2 Learning and test data sets (0)	2023.03.25
Lab. 7-2 Learning and test data sets (0)	2023.03.25
Lec. 7-1 Learning rate, data preprocessing, overfitting (0)	2023.03.25

'Etc > TAVE' 카테고리의 다른 글

검색 태그

티스토리툴바