1.데이터 전처리
1) 결측치 확인 (+이상치)
-기출에서는 나올확률 적긴함.
- 1.너무 많은 결측치 : 컬럼 삭제
2.다른 값으로 채우기 - 범주형 (새로운 범주 생성) / 연속형(평균, 중앙값 사용)
2) 데이터 타입 확인
-데이터 타입은 int, float만 가능 -> object, datetime, timedelta64 등은 적절하게 변경
2.5) 문제지와 data.info()가 일치하는 지 확인
일치하지 않을 시 문제지에 맞추기
3) 데이터 인코딩, 단위 환산, 정규화 등
4) 추가 확인사항(작업형 1에 나올 가능성 有)
invalid 값 처리이상치 처리데이터 변환(범주화, 정규화, Z-score 정규화, 로그 변환)데이터 축소샘플링
5) 분석 데이터셋 준비 (시험에서는 나눠주나 방법은 알고있어야함)
6.상관관계 확인하기
df.corr()로 상관관계 확인 너무 높은 상관관계를 가진 컬럼은 지워주는게 좋음
기준: 시험에서는 0.9이상이면 삭제
7.범주형 데이터 인코딩
Lable Encoding
df = df[' A'].astype('category').cat.codes
'Engineer Big Data Analysis > 작업형2' 카테고리의 다른 글
★[암기] 데이터 인코딩 (0) | 2023.06.22 |
---|---|
★[암기] 분류, 회귀 모델링 (0) | 2023.06.21 |
[작업형2] 0. 문제 풀이를 위한 로드맵 - B.데이터 모델링 (0) | 2023.06.21 |
[작업형2] 머신러닝 프로젝트 (0) | 2023.06.20 |
[작업형2] 1. 데이터 처리 (0) | 2023.06.20 |