Label Encoding : 값의 일련번호로 변경 - 순서가 있을 때 유용 - 개수가 적을 때 유용 One Hot Encoding : 범주의 개수만큼 feature를 만들어냄 -순서가 없을 떄 - 개수가 많을 때 Label Encoding #replace가 편함 df[ 'B' ].replace(['남', '여', '아이' ], [0, 1, 2] ) 1.목록확인 df['B'].unique() One Hot Encoding b = pd.get_dummies( df[ 'A' ] )
1.데이터 스케일링 이유 데이터의 범위가 제각각이기때문에 범위 차이가 클경우에 모델 학습시 0으로 수렴하거나 발산할 수 있기 때문 2.개념 1) Normalization (정규화) 특성들을 특정 범위(주로 [0,1]) 로 스케일링 하는 것 -min-max normalization : 값의 범위를 [0, 1]로 변환 2) Standardization (표준화) 특성들의 평균을 0, 분산을 1 로 스케일링, 특성을 정규분포로 만듬 3.암기 노트 min-max normalization 최소값 0 최대값 1 from sklearn.preprocessing import MinMaxScaler, StandardScaler x = MinMaxScaler( ).fit_transform(tips[['tip']]) #주의..
이상치 찾기 1.소수점 데이터 찾기 a = df[(df['age'] - np.floor(df['age'])) != 0] 내림 함수 np.floor()를 사용 0이 아닐때 반환하면 소수점을 찾을 수 있음 2.이상치를 포함한 데이터 올림, 내림, 버림의 평균값 #올림 m_ceil = np.ceil(a['age']).mean() #내림 m_floor = np.floor(a['age']).mean() #버림 m_trunc = np.trunc(a['age']).mean() 결측치 찾기 1.