'Engineer Big Data Analysis/작업형1' 카테고리의 글 목록

[빅분기 작업형 1] 최종 코드 암기

2023.06.22

1.오름차순, 내림차순 a = df.sort_values('views', ascending=False).head(10) 오름차순 : 0, 1, 2 (기본) 내림차순: 10, 9, 8 (ascending=False) 2.기술통계 #mean() 평균 #var() 분산 #max 최대 #min 최소 #median 중앙값 #mode 최빈값 #std 표준편차 절댓값 abs 반올림 round( A, 2) 표본표준편차(판다스) 모표준편차(넘파이) np.std(df.f1) 3.이상치 Q1 = np.percentile(a, 25) Q3 = np.percentile(a, 75) IQR = Q3 - Q1 Q1 - 1.5*IQR, Q3 + 1.5*IQR 4.올림, 내림, 버림 #올림 m_ceil = np.ceil(a['age'..

Engineer Big Data Analysis/작업형1

[작업형 1] 4.Encoding(범주형, 수치형)

2023.06.19

Label Encoding : 값의 일련번호로 변경 - 순서가 있을 때 유용 - 개수가 적을 때 유용 One Hot Encoding : 범주의 개수만큼 feature를 만들어냄 -순서가 없을 떄 - 개수가 많을 때 Label Encoding #replace가 편함 df[ 'B' ].replace(['남', '여', '아이' ], [0, 1, 2] ) 1.목록확인 df['B'].unique() One Hot Encoding b = pd.get_dummies( df[ 'A' ] )

Engineer Big Data Analysis/작업형1

★[작업형 1] 3.데이터 스케일링

2023.06.19

1.데이터 스케일링 이유 데이터의 범위가 제각각이기때문에 범위 차이가 클경우에 모델 학습시 0으로 수렴하거나 발산할 수 있기 때문 2.개념 1) Normalization (정규화) 특성들을 특정 범위(주로 [0,1]) 로 스케일링 하는 것 -min-max normalization : 값의 범위를 [0, 1]로 변환 2) Standardization (표준화) 특성들의 평균을 0, 분산을 1 로 스케일링, 특성을 정규분포로 만듬 3.암기 노트 min-max normalization 최소값 0 최대값 1 from sklearn.preprocessing import MinMaxScaler, StandardScaler x = MinMaxScaler( ).fit_transform(tips[['tip']]) #주의..

Engineer Big Data Analysis/작업형1

[작업형 1] 2.이상치 찾기 & 3.결측치 찾기

2023.06.18

이상치 찾기 1.소수점 데이터 찾기 a = df[(df['age'] - np.floor(df['age'])) != 0] 내림 함수 np.floor()를 사용 0이 아닐때 반환하면 소수점을 찾을 수 있음 2.이상치를 포함한 데이터 올림, 내림, 버림의 평균값 #올림 m_ceil = np.ceil(a['age']).mean() #내림 m_floor = np.floor(a['age']).mean() #버림 m_trunc = np.trunc(a['age']).mean() 결측치 찾기 1.

Engineer Big Data Analysis/작업형1

[작업형 1] 1.이상치 구하기

2023.06.18

1.데이터 탐색 df.info 데이터 정보 확인 df.shape 컬럼, 열 개수 확인 df.isnull() 데이터 널값확인 df.isnull().sum() 널값 개수 확인 2.이상치 구하기 1)개념 IQR = Q3 - Q1 이상치 기준: Q1 - 1.5 * IQR 미만 Q3 + 1.5 * IQR 초과 2)코드 Q1 = np.percentile(a, 25) Q1 Q3 = np.percentile(a, 75) Q3 IQR = Q3 - Q1 IQR Q1 - 1.5*IQR, Q3 + 1.5*IQR 이상치 기준 outdata1 = df[ a (Q3 + 1.5*IQR)] 이상치 데이터 구하기 len(outdata1) len(outdata2) 이상치..

[빅분기 작업형 1] 최종 코드 암기

[작업형 1] 4.Encoding(범주형, 수치형)

★[작업형 1] 3.데이터 스케일링

[작업형 1] 2.이상치 찾기 & 3.결측치 찾기

[작업형 1] 1.이상치 구하기

티스토리툴바