'분류 전체보기' 카테고리의 글 목록

MS AI School

팀메이트 멘토멘티단 1기 활동 수기

2024.12.31

🌟 대한상공회의소 첨단산업 디지털 선도기업 아카데미 🌟― 멘토링 활동 수기 ―멘토링활동을 할 수 있도록 지원과 노력을 아낌없이 주신 대한상공회의소에 감사의 말씀을 전하며 수기를 시작하겠습니다. 멘토링을 하며 평생 기억에 남을만한 소중한 경험들을 하게 되었습니다. 취업 후 회사를 다니면서부터는 또래의 타IT분야 친구들과 네트워킹을 할 수 있는 기회가 없었는데, 멘토링을 통해 목적을 이뤄가면서 팀원들과 성장하고 끈끈해지게 되었습니다.팀원들과 커리어, 재태크, 연애 등 삶의 전반적인 이야기를 하면서 취준할때의 열정이 다시 불타올랐습니다.팀메이트가 더욱 활성화되어 IT분야에 도전하는 분들에게 많은 도움이 되었으면 좋겠네요. ☑️활동 기간2024.7.24 ~ 2024.12.20멘토링 여정의 시작 ― "럭키비키..

Engineer Big Data Analysis/작업형3

[빅분기 최종 기출 정리] 4,5회 기출 코드

2023.06.23

4회 기출 1.데이터 분할 df['A'] = df['A'].astype('str') df[' new '] = df['A'].str.split('_').str[0] 2.날짜 변경 및 추출 df['date'] = pd.to_datetime(df['date']) cond1 = df['date'].dt.year #년 찾기 cond2 = df['date'].dt.month #월 찾기

Engineer Big Data Analysis/작업형1

[빅분기 작업형 1] 최종 코드 암기

2023.06.22

1.오름차순, 내림차순 a = df.sort_values('views', ascending=False).head(10) 오름차순 : 0, 1, 2 (기본) 내림차순: 10, 9, 8 (ascending=False) 2.기술통계 #mean() 평균 #var() 분산 #max 최대 #min 최소 #median 중앙값 #mode 최빈값 #std 표준편차 절댓값 abs 반올림 round( A, 2) 표본표준편차(판다스) 모표준편차(넘파이) np.std(df.f1) 3.이상치 Q1 = np.percentile(a, 25) Q3 = np.percentile(a, 75) IQR = Q3 - Q1 Q1 - 1.5*IQR, Q3 + 1.5*IQR 4.올림, 내림, 버림 #올림 m_ceil = np.ceil(a['age'..

Engineer Big Data Analysis/작업형2

★[암기] 데이터 인코딩

2023.06.22

시험에서의 인코딩은 Label Encoding으로 해결 가능 (순서가 있는 소수의 object면 혹시 모르겠지만) from sklearn.preprocessing import LabelEncoder encoder = LableEncoder() X_train['주구매상품'] = encoder.fit_transform(X_train['주구매상품']) X_test['주구매상품'] = encoder.transform(X_train['주구매상품']) #확인용 print(X_train.info()) print(X_test.info())

Engineer Big Data Analysis/작업형2

★[암기] 분류, 회귀 모델링

2023.06.21

반드시 암기하도록 하자. 0.모델 사전평가 from sklearn.model_selection import train_test_split X_tr, X_val, Y_tr, Y_val = train_test_split(X_train, y_train, test_size=0.2) from sklearn.ensemble import RandomForestClassifier import numpy as np model = RandomForestClassifier() model.fit(X_tr,np.ravel(Y_tr)) pred = model.predict(X_val) 검증 from sklearn.metrics import accuracy_score print(accuracy_score(Y_val, pred)) ..

Engineer Big Data Analysis/작업형2

[작업형2] 0. 문제 풀이를 위한 로드맵 - B.데이터 모델링

2023.06.21

def ModelTrain(model, data): #1. X, Y 데이터 분리 Y = data['합격여부'] X = data.drop(columns = ['합격여부']) #2. 학습, 평가 데이터로 분리 x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, stratify = Y, random_state=0) #3. 분리된 데이터의 shape 출력 print([x.shape for x in [x_train, x_test, y_train, y_test]]) #4 학습 모델 선택, 학습 #model = LogisticRegression(max_iter=1000) model.fit(x_train, y_train) #5. 성능 평..

Engineer Big Data Analysis/작업형2

[작업형2] 0. 문제 풀이를 위한 로드맵 - A.데이터 전처리

2023.06.21

1.데이터 전처리 1) 결측치 확인 (+이상치) -기출에서는 나올확률 적긴함. - 1.너무 많은 결측치 : 컬럼 삭제 2.다른 값으로 채우기 - 범주형 (새로운 범주 생성) / 연속형(평균, 중앙값 사용) 2) 데이터 타입 확인 -데이터 타입은 int, float만 가능 -> object, datetime, timedelta64 등은 적절하게 변경 2.5) 문제지와 data.info()가 일치하는 지 확인 일치하지 않을 시 문제지에 맞추기 3) 데이터 인코딩, 단위 환산, 정규화 등 4) 추가 확인사항(작업형 1에 나올 가능성 有) invalid 값 처리 이상치 처리 데이터 변환(범주화, 정규화, Z-score 정규화, 로그 변환) 데이터 축소 샘플링 5) 분석 데이터셋 준비 (시험에서는 나눠주나 방법은..

Engineer Big Data Analysis/작업형2

[작업형2] 머신러닝 프로젝트

2023.06.20

1.상관관계확인 df.corr() 입력 변수끼리는 상관관계가 낮은 것이 좋고, 입출력간은 높은 것이 좋다.

Engineer Big Data Analysis/작업형2

[작업형2] 1. 데이터 처리

2023.06.20

1.데이터 전처리 1)데이터 타입 변경하기 데이터 대체 df.replace('\*', '', regex=True) 정수형 변경 df.astype('int64') #정수형으로 변경 날짜형 변경 df.astype('datetime64') # 날짜형으로 변경 pd.to_datetime(df[] , format = '%Y-%m-%d') 2)모든 컬럼의 dtype확인 머신러닝의 컬럼의 dtype은 int 또는 float이여야한다. -범주형 데이터는 LableEncoding 혹은 OnehotEncoding을 통해 수치형으로 변경 -날씨데이터는 dt사용 year, month, day, 등으로 분할하여 Feature로 사용 3.날짜 데이터처리 특정 데이터 뽑아서 컬럼 추가하기 df['year'] = df['daytim..

Engineer Big Data Analysis/작업형1

[작업형 1] 4.Encoding(범주형, 수치형)

2023.06.19

Label Encoding : 값의 일련번호로 변경 - 순서가 있을 때 유용 - 개수가 적을 때 유용 One Hot Encoding : 범주의 개수만큼 feature를 만들어냄 -순서가 없을 떄 - 개수가 많을 때 Label Encoding #replace가 편함 df[ 'B' ].replace(['남', '여', '아이' ], [0, 1, 2] ) 1.목록확인 df['B'].unique() One Hot Encoding b = pd.get_dummies( df[ 'A' ] )

티스토리툴바