🌟 대한상공회의소 첨단산업 디지털 선도기업 아카데미 🌟― 멘토링 활동 수기 ―멘토링활동을 할 수 있도록 지원과 노력을 아낌없이 주신 대한상공회의소에 감사의 말씀을 전하며 수기를 시작하겠습니다. 멘토링을 하며 평생 기억에 남을만한 소중한 경험들을 하게 되었습니다. 취업 후 회사를 다니면서부터는 또래의 타IT분야 친구들과 네트워킹을 할 수 있는 기회가 없었는데, 멘토링을 통해 목적을 이뤄가면서 팀원들과 성장하고 끈끈해지게 되었습니다.팀원들과 커리어, 재태크, 연애 등 삶의 전반적인 이야기를 하면서 취준할때의 열정이 다시 불타올랐습니다.팀메이트가 더욱 활성화되어 IT분야에 도전하는 분들에게 많은 도움이 되었으면 좋겠네요. ☑️활동 기간2024.7.24 ~ 2024.12.20멘토링 여정의 시작 ― "럭키비키..
4회 기출 1.데이터 분할 df['A'] = df['A'].astype('str') df[' new '] = df['A'].str.split('_').str[0] 2.날짜 변경 및 추출 df['date'] = pd.to_datetime(df['date']) cond1 = df['date'].dt.year #년 찾기 cond2 = df['date'].dt.month #월 찾기
반드시 암기하도록 하자. 0.모델 사전평가 from sklearn.model_selection import train_test_split X_tr, X_val, Y_tr, Y_val = train_test_split(X_train, y_train, test_size=0.2) from sklearn.ensemble import RandomForestClassifier import numpy as np model = RandomForestClassifier() model.fit(X_tr,np.ravel(Y_tr)) pred = model.predict(X_val) 검증 from sklearn.metrics import accuracy_score print(accuracy_score(Y_val, pred)) ..
def ModelTrain(model, data): #1. X, Y 데이터 분리 Y = data['합격여부'] X = data.drop(columns = ['합격여부']) #2. 학습, 평가 데이터로 분리 x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, stratify = Y, random_state=0) #3. 분리된 데이터의 shape 출력 print([x.shape for x in [x_train, x_test, y_train, y_test]]) #4 학습 모델 선택, 학습 #model = LogisticRegression(max_iter=1000) model.fit(x_train, y_train) #5. 성능 평..
1.데이터 전처리 1) 결측치 확인 (+이상치) -기출에서는 나올확률 적긴함. - 1.너무 많은 결측치 : 컬럼 삭제 2.다른 값으로 채우기 - 범주형 (새로운 범주 생성) / 연속형(평균, 중앙값 사용) 2) 데이터 타입 확인 -데이터 타입은 int, float만 가능 -> object, datetime, timedelta64 등은 적절하게 변경 2.5) 문제지와 data.info()가 일치하는 지 확인 일치하지 않을 시 문제지에 맞추기 3) 데이터 인코딩, 단위 환산, 정규화 등 4) 추가 확인사항(작업형 1에 나올 가능성 有) invalid 값 처리 이상치 처리 데이터 변환(범주화, 정규화, Z-score 정규화, 로그 변환) 데이터 축소 샘플링 5) 분석 데이터셋 준비 (시험에서는 나눠주나 방법은..
1.데이터 전처리 1)데이터 타입 변경하기 데이터 대체 df.replace('\*', '', regex=True) 정수형 변경 df.astype('int64') #정수형으로 변경 날짜형 변경 df.astype('datetime64') # 날짜형으로 변경 pd.to_datetime(df[] , format = '%Y-%m-%d') 2)모든 컬럼의 dtype확인 머신러닝의 컬럼의 dtype은 int 또는 float이여야한다. -범주형 데이터는 LableEncoding 혹은 OnehotEncoding을 통해 수치형으로 변경 -날씨데이터는 dt사용 year, month, day, 등으로 분할하여 Feature로 사용 3.날짜 데이터처리 특정 데이터 뽑아서 컬럼 추가하기 df['year'] = df['daytim..
Label Encoding : 값의 일련번호로 변경 - 순서가 있을 때 유용 - 개수가 적을 때 유용 One Hot Encoding : 범주의 개수만큼 feature를 만들어냄 -순서가 없을 떄 - 개수가 많을 때 Label Encoding #replace가 편함 df[ 'B' ].replace(['남', '여', '아이' ], [0, 1, 2] ) 1.목록확인 df['B'].unique() One Hot Encoding b = pd.get_dummies( df[ 'A' ] )