반응형

머신러닝 8

<<<머신러닝>>> 데이터 결측치 채우기

결측치(Missing Value) 데이터 셋을 가져와서 info()로 결측치가 있나없나 확인해야한다 . 위 데이터는 결측치가 나이만 있는 걸 확인할수 있다 . 여기서 나이만 결측치를 채워 보겠다 . -------------------------------------------------------------실습하기-------------------------------------------------------------------------- 1. Pandas 메소드를 이용한 방법 메소드를 이용해서 간단하게 채울수 있다 . 먼저 결측치에 들어갈 값을 구한다음 fillna 메소드를 사용해 적는 방법 2. sklearn 모듈을 이용한 방법 fit : 통계치를 추출 fit_transform : 통계치 추출과..

머신러닝 2022.09.13

<<<머신러닝>>> Scikit-learn

Scikit-learn https://scikit-learn.org/stable/# 다양한 머신러닝 관련한 기술들을 통일되고 쉬운 인터페이스로 사용할수 있게 해주는 라이브러리 머신러닝 관련 알고리즘과 개발을 위한 기능 제공 Getting Started with scikit-learn(자주 사용하는 사이킷런 모듈) 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering) sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등) sklearn.feature_selection: 특성 선택 sklearn.feature_extraction: 특성 추출(이미지나 텍스트에서 속성 추출) 모형 성능 평가와 개선 sklearn.model_selection: 데이터 분..

머신러닝 2022.09.13

<<<머신러닝>>> 회귀 평가 지표

***회귀 평가 지표 MSE(Mean Squared Error) 실제값과 예측값의 차이를 제곱한뒤 평균화 이상치 민감 직관적이지 못하다. 손실함수로 주로 사용한다. **RMSE(Root Mean Squared Error) MSE에 루트 이상치 민감 **MAE(Mean Absolute Error) 실제값과 예측값의 차이를 절대값으로 변환해서 평균화 **MAPE(Mean Absolute Percentage Error) 실제값에 대한 절대오차 비율의 평균을 퍼센트로 표현 **SMAPE(Symmetric Mean Absolute Percentage Error) 기존 MAPE의 단점 보완 MAPE와 다른점은 각 실제값과 예측값을 절대값으로 변경후 합으로 나눈다. MAPE와 다르게 실제값에 0이 존재해도 계산이 가..

머신러닝 2022.09.08

<<<머신러닝>>> 성능측정 (Metric)

**모델 성능 평가지표(Metric) 실제값과 모델에 의해 예측된 값을 비교하여 모델의 성능을 측정 하는 것 모델 평가 목적 Over Fitting 을 방지하고 최적의 모델을 찾는걸 목표 ** 실습하기 -- 회귀 문제 성능측정 -- 처음엔 sklrean을 이용해 데이터를 불러올것이다 . 불러온 데이터를 쉽게 쓰기 위해 diabetes로 변수를 지정 load_disbetse()함수에 자세하게 볼수는 없지만 교육용 데이터 셋이라 data , terget 인스턴스 변수가 지정이 되있는것 같다 . 3번 째 줄처럼 데이터랑 타켓을 분리시켜준다. 분리 시킨 데이터랑 타켓을 쓰기 쉽게 변수로 지정을 하고 행과열이 맞는지 확인을한다. 이제 학습데이터셋이랑 검증데이터셋를 분리를 시켜야한다. 그럴려면 model_selec..

머신러닝 2022.09.08

<<<머신러닝>> 과적합

**과적합 과대적합(overfitting) 모델이 학습데이터에 필요 이상으로 적합 데이터 내의 존재하는 규칙뿐만 아니라 불완전한 샘플도 학습 과소적합(underfitting) 모델이 학습데이터에 제대로 적합하지 못함 데이터 내에 존재하는 규칙도 제대로 학습 못함. 모델을 검증을 할 때 그래프로 시각화 한 사진들이다 .우리는 Fit의 시각화를 한 그래프대로 구현을 해야한다 . **실습 seaborn 모듈을 이용해서 데이터를 불러온다 . 불러온 데이터들이다 . 이 데이터들을 머신러닝에 검증을 하려면 스케일링을 해줘서 인공지능이 잘 학습할수 있도록 해줘야한다 . 스케일링을 실습을 해보겠다 . 먼저 범주형 컬럼들만 스케일링을 해주면 되는 상황이라 cols라는 변수에 컬럼명을 넣고 데이터들을 features 변수..

머신러닝 2022.09.07

<<<머신러닝>>> 인공지능과 머신러닝의 개념

**인공지능(Artificial Intelligence, AI) 머신러닝과 딥러닝을 포괄하는 종합적인 분야 보통의 사람이 수행하는 지능적인 작업을 자동화하기 위한 연구하는 기술 또는 과학 손으로 쓴 숫자 “8”을 컴퓨터가 인식하게 하려면 어떤 코드(규칙)가 필요할까? "구멍이 2개이고 중간 부분이 홀쭉하며, 맨 위와 아래가 둥근 모양이 라면 8이다…" 많은 규칙이 필요하고, 유지보수가 어려움 이를 대체하기 위한 새로운 방법인 머신러닝이 등장 **머신러닝(Machine Learning) 데이터로부터 규칙을 학습하여 정답을 예측 할 수 있도록 하는 알고리즘을 개발하는 연구 분야 **머신러닝 종류 지도학습 모델에 주입하는 데이터에 입력값(특성)과 출력값(정답)을 같이 넣어 학습시키는 방식 분류(Classifi..

머신러닝 2022.09.07

<<<머신러닝>>> 층화추출

층화추출(Stratified K-Fold cross validation) 불균형한 클래스 데이터 집합을 위한 KFold 방식 정답데이터에서 특정 클래스가 특이하게 많거나 매우 적거나 할때 사용 정답데이터의 클래스 비율에 맞춰 학습과 검증데이터를 분배한다. -----------------------------------------실습해보기-------------------------------------- sklearn 모듈과 모델 셀렉션 안에 있는 kfold를 불러온다. n_split은 나누는 횟수를 말한다 .

머신러닝 2022.09.07

<<러닝 머신 >> 교차검증

머신러닝 모델의 성능을 평가하는 방법은 크게 두가지로 나눌 수 있습니다. 하나는 hold-out 교차검증이고 하나는 k-fold 교차검증입니다. 1. Hold - out 교차검증 - 데이터셋을 훈련셋과 테스트셋으로 분리합니다. - 빠른 속도로 검증가능 - 단점 : 훈련셋과 테스트셋으로만 나눠서 모델의 성능을 평가하다보면, 테스트셋이 모델의 파라미터 설정에 큰 영향을 미치게 됩니다. 모델이 테스트셋에 오버피팅될 가능성이 있음 오버피팅을 최소한으로 하는 검증이 바로 KFold이다. 2. K-Fold 교차검증(K-Fold cross validation) 전체데이터를 k등분하고, 각등분을 한번씩 검증데이터로 사용 각폴드의 성능 결과값을 평균내서 검증 ----------------------------------..

머신러닝 2022.09.07
반응형