본문 바로가기

파이썬. 머신러닝/sklearn13

분류 모델 성능 평가 지표 링크 https://white-joy.tistory.com/9 분류 모델 성능 평가 지표(Accuracy, Precision, Recall, F1 score 등)분류 모델(classifier)을 평가할 때 주로 Confusion Matrix를 기반으로 Accuracy, Precision, Recall, F1 score를 측정한다. Confusion Matrix(혼동 행렬, 오차 행렬) 분류 모델(classifier)의 성능을 측정하는 데 자주 사용white-joy.tistory.com 2024. 11. 29.
로지스틱 회귀, K-최근접 이웃 분류기 요약  # 로지스틱 회귀# 1. 선언from sklearn.linear_model import LogisticRegressionlr_model = LogisticRegression(verbose=2)# 2. 학습lr_model.fit(X_train, Y_train)# 3. 예측 (수컷 1, 암컷 0)predictions = lr_model.predict(X_test)# 4. 성능 평가 ( 실제값 : Y_test, 예측값 : predictions )from sklearn.metrics import accuracy_scorelr_acc = accuracy_score(Y_test, predictions)lr_acc # K-최근접 이웃 분류기# 1. 선언from sklearn.neighbors import KN.. 2024. 10. 13.
로지스틱 회귀 설명 영상 https://www.youtube.com/watch?v=14eTDPJLkis 로지스틱 회귀는 2진 분류 방법 펭귄이 수컷이다 or 암컷이다 처럼 두개중에 맞추는 것.해당 데이터가 어떤 범주에 속할 확률을 0 ~ 1사이로 예측한다.수컷일 확률 0.8이면 수컷으로 분류하는 것. 어려운 개념이지만 영상을 보면 대략 감이 온다. 2024. 10. 12.
분류 분석 모델링 (MinMaxScaler, LabelEncoder, train_test_split) import matplotlib.pylab as pltimport seaborn as snsimport numpy as npimport pandas as pdpenguins = sns.load_dataset('penguins')penguins  penguins = penguins.dropna().reset_index(drop=True)penguins    MinMaxScaler로 정규화수치들을 0 ~ 1로 바꿔준다. 정규화 참고https://beneagain.tistory.com/183 sklearn : 전처리 스케일링(Scaling) - 정규화(Normalization)본격적인 머신러닝을 배우다보니 새로운 단어를 많이 접했는데, 일반적으로도 사용되는 통계용어다. 수치를 분석할 때 단위나 스케일 차이가 .. 2024. 10. 12.
데이터 인코딩 LabelEncoder(), fit, transform https://sevillabk.github.io/encoding/ [사이킷런] 데이터 인코딩사이킷런에서 제공하는 인코딩 클래스 활용하기SevillaBK.github.io 개어렵다 from sklearn.preprocessing import LabelEncoderitems = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']le = LabelEncoder()le.fit(items)labels = le.transform(items)print(labels) [0 1 4 5 3 3 2 2] labels = le.fit_transform(items)print(labels) [0 1 4 5 3 3 2 2] 2024. 9. 21.
train_test_split에서 stratify 역할 stratifyt - train 샘플을 추출할때 비율을 맞게 뽑아주는 역할을 한다  https://yeko90.tistory.com/entry/what-is-stratify-in-traintestsplit [sklearn] 'stratify' 의 역할(train_test_split)[ic]train_test_split[/ic]에서 [ic]stratify[/ic]가 뭐 하는 녀석인지 헷갈리는가? 그렇다면 잘 들어왔다. 이번 포스팅에서는 [ic]stratify[/ic]를 미적용했을 때 어떤 문제가 발생하는지 알아보고, [ic]stratify[/ic]yeko90.tistory.com 2024. 9. 21.
R2_score [Python] 결정계수 R2 score(R-squared)와 조정된 결정계수(Adjusted R-squared)의 이해 — 외부 저장소 (tistory.com) [Python] 결정계수 R2 score(R-squared)와 조정된 결정계수(Adjusted R-squared)의 이해결정계수 - R2 score(R-squared)결정계수는 상관계수를 제곱한 값으로 보면 된다. 하지만 결정계수는 상관계수와 달리 변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치라aliencoder.tistory.com  결정계수 (R2 Score)의 설명 및 Python 구현 (tistory.com) 결정계수 (R2 Score)의 설명 및 Python 구현*주의!! SSE는 SSR로도 표기될 수 있고 .. 2024. 8. 16.
나도코딩_머신러닝 1 : 선형 회귀, 데이터 세트 분리 https://www.youtube.com/watch?v=TNcfJHajqJY    보통 코딩하는거보면 X =독립변수 , y = 종속변수X = dataset['hour'].values.reshape(-1,1) 이렇게 코드 작성해도 됨 reg.fit(X,y) 코드를 입력하면  학습을 시작함   y_pred는 X값을 기반으로 예측한 y값인데 참고로 2차원 데이터만 넣을수있다. [[]] 처럼 대괄호가 2개인것예를들어0.5시간 공부 -> 5.003만큼 점수1.2시간 공부 -> 12.313만큼 점수   그래프로 그려보면 scatter로 표현한건 실제 X값과 y값들plot(막대기)로 표현한건 실제 X값과 X값을 기반으로 예측한 y  기울기, 절편도 구할 수 있음   데이터 분리하기   이런식으로 2차원 배열의 자료.. 2024. 7. 30.