본문 바로가기

파이썬. 머신러닝/sklearn7

R2_score [Python] 결정계수 R2 score(R-squared)와 조정된 결정계수(Adjusted R-squared)의 이해 — 외부 저장소 (tistory.com) [Python] 결정계수 R2 score(R-squared)와 조정된 결정계수(Adjusted R-squared)의 이해결정계수 - R2 score(R-squared)결정계수는 상관계수를 제곱한 값으로 보면 된다. 하지만 결정계수는 상관계수와 달리 변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치라aliencoder.tistory.com  결정계수 (R2 Score)의 설명 및 Python 구현 (tistory.com) 결정계수 (R2 Score)의 설명 및 Python 구현*주의!! SSE는 SSR로도 표기될 수 있고 .. 2024. 8. 16.
나도코딩_머신러닝 1 : 선형 회귀, 데이터 세트 분리 https://www.youtube.com/watch?v=TNcfJHajqJY    보통 코딩하는거보면 X =독립변수 , y = 종속변수X = dataset['hour'].values.reshape(-1,1) 이렇게 코드 작성해도 됨 reg.fit(X,y) 코드를 입력하면  학습을 시작함   y_pred는 X값을 기반으로 예측한 y값인데 참고로 2차원 데이터만 넣을수있다. [[]] 처럼 대괄호가 2개인것예를들어0.5시간 공부 -> 5.003만큼 점수1.2시간 공부 -> 12.313만큼 점수   그래프로 그려보면 scatter로 표현한건 실제 X값과 y값들plot(막대기)로 표현한건 실제 X값과 X값을 기반으로 예측한 y  기울기, 절편도 구할 수 있음   데이터 분리하기   이런식으로 2차원 배열의 자료.. 2024. 7. 30.
sklearn : 분류분석모델링 - 펭귄 종 맞추기 vs 성별 맞추기 이전 글이 분류분석모델링 4가지로 펭귄 종 맞추기를 했는데 정확도가 상당히 높았다. 성별 맞추기로 하면 정확도가 좀 떨어진다. 왜 그럴까?? 추측을 해보면, seaborn으로 pairplot을 그리고 species를 기준으로 나눠보면 겹치는 부분이 거의없다. 어떤 변수를 기준으로하든 '구분'이 가능한데 sex를 기준으로 나눠보면 어느정도 구분이 가능하긴하나 겹치는 부분이 많다. 그래서 컴퓨터가 헷갈려하는 것 같다 (추측입니다) 2022. 10. 19.
sklearn : 분류분석모델링(Logistic Regreesion, K-Neighbors, Decision Tree, SVC) 머신러닝 분류분석모델링을 배워봤는데 방식들이 비슷해서 배우기가 쉽다. 데이터분석처럼 문법이 여러가지인것도 아니라 머신러닝이 더 쉬운것 같다. 분류분석모델링의 프로세스 1. 표준화 or 정규화로 스케일링 2. 데이터를 학습용(train) / 실험용(test)으로 나눈다 3. 컴퓨터한테 어떤 펭귄의 '종'과 부리길이, 두께, 몸무게같은 변수를 던져준다. 4. 컴퓨터가 연관관계를 학습 5. 반대로 부리길이, 부리두께 같은 변수를 던지면 컴퓨터가 학습한 정보를 토대로 맞춘다. ex) 이 펭귄은 아델리다. 6. test용 데이터를 몇개 던져줘서 몇% 맞췄는지 확인 sklearn에서 제공하는 penguins 데이터로 해봤는데 99%정도 맞추고 무당수준인데 seaborn으로 그래프를 그려보면 감이온다. 결측치 제거 .. 2022. 10. 19.
sklearn : 전처리 - 원핫 인코딩(One Hot Encoding) 범주화된 데이터를 숫자로 바꾸는데 또 다른 방법은 원핫인코딩이다. 전 글에 쓴 라벨인코딩은 해당 column에서 값을 바꾸는거였다면, 원핫인코딩은 아예 column을 새로 만들어버린다. 예를 들면, 성별에 (남, 여)가 있었다면 성별_남 column , 성별_여 column 이런식으로 column을 2개로 만들어버린다. 이번 파트는 공부하면서 이해안되는 명령문이 많은데 나중에 이해해야겠다.. encoded가 array인데 DataFrame으로 바꿔준다 2022. 10. 13.
sklearn : 전처리 스케일링(Scaling) - 표준화(Standardization) 이번엔 표준화에 대해 정리. 표준화가 더 익숙한게 고등학교 때 배웠기 때문이다. 표준화하는 법은 정규화하는것과 똑같다. 글자만 바꾸는 수준 2022. 10. 12.
sklearn : 전처리 스케일링(Scaling) - 정규화(Normalization) 본격적인 머신러닝을 배우다보니 새로운 단어를 많이 접했는데, 일반적으로도 사용되는 통계용어다. 수치를 분석할 때 단위나 스케일 차이가 크면 학습모델 성능이 저하된다. 데이터 단위를 맞춰주는 작업을 스케일링이라고 함. 스케일링의 종류에는 정규화(Normalization)와 표준화(Stadardization)가 있는데 이번엔 정규화를 정리한다. 정규화는 값들을 0~1 범위내로 옮기는 것. MinMaxScaler를 이용해서 값들을 0~1사이로 옮긴다 (측정값-최솟값) / (최댓값 - 최솟값) 데이터 불러오기 전처리안한 데이터를 그대로 히스토그램으로 만들면 아까 말한 것처럼 단위가 달라서 이렇게 된다. sklearn의 MinMaxScaler를 import해서 전처리 features_normed를 보면 array.. 2022. 10. 10.