파이썬. 머신러닝13 sklearn : 분류분석모델링 - 펭귄 종 맞추기 vs 성별 맞추기 이전 글이 분류분석모델링 4가지로 펭귄 종 맞추기를 했는데 정확도가 상당히 높았다. 성별 맞추기로 하면 정확도가 좀 떨어진다. 왜 그럴까?? 추측을 해보면, seaborn으로 pairplot을 그리고 species를 기준으로 나눠보면 겹치는 부분이 거의없다. 어떤 변수를 기준으로하든 '구분'이 가능한데 sex를 기준으로 나눠보면 어느정도 구분이 가능하긴하나 겹치는 부분이 많다. 그래서 컴퓨터가 헷갈려하는 것 같다 (추측입니다) 2022. 10. 19. sklearn : 분류분석모델링(Logistic Regreesion, K-Neighbors, Decision Tree, SVC) 머신러닝 분류분석모델링을 배워봤는데 방식들이 비슷해서 배우기가 쉽다. 데이터분석처럼 문법이 여러가지인것도 아니라 머신러닝이 더 쉬운것 같다. 분류분석모델링의 프로세스 1. 표준화 or 정규화로 스케일링 2. 데이터를 학습용(train) / 실험용(test)으로 나눈다 3. 컴퓨터한테 어떤 펭귄의 '종'과 부리길이, 두께, 몸무게같은 변수를 던져준다. 4. 컴퓨터가 연관관계를 학습 5. 반대로 부리길이, 부리두께 같은 변수를 던지면 컴퓨터가 학습한 정보를 토대로 맞춘다. ex) 이 펭귄은 아델리다. 6. test용 데이터를 몇개 던져줘서 몇% 맞췄는지 확인 sklearn에서 제공하는 penguins 데이터로 해봤는데 99%정도 맞추고 무당수준인데 seaborn으로 그래프를 그려보면 감이온다. 결측치 제거 .. 2022. 10. 19. sklearn : 전처리 - 원핫 인코딩(One Hot Encoding) 범주화된 데이터를 숫자로 바꾸는데 또 다른 방법은 원핫인코딩이다. 전 글에 쓴 라벨인코딩은 해당 column에서 값을 바꾸는거였다면, 원핫인코딩은 아예 column을 새로 만들어버린다. 예를 들면, 성별에 (남, 여)가 있었다면 성별_남 column , 성별_여 column 이런식으로 column을 2개로 만들어버린다. 이번 파트는 공부하면서 이해안되는 명령문이 많은데 나중에 이해해야겠다.. encoded가 array인데 DataFrame으로 바꿔준다 2022. 10. 13. sklearn : 전처리 스케일링(Scaling) - 표준화(Standardization) 이번엔 표준화에 대해 정리. 표준화가 더 익숙한게 고등학교 때 배웠기 때문이다. 표준화하는 법은 정규화하는것과 똑같다. 글자만 바꾸는 수준 2022. 10. 12. sklearn : 전처리 스케일링(Scaling) - 정규화(Normalization) 본격적인 머신러닝을 배우다보니 새로운 단어를 많이 접했는데, 일반적으로도 사용되는 통계용어다. 수치를 분석할 때 단위나 스케일 차이가 크면 학습모델 성능이 저하된다. 데이터 단위를 맞춰주는 작업을 스케일링이라고 함. 스케일링의 종류에는 정규화(Normalization)와 표준화(Stadardization)가 있는데 이번엔 정규화를 정리한다. 정규화는 값들을 0~1 범위내로 옮기는 것. MinMaxScaler를 이용해서 값들을 0~1사이로 옮긴다 (측정값-최솟값) / (최댓값 - 최솟값) 데이터 불러오기 전처리안한 데이터를 그대로 히스토그램으로 만들면 아까 말한 것처럼 단위가 달라서 이렇게 된다. sklearn의 MinMaxScaler를 import해서 전처리 features_normed를 보면 array.. 2022. 10. 10. 이전 1 2 다음