본문 바로가기

분류 전체보기259

sklearn : 분류분석모델링 - 펭귄 종 맞추기 vs 성별 맞추기 이전 글이 분류분석모델링 4가지로 펭귄 종 맞추기를 했는데 정확도가 상당히 높았다. 성별 맞추기로 하면 정확도가 좀 떨어진다. 왜 그럴까?? 추측을 해보면, seaborn으로 pairplot을 그리고 species를 기준으로 나눠보면 겹치는 부분이 거의없다. 어떤 변수를 기준으로하든 '구분'이 가능한데 sex를 기준으로 나눠보면 어느정도 구분이 가능하긴하나 겹치는 부분이 많다. 그래서 컴퓨터가 헷갈려하는 것 같다 (추측입니다) 2022. 10. 19.
sklearn : 분류분석모델링(Logistic Regreesion, K-Neighbors, Decision Tree, SVC) 머신러닝 분류분석모델링을 배워봤는데 방식들이 비슷해서 배우기가 쉽다. 데이터분석처럼 문법이 여러가지인것도 아니라 머신러닝이 더 쉬운것 같다. 분류분석모델링의 프로세스 1. 표준화 or 정규화로 스케일링 2. 데이터를 학습용(train) / 실험용(test)으로 나눈다 3. 컴퓨터한테 어떤 펭귄의 '종'과 부리길이, 두께, 몸무게같은 변수를 던져준다. 4. 컴퓨터가 연관관계를 학습 5. 반대로 부리길이, 부리두께 같은 변수를 던지면 컴퓨터가 학습한 정보를 토대로 맞춘다. ex) 이 펭귄은 아델리다. 6. test용 데이터를 몇개 던져줘서 몇% 맞췄는지 확인 sklearn에서 제공하는 penguins 데이터로 해봤는데 99%정도 맞추고 무당수준인데 seaborn으로 그래프를 그려보면 감이온다. 결측치 제거 .. 2022. 10. 19.
sklearn : 전처리 - 원핫 인코딩(One Hot Encoding) 범주화된 데이터를 숫자로 바꾸는데 또 다른 방법은 원핫인코딩이다. 전 글에 쓴 라벨인코딩은 해당 column에서 값을 바꾸는거였다면, 원핫인코딩은 아예 column을 새로 만들어버린다. 예를 들면, 성별에 (남, 여)가 있었다면 성별_남 column , 성별_여 column 이런식으로 column을 2개로 만들어버린다. 이번 파트는 공부하면서 이해안되는 명령문이 많은데 나중에 이해해야겠다.. encoded가 array인데 DataFrame으로 바꿔준다 2022. 10. 13.
sklearn : 전처리 - 라벨인코딩 머신러닝에서는 범주화된 데이터를 이해하지 못해서 숫자로 바꿔줘야 된다고 한다. 남자, 여자라는 데이터를 -> 1, 2 이렇게 각각 바꿔줘야하는데 이거를 라벨인코딩이라고 한다. 이전 글에서 표준화할때 썼던건데 이어서 쓰면, (그리고 개체명을 penguins_scaled => penguins_stand로 바꿨습니다) 라벨인코딩을 해줘야 할 애들 맨 마지막행이 표준화,정규화할때 문법과 좀 다르다 라벨인코딩이 잘 됐는지 encoded를 확인해보면 값이 숫자로 바뀌어져있다. 값을 기존 데이터프레임에 집어넣으면 끝 2022. 10. 13.
sklearn : 전처리 스케일링(Scaling) - 표준화(Standardization) 이번엔 표준화에 대해 정리. 표준화가 더 익숙한게 고등학교 때 배웠기 때문이다. 표준화하는 법은 정규화하는것과 똑같다. 글자만 바꾸는 수준 2022. 10. 12.
sklearn : 전처리 스케일링(Scaling) - 정규화(Normalization) 본격적인 머신러닝을 배우다보니 새로운 단어를 많이 접했는데, 일반적으로도 사용되는 통계용어다. 수치를 분석할 때 단위나 스케일 차이가 크면 학습모델 성능이 저하된다. 데이터 단위를 맞춰주는 작업을 스케일링이라고 함. 스케일링의 종류에는 정규화(Normalization)와 표준화(Stadardization)가 있는데 이번엔 정규화를 정리한다. 정규화는 값들을 0~1 범위내로 옮기는 것. MinMaxScaler를 이용해서 값들을 0~1사이로 옮긴다 (측정값-최솟값) / (최댓값 - 최솟값) 데이터 불러오기 전처리안한 데이터를 그대로 히스토그램으로 만들면 아까 말한 것처럼 단위가 달라서 이렇게 된다. sklearn의 MinMaxScaler를 import해서 전처리 features_normed를 보면 array.. 2022. 10. 10.
궁금) Matplotlib 다중막대그래프랑 꺾은선 동시에 그리는법 단일막대그래프와 꺾은선그래프를 동시에 그리는법, 다중막대그래프를 그리는 법은 알겠는데 다중막대그래프랑 꺾은선을 동시에 그리는 법을 모르겠다. 영어로 쳐봐도 잘 안뜨고 설명이 너무 어렵다 단일막대그래프와 꺾은선 그래프 그리는법은 ax..~~ 방식으로 공부했고 다중막대그래프는 그냥 plt. 방식으로 공부해서 응용이 안됨 2022. 10. 9.
Matplotlib : 다중막대그래프 엑셀은 그냥 해주던데 matplotlib은 박스 각각 위치까지 지정해줘야 돼서 손이많이간다.seaborn으로도 안된다 https://jimmy-ai.tistory.com/40 [Matplotlib] 파이썬 다중 막대 그래프 그리기 예제 이번 글에서는 파이썬에서 다중 막대 그래프를 겹치지 않게 그리는 예제 코드를 살펴보도록 하겠습니다. 파이썬 plt 다중 막대 그래프 예제 코드 먼저, 다음과 같은 간단한 연도별 상점별 판매 jimmy-ai.tistory.com 2022. 10. 6.