본문 바로가기

분류 전체보기273

VBA매크로 : 엑셀 필터 Criteria1에 배열array 집어넣기 https://www.exceldemy.com/excel-vba-filter-multiple-criteria-array/ Excel VBA: How to Filter with Multiple Criteria in Array (7 Ways) This article will describe 7 different ways to filter with multiple criteria as an array using Excel VBA quickly and effectively. www.exceldemy.com 2022. 10. 24.
sklearn : 분류분석모델링 - 펭귄 종 맞추기 vs 성별 맞추기 이전 글이 분류분석모델링 4가지로 펭귄 종 맞추기를 했는데 정확도가 상당히 높았다. 성별 맞추기로 하면 정확도가 좀 떨어진다. 왜 그럴까?? 추측을 해보면, seaborn으로 pairplot을 그리고 species를 기준으로 나눠보면 겹치는 부분이 거의없다. 어떤 변수를 기준으로하든 '구분'이 가능한데 sex를 기준으로 나눠보면 어느정도 구분이 가능하긴하나 겹치는 부분이 많다. 그래서 컴퓨터가 헷갈려하는 것 같다 (추측입니다) 2022. 10. 19.
sklearn : 분류분석모델링(Logistic Regreesion, K-Neighbors, Decision Tree, SVC) 머신러닝 분류분석모델링을 배워봤는데 방식들이 비슷해서 배우기가 쉽다. 데이터분석처럼 문법이 여러가지인것도 아니라 머신러닝이 더 쉬운것 같다. 분류분석모델링의 프로세스 1. 표준화 or 정규화로 스케일링 2. 데이터를 학습용(train) / 실험용(test)으로 나눈다 3. 컴퓨터한테 어떤 펭귄의 '종'과 부리길이, 두께, 몸무게같은 변수를 던져준다. 4. 컴퓨터가 연관관계를 학습 5. 반대로 부리길이, 부리두께 같은 변수를 던지면 컴퓨터가 학습한 정보를 토대로 맞춘다. ex) 이 펭귄은 아델리다. 6. test용 데이터를 몇개 던져줘서 몇% 맞췄는지 확인 sklearn에서 제공하는 penguins 데이터로 해봤는데 99%정도 맞추고 무당수준인데 seaborn으로 그래프를 그려보면 감이온다. 결측치 제거 .. 2022. 10. 19.
10/18 티스토리 없으니까 망할뻔 1. 코딩하는데 이렇게 중요한 사이트였나 처음 실감하게 됐다... 티스토리 안되니까 구글에 한글로 된 코딩블로그 거의 다 못들어가고 내 블로그도 못들어가니까 답답 어제부터 모바일로만 들어가지니까 작성도 못하고 머신러닝 진도도 못냈다. 별개로 14일자에 투데이 100넘게 찍혔던데 글 부지런히 써야겠다. 블로그로 용돈버는 상상 많이했는데 실제로 되는거 아닐까? 일간방문수 매일 500 단위넘으면 이걸로 용돈벌어야지 빨리 공부해서 내용좀 다듬어야겠다. 진짜 직장인들이 쓰는 실무적인 내용 위주로 알차게 준비해야겠다. 물론 그전에 통계 머신러닝이나 똑바로 배워야겠다 2. 어제 오늘 RAW데이터를 집어넣으면 그래프 그려주는 보고서를 어느정도 완성했다. kpi를 표현하는 그래프를 4개 그렸는데 뭔가 더 좋은 아이디어가.. 2022. 10. 18.
sklearn : 전처리 - 원핫 인코딩(One Hot Encoding) 범주화된 데이터를 숫자로 바꾸는데 또 다른 방법은 원핫인코딩이다. 전 글에 쓴 라벨인코딩은 해당 column에서 값을 바꾸는거였다면, 원핫인코딩은 아예 column을 새로 만들어버린다. 예를 들면, 성별에 (남, 여)가 있었다면 성별_남 column , 성별_여 column 이런식으로 column을 2개로 만들어버린다. 이번 파트는 공부하면서 이해안되는 명령문이 많은데 나중에 이해해야겠다.. encoded가 array인데 DataFrame으로 바꿔준다 2022. 10. 13.
sklearn : 전처리 - 라벨인코딩 머신러닝에서는 범주화된 데이터를 이해하지 못해서 숫자로 바꿔줘야 된다고 한다. 남자, 여자라는 데이터를 -> 1, 2 이렇게 각각 바꿔줘야하는데 이거를 라벨인코딩이라고 한다. 이전 글에서 표준화할때 썼던건데 이어서 쓰면, (그리고 개체명을 penguins_scaled => penguins_stand로 바꿨습니다) 라벨인코딩을 해줘야 할 애들 맨 마지막행이 표준화,정규화할때 문법과 좀 다르다 라벨인코딩이 잘 됐는지 encoded를 확인해보면 값이 숫자로 바뀌어져있다. 값을 기존 데이터프레임에 집어넣으면 끝 2022. 10. 13.
sklearn : 전처리 스케일링(Scaling) - 표준화(Standardization) 이번엔 표준화에 대해 정리. 표준화가 더 익숙한게 고등학교 때 배웠기 때문이다. 표준화하는 법은 정규화하는것과 똑같다. 글자만 바꾸는 수준 2022. 10. 12.
sklearn : 전처리 스케일링(Scaling) - 정규화(Normalization) 본격적인 머신러닝을 배우다보니 새로운 단어를 많이 접했는데, 일반적으로도 사용되는 통계용어다. 수치를 분석할 때 단위나 스케일 차이가 크면 학습모델 성능이 저하된다. 데이터 단위를 맞춰주는 작업을 스케일링이라고 함. 스케일링의 종류에는 정규화(Normalization)와 표준화(Stadardization)가 있는데 이번엔 정규화를 정리한다. 정규화는 값들을 0~1 범위내로 옮기는 것. MinMaxScaler를 이용해서 값들을 0~1사이로 옮긴다 (측정값-최솟값) / (최댓값 - 최솟값) 데이터 불러오기 전처리안한 데이터를 그대로 히스토그램으로 만들면 아까 말한 것처럼 단위가 달라서 이렇게 된다. sklearn의 MinMaxScaler를 import해서 전처리 features_normed를 보면 array.. 2022. 10. 10.