본문 바로가기

파이썬. 데이터분석112

pivot(데이터프레임 어긋났을때 index변경) 전 글 참조 https://beneagain.tistory.com/172 데이터프레임 어긋나게 나오는것(?)의 이해 피벗돌리거나 뭔갈 하고나서 데이터프레임을 보면 이런식으로 행 높이가 안맞는 경우가 보입니다. 저렇게만 보이는거고 xlsx 내보내기해서 보면 행 높이가 맞습니다. ※ 주의사항 그러나 저 pivot beneagain.tistory.com merge를 하려면 column, index 명칭을 통일시켜야만 되는데 pivot은 이렇게 어긋나있어서 좀 까다롭다. 고객사명 -> 착지수, 고객사 -> 코드 명칭변경을 하려면, 1. column 변경 : 고객사명 → 착지수 column은 쉽다. 이렇게 '고객사명' 이라고 나오니까 rename하면 그만이다 착지수세기_피벗.rename(columns={'고객사명.. 2022. 10. 2.
Pandas : pivot 다중 aggfunc (sum,count 같이) 배송주기_피벗 = pd.pivot_table(배송주기, index=['코드','고객사명'], values = ['고객그룹','배송일수'], aggfunc={'고객그룹':'count','배송일수':'sum'}) 이렇게 하면 매장수는 count, 배송일수는 sum 출처 : https://stackoverflow.com/questions/20119414/define-aggfunc-for-each-values-column-in-pandas-pivot-table define aggfunc for each values column in pandas pivot table Was trying to generate a pivot table with multiple "values" columns. I know I can .. 2022. 9. 28.
데이터프레임 어긋나게 나오는것(?)의 이해 피벗돌리거나 뭔갈 하고나서 데이터프레임을 보면 이런식으로 행 높이가 안맞는 경우가 보입니다. 저렇게만 보이는거고 xlsx 내보내기해서 보면 행 높이가 맞습니다. ※ 주의사항 그러나 저 pivot의 dateframe에서 column을 조회하면 '순매출' 만 나옵니다 코드와 고객사명은 index다. 다음 글에서는 pivot에서 저 index의 이름을 바꾸는 방법을 찾아보겠습니다. 회사내용이라 모자이크 했습니다 내보내기 하는법 https://beneagain.tistory.com/25 to_excel : dataframe 을 excel로 내보내기 tips.to_excel('C:/Users/Pang rim/Desktop/Python/Python_practice/data9.xlsx', sheet_name='She.. 2022. 9. 27.
피벗테이블 pd.pivot_table https://jimmy-ai.tistory.com/220 [Pandas] 파이썬 피벗테이블 생성 : pd.pivot_table 함수 사용법 정리 파이썬 판다스 pivot_table 함수 사용 예제 파이썬 pandas 모듈의 pd.pivot_table 함수로 피벗테이블을 원하는대로 생성하는 방법을 values, index, columns, fill_value 및 aggfunc 인자의 기능을 위주로 정리해.. jimmy-ai.tistory.com table1 = pd.pivot_table(df, values='국어', index=['반'], columns=['전공'], aggfunc=np.mean) table1 pd.pivot과 pd.pivot_table의 차이 설명. pd.pivot_table이 더 사용.. 2022. 8. 30.
2019 한국통계자료 분석 6 : 지역별 연령대 비율 replace, df.pivot, sns.barplot 지역코드에 실제지명대신 숫자로 표현되어있다. 코드로된걸 실제 지명으로 바꾸어준다 replace 첫번째. 지역 / 연령대 / 비율 전반적으로 old인 사람이 많고 대구/경북은 반이 old 두번째. 연령대 / 지역 / 비율로 하면 느낌이 다르다 ageg를 기준으로 내림차순 되어있어 수도권에 middle,young인 사람들이 많이산다는 점을 한눈에 볼 수 있다. 첫번째로 가서 백분율로 만들어준다 그래프로 시각화하고 legend가 작아서 크게 키워줬다. 주의할 점이 plt.legend를 sns.barplot 위에다 하니까 안되더라. plt.legend를 plotting 하는곳 밑에다가 써줘야 된다. 이건 좀 이해가 안간다. 그냥 matplotlib 할 때는.. 2022. 8. 27.
2019 한국통계자료 분석 5 : 종교와 이혼율 query and조건, value_counts(normalize=True), groupby(['ageg', 'marriage'], as_index = False)['religion'] 1 = 결혼, 3 = 이혼, 나머지 = etc 위에는 relpace를 이용했지만 아래처럼 np.where로 이중 if문처럼 사용도 가능 데이터프레임으로 수치표현 ※여기부터가 중요 종교 여부, 결혼 여부, 비율 이렇게 나오게하기 책에서는 소수점으로 나오는 숫자를 백분율%로 바꿀려고 저런식으로 썼지만 사실 그냥 연령대, 종교유무에따른 이혼율 보면 young한 사람들의 marriage, divorce 데이터 수치 자체가 거의 없어서 제외시켜야 될듯. 위랑 같은 내용, 다르게 표현 연령대, 종교, 결혼여부 비율 순 연령대, 결혼여.. 2022. 8. 27.
2019 한국통계자료 분석 4 : 성별과 직업 보면 Do it 쉽게배우는 파이썬 데이터분석 < -- 이 책은 메서드체이닝 정말 좋아한다 female은 행바꾸기 없이 그냥 2022. 8. 23.
2019 한국통계자료 분석 3 : 직업별 월급차이 merge, seaborn palette, sort_values,barplot,xticks, xlim 메인 데이터프레임이 welfare welfare에 list_job을 merge하고 welfare에 merge가 잘 됐는지 확인. 실제데이터라 결측치가 많아서 dropna, subset을 계속 써줘야된다 당연히 직업이랑 소득이 있으면 직업별 평균소득이 궁금해진다. 평균소득을 구했으면 당연히 줄세우기를 하고싶어진다. barplot으로 바로 그려봤더니 x축이 이렇다 xticks를 rotation시킨다. 이러면 좀 낫긴한데 예쁘지가않다 그냥 그래프 자체를 가로로 놓아보자. barplot도 axes-level이라 matplotlib 메서드 적용이 된다. 그래프를 보면 항상 예쁘게 꾸미고싶어진다. 줄세우기라 seq.. 2022. 8. 23.