본문 바로가기

파이썬. 데이터분석119

Pandas : pivot 다중 aggfunc (sum,count 같이) 배송주기_피벗 = pd.pivot_table(배송주기, index=['코드','고객사명'], values = ['고객그룹','배송일수'], aggfunc={'고객그룹':'count','배송일수':'sum'}) 이렇게 하면 매장수는 count, 배송일수는 sum 출처 : https://stackoverflow.com/questions/20119414/define-aggfunc-for-each-values-column-in-pandas-pivot-table define aggfunc for each values column in pandas pivot table Was trying to generate a pivot table with multiple "values" columns. I know I can .. 2022. 9. 28.
데이터프레임 어긋나게 나오는것(?)의 이해 피벗돌리거나 뭔갈 하고나서 데이터프레임을 보면 이런식으로 행 높이가 안맞는 경우가 보입니다. 저렇게만 보이는거고 xlsx 내보내기해서 보면 행 높이가 맞습니다. ※ 주의사항 그러나 저 pivot의 dateframe에서 column을 조회하면 '순매출' 만 나옵니다 코드와 고객사명은 index다. 다음 글에서는 pivot에서 저 index의 이름을 바꾸는 방법을 찾아보겠습니다. 회사내용이라 모자이크 했습니다 내보내기 하는법 https://beneagain.tistory.com/25 to_excel : dataframe 을 excel로 내보내기 tips.to_excel('C:/Users/Pang rim/Desktop/Python/Python_practice/data9.xlsx', sheet_name='She.. 2022. 9. 27.
피벗테이블 pd.pivot_table https://jimmy-ai.tistory.com/220 [Pandas] 파이썬 피벗테이블 생성 : pd.pivot_table 함수 사용법 정리 파이썬 판다스 pivot_table 함수 사용 예제 파이썬 pandas 모듈의 pd.pivot_table 함수로 피벗테이블을 원하는대로 생성하는 방법을 values, index, columns, fill_value 및 aggfunc 인자의 기능을 위주로 정리해.. jimmy-ai.tistory.com table1 = pd.pivot_table(df, values='국어', index=['반'], columns=['전공'], aggfunc=np.mean) table1 pd.pivot과 pd.pivot_table의 차이 설명. pd.pivot_table이 더 사용.. 2022. 8. 30.
2019 한국통계자료 분석 6 : 지역별 연령대 비율 replace, df.pivot, sns.barplot 지역코드에 실제지명대신 숫자로 표현되어있다. 코드로된걸 실제 지명으로 바꾸어준다 replace 첫번째. 지역 / 연령대 / 비율 전반적으로 old인 사람이 많고 대구/경북은 반이 old 두번째. 연령대 / 지역 / 비율로 하면 느낌이 다르다 ageg를 기준으로 내림차순 되어있어 수도권에 middle,young인 사람들이 많이산다는 점을 한눈에 볼 수 있다. 첫번째로 가서 백분율로 만들어준다 그래프로 시각화하고 legend가 작아서 크게 키워줬다. 주의할 점이 plt.legend를 sns.barplot 위에다 하니까 안되더라. plt.legend를 plotting 하는곳 밑에다가 써줘야 된다. 이건 좀 이해가 안간다. 그냥 matplotlib 할 때는.. 2022. 8. 27.
2019 한국통계자료 분석 5 : 종교와 이혼율 query and조건, value_counts(normalize=True), groupby(['ageg', 'marriage'], as_index = False)['religion'] 1 = 결혼, 3 = 이혼, 나머지 = etc 위에는 relpace를 이용했지만 아래처럼 np.where로 이중 if문처럼 사용도 가능 데이터프레임으로 수치표현 ※여기부터가 중요 종교 여부, 결혼 여부, 비율 이렇게 나오게하기 책에서는 소수점으로 나오는 숫자를 백분율%로 바꿀려고 저런식으로 썼지만 사실 그냥 연령대, 종교유무에따른 이혼율 보면 young한 사람들의 marriage, divorce 데이터 수치 자체가 거의 없어서 제외시켜야 될듯. 위랑 같은 내용, 다르게 표현 연령대, 종교, 결혼여부 비율 순 연령대, 결혼여.. 2022. 8. 27.
2019 한국통계자료 분석 4 : 성별과 직업 보면 Do it 쉽게배우는 파이썬 데이터분석 < -- 이 책은 메서드체이닝 정말 좋아한다 female은 행바꾸기 없이 그냥 2022. 8. 23.
2019 한국통계자료 분석 3 : 직업별 월급차이 merge, seaborn palette, sort_values,barplot,xticks, xlim 메인 데이터프레임이 welfare welfare에 list_job을 merge하고 welfare에 merge가 잘 됐는지 확인. 실제데이터라 결측치가 많아서 dropna, subset을 계속 써줘야된다 당연히 직업이랑 소득이 있으면 직업별 평균소득이 궁금해진다. 평균소득을 구했으면 당연히 줄세우기를 하고싶어진다. barplot으로 바로 그려봤더니 x축이 이렇다 xticks를 rotation시킨다. 이러면 좀 낫긴한데 예쁘지가않다 그냥 그래프 자체를 가로로 놓아보자. barplot도 axes-level이라 matplotlib 메서드 적용이 된다. 그래프를 보면 항상 예쁘게 꾸미고싶어진다. 줄세우기라 seq.. 2022. 8. 23.
2019 한국통계자료 분석 2 : 성별, 연령대에 따른 소득차이 (추가) barplot.countplot.lineplot.agg.groupby age 나이를 기준으로 ageg라는 연령대 column을 생성 어차피 똑같지만 plot.bar로도 만들어보고 sns.countplot으로도 만들어봤다 연령대를 기준으로 소득평균을 구한뒤 그래프로 나타내기 order 매개변수로 그래프 순서를 바꾸고 심심해서 palette도 입혀봤다 성별과 소득을 같이 groupby 같은 데이터인데도 x 와 hue가 바뀌면 그래프가 다르게 나온다 위에는 연령대와 성별로 grouping했는데 이번에는 나이와 성별로 grouping 전 게시글에는 성별과 소득의 차이를 histogram으로 표현했는데 시각적인 효과가 크지 않았다. 이번에 lineplot으로 그리니 성별간 소득차이가 한눈에 들어온다. age에 따.. 2022. 8. 22.