출처 : Do it 쉽게배우는 파이썬 데이터분석 224p~
Raw data column 수가 상당히 많다
1. 성별에 따라 급여차이가 많이 날까?
column 명을 바꾸고 성별별로 사람 수를 파악
성별이 1, 2가 아닌 데이터(결측치)는 np.nan으로
성별이 1, 2 라고 나와있는걸 각각 male, female로 변경
한 번 boxplot, histplot으로 소득별 분포를 그려봤다.
boxplot에서 outlier가 상당히 많은데. 생각해보면 소득이라는 특성상 그럴수밖에 없을것 같다. 많이버는 사람이 은근있고, 그 금액도 상상외로 많은경우가 있어서 그런걸로 추정된다.
histplot역시 생각한것처럼 나왔다.
성별별로 소득평균을 내봤는데 남자가 유의미하게 많다
평균만 보면 뭔가 시원하지가 않다. 남녀 소득별 분포표를 나타내보자
여자는 거의 50만원이하로 버는 사람의 수가 많은데, 남자는 여자에 비해 그 수가 적고 전체적으로 우측에 치우쳐져있다.
보면 x축 tick도 좀 다르다. 월 1천만원이 넘는 고소득자 수도 남자그룹에서 좀 보인다. 평균에 영향을 끼쳤을 것 같다.
2. 나이에 따라 급여차이가 많이 날까?
출생연도 분포 histogram
출생연도 -> 나이로 바꿔준다.
기준이 2019년도라 age = 2019 - 탄생년도 + 1
나이별로 소득의 평균을 groupby
lineplot으로 그래프 그리기
예전 경제학 시간에 모딜리아니 생애주기 가설(출생부터 사망까지 소득, 소비 그래프를 나타낸 것)을 배웠는데
거기서 나온 소득 그래프랑 비슷하다. 학교다닐때 뭘 이런 당연한걸 가설이라고 배웠나했는데 실제 데이터도 그러니까 신기하다
출처 : https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1787
'파이썬. 데이터분석 > 데이터분석 실습' 카테고리의 다른 글
2019 한국통계자료 분석 3 : 직업별 월급차이 (0) | 2022.08.23 |
---|---|
2019 한국통계자료 분석 2 : 성별, 연령대에 따른 소득차이 (추가) (0) | 2022.08.22 |
matplotlib : 막대그래프와 꺾은선그래프 동시에 그리기(twinx) (0) | 2022.07.16 |
새 함수 정의하기 : def hdta (head & tail) (0) | 2022.07.04 |
타이타닉 분석 : 어떤 사람들이 탑승했을까? 어떤 사람들이 많이 죽었을까? (0) | 2022.07.02 |