본문 바로가기
파이썬. 데이터분석/데이터분석 실습

2019 한국통계자료 분석 1 : 성별, 나이에 따른 소득차이

by 한국수달보호협회장 2022. 8. 21.

출처 : Do it 쉽게배우는 파이썬 데이터분석 224p~

 

Raw data column 수가 상당히 많다

 

1. 성별에 따라 급여차이가 많이 날까?

 

column 명을 바꾸고 성별별로 사람 수를 파악

 

 

성별이 1, 2가 아닌 데이터(결측치)는 np.nan으로

성별이 1, 2 라고 나와있는걸 각각 male, female로 변경

 

한 번 boxplot, histplot으로 소득별 분포를 그려봤다.

 

 

boxplot에서 outlier가 상당히 많은데. 생각해보면 소득이라는 특성상 그럴수밖에 없을것 같다. 많이버는 사람이 은근있고, 그 금액도 상상외로 많은경우가 있어서 그런걸로 추정된다.

 

histplot역시 생각한것처럼 나왔다.

 

성별별로 소득평균을 내봤는데 남자가 유의미하게 많다

 

평균만 보면 뭔가 시원하지가 않다. 남녀 소득별 분포표를 나타내보자

 

 

 

 

여자는 거의 50만원이하로 버는 사람의 수가 많은데, 남자는 여자에 비해 그 수가 적고 전체적으로 우측에 치우쳐져있다.

보면 x축 tick도 좀 다르다. 월 1천만원이 넘는 고소득자 수도 남자그룹에서 좀 보인다. 평균에 영향을 끼쳤을 것 같다.

 

 

2. 나이에 따라 급여차이가 많이 날까?

 

 

출생연도 분포 histogram

 

출생연도 -> 나이로 바꿔준다.

 

기준이 2019년도라 age = 2019 - 탄생년도 + 1

 

 

 

나이별로 소득의 평균을 groupby

 

 

lineplot으로 그래프 그리기

 

예전 경제학 시간에 모딜리아니 생애주기 가설(출생부터 사망까지 소득, 소비 그래프를 나타낸 것)을 배웠는데

거기서 나온 소득 그래프랑 비슷하다. 학교다닐때 뭘 이런 당연한걸 가설이라고 배웠나했는데 실제 데이터도 그러니까 신기하다 

 

 

출처 : https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1787 

 

가계부채 대비가 절실한 또 하나의 이유 | click 경제교육 | KDI 경제정보센터

가계부채에 대한 우려의 목소리가 날로 커지고 있지만 사실 빚을 진다는 것에 대한 걱정은 어제 오늘일이 아니다. 생애주기가설(life-cycle hypothesis)로도 빚을 잘 관리해야 하는 이유를 찾을 수 있

eiec.kdi.re.kr