본문 바로가기

파이썬. 데이터분석/데이터분석 실습12

페캠 데이터실습.Ch1 : 센서데이터 이상진단및예측 / subplot for순환문.iloc for 순환문 이용해서 subplot 그래프 생성하고, 모든 그래프에 경계선 넣기 2022. 10. 30.
2019 한국통계자료 분석 6 : 지역별 연령대 비율 replace, df.pivot, sns.barplot 지역코드에 실제지명대신 숫자로 표현되어있다. 코드로된걸 실제 지명으로 바꾸어준다 replace 첫번째. 지역 / 연령대 / 비율 전반적으로 old인 사람이 많고 대구/경북은 반이 old 두번째. 연령대 / 지역 / 비율로 하면 느낌이 다르다 ageg를 기준으로 내림차순 되어있어 수도권에 middle,young인 사람들이 많이산다는 점을 한눈에 볼 수 있다. 첫번째로 가서 백분율로 만들어준다 그래프로 시각화하고 legend가 작아서 크게 키워줬다. 주의할 점이 plt.legend를 sns.barplot 위에다 하니까 안되더라. plt.legend를 plotting 하는곳 밑에다가 써줘야 된다. 이건 좀 이해가 안간다. 그냥 matplotlib 할 때는.. 2022. 8. 27.
2019 한국통계자료 분석 5 : 종교와 이혼율 query and조건, value_counts(normalize=True), groupby(['ageg', 'marriage'], as_index = False)['religion'] 1 = 결혼, 3 = 이혼, 나머지 = etc 위에는 relpace를 이용했지만 아래처럼 np.where로 이중 if문처럼 사용도 가능 데이터프레임으로 수치표현 ※여기부터가 중요 종교 여부, 결혼 여부, 비율 이렇게 나오게하기 책에서는 소수점으로 나오는 숫자를 백분율%로 바꿀려고 저런식으로 썼지만 사실 그냥 연령대, 종교유무에따른 이혼율 보면 young한 사람들의 marriage, divorce 데이터 수치 자체가 거의 없어서 제외시켜야 될듯. 위랑 같은 내용, 다르게 표현 연령대, 종교, 결혼여부 비율 순 연령대, 결혼여.. 2022. 8. 27.
2019 한국통계자료 분석 4 : 성별과 직업 보면 Do it 쉽게배우는 파이썬 데이터분석 < -- 이 책은 메서드체이닝 정말 좋아한다 female은 행바꾸기 없이 그냥 2022. 8. 23.
2019 한국통계자료 분석 3 : 직업별 월급차이 merge, seaborn palette, sort_values,barplot,xticks, xlim 메인 데이터프레임이 welfare welfare에 list_job을 merge하고 welfare에 merge가 잘 됐는지 확인. 실제데이터라 결측치가 많아서 dropna, subset을 계속 써줘야된다 당연히 직업이랑 소득이 있으면 직업별 평균소득이 궁금해진다. 평균소득을 구했으면 당연히 줄세우기를 하고싶어진다. barplot으로 바로 그려봤더니 x축이 이렇다 xticks를 rotation시킨다. 이러면 좀 낫긴한데 예쁘지가않다 그냥 그래프 자체를 가로로 놓아보자. barplot도 axes-level이라 matplotlib 메서드 적용이 된다. 그래프를 보면 항상 예쁘게 꾸미고싶어진다. 줄세우기라 seq.. 2022. 8. 23.
2019 한국통계자료 분석 2 : 성별, 연령대에 따른 소득차이 (추가) barplot.countplot.lineplot.agg.groupby age 나이를 기준으로 ageg라는 연령대 column을 생성 어차피 똑같지만 plot.bar로도 만들어보고 sns.countplot으로도 만들어봤다 연령대를 기준으로 소득평균을 구한뒤 그래프로 나타내기 order 매개변수로 그래프 순서를 바꾸고 심심해서 palette도 입혀봤다 성별과 소득을 같이 groupby 같은 데이터인데도 x 와 hue가 바뀌면 그래프가 다르게 나온다 위에는 연령대와 성별로 grouping했는데 이번에는 나이와 성별로 grouping 전 게시글에는 성별과 소득의 차이를 histogram으로 표현했는데 시각적인 효과가 크지 않았다. 이번에 lineplot으로 그리니 성별간 소득차이가 한눈에 들어온다. age에 따.. 2022. 8. 22.
2019 한국통계자료 분석 1 : 성별, 나이에 따른 소득차이 출처 : Do it 쉽게배우는 파이썬 데이터분석 224p~ Raw data column 수가 상당히 많다 1. 성별에 따라 급여차이가 많이 날까? column 명을 바꾸고 성별별로 사람 수를 파악 성별이 1, 2가 아닌 데이터(결측치)는 np.nan으로 성별이 1, 2 라고 나와있는걸 각각 male, female로 변경 한 번 boxplot, histplot으로 소득별 분포를 그려봤다. boxplot에서 outlier가 상당히 많은데. 생각해보면 소득이라는 특성상 그럴수밖에 없을것 같다. 많이버는 사람이 은근있고, 그 금액도 상상외로 많은경우가 있어서 그런걸로 추정된다. histplot역시 생각한것처럼 나왔다. 성별별로 소득평균을 내봤는데 남자가 유의미하게 많다 평균만 보면 뭔가 시원하지가 않다. 남녀 .. 2022. 8. 21.
matplotlib : 막대그래프와 꺾은선그래프 동시에 그리기(twinx) https://www.youtube.com/watch?v=PjhlUzp_cU0 나도코딩 데이터분석 마지막파트 여기서 배운것들을 토대로 좀 더 찾아서 추가함 stateless 방식 ax1.legend(bbox_to_anchor=(1, 0.9),fontsize=18) - legend 상세한 위치설정 ax1.yaxis.set_label_coords(0, 1) - y축label 상세한 위치설정 ax1과 ax2 둘다 legend를 띄우면 겹쳐있어서 ax1(출생아 수)의 legend위치를 바꿨다 ax2 = ax1.twinx() 뜻 : ax2는 ax1와 같은 축을 공유한다. fig, ax1 = plt.subplots(figsize=(12,7)) ax1.bar(df.index, df['출생아 수'], label='출생.. 2022. 7. 16.