titanic 데이터 survived 열에서 0은 사망 1은 생존으로 바꿔준다.
히트맵을 만들어봤고 parch과 alone , sibsp과 alone이 연관성이 있다.
sibsp : 함께 탑승한 형제 또는 배우자 수
prach : 함께 탑승한 부모 또는 아이의 수
뜻을 알고보니까 당연히 연관성이 있을수밖에 없다. alone인 사람이 당연히 혼자왔으니 가족과 함께 온 수가 적은것이다. 인사이트를 얻기에는 좀 그렇다.
그리고 히트맵 파렛트입히는거는 좀 공부를 해야 될 것 같다.
타이타닉 영화도 그렇고 보통 재난영화나 재난상황을 가정하면,
1.어린아이들은 많이 살거같고 (아이먼저 구출해주니까)
2. 남자들이 보통 많이 죽는거같다.
3. 혼자인 사람이 많이죽었을까?
4. 가난한 사람들이 많이 죽을 것 같다
라는 생각이 드는데 한번 나이,성별,일행여부,부富(여기서는 좌석계급?class)에 따라 생존률을 분석해봐야겠다.
본격적인 분석에 앞서
891명중에 죽은사람이 500명이 넘고 생존자가 300명이 좀 넘는다.
1. 두 상관관계를 봤을때 수치의 절댓값이 높지않은걸보니 의외로 어린아이라고 생존률이 높진않은걸로 나왔다.
상관계수로는 부족해서 시각화로 나타내보자. 15살보다 어리면 어린애라고 하고
어린애들 생존률을 나타내봤는데, 전체 생존률이 30-40%인데 어린애들은 생존률이 50-60%는 되니 어린애들이 생존률이 높다는게 맞는말같다. 위에는 전체 나이와 생존률을 비교했고 밑에 그래프는 특정 나이대만 비교한거라 결과가 다른걸까? 이건 좀 고민해봐야 될 것 같다.
2. countplot으로 남,녀 숫자를 비교해본다. 남자가 많이 죽는거같긴한데 그냥 남자가 많이 타서 많이 죽은건가? 싶기도하다
x와 hue를 바꿔보면
확실히 남자가 많이죽었다. 정확한 수치로 비교해보자
남자수 577 사망 468 81%
여자수 314 사망 81 25.7%
3. 결과를 보면 일행이 있는사람은 (alone=False) 생존률이 50%정도 반반이고
일행이 없는사람은 (alone=True) 대충봤을때 70%는되는거같다.
4.
일단 3등석에 타는사람이 좀 많다.
1등석은 생존자가 더 많고, 3등석은 사망자가 월등히 많다
+추가) 나이많은 사람이 요금을 많이낼까?
-> 나이랑 요금이랑 겉보기에도 상관관계가 약해보이고 상관계수도 0.10으로 나온다
타이타닉 데이터분석 글들을 많이 찾아봤는데 여기가 가장 자세하다
'파이썬. 데이터분석 > 데이터분석 실습' 카테고리의 다른 글
2019 한국통계자료 분석 1 : 성별, 나이에 따른 소득차이 (0) | 2022.08.21 |
---|---|
matplotlib : 막대그래프와 꺾은선그래프 동시에 그리기(twinx) (0) | 2022.07.16 |
새 함수 정의하기 : def hdta (head & tail) (0) | 2022.07.04 |
Pandas 날짜에서 요일 추출하는법 (0) | 2022.06.19 |
sns. scatterplot : 몸무게 - 키 상관관계 (0) | 2022.06.18 |