본문 바로가기
파이썬. 데이터분석/데이터분석 실습

타이타닉 분석 : 어떤 사람들이 탑승했을까? 어떤 사람들이 많이 죽었을까?

by 한국수달보호협회장 2022. 7. 2.

 

 

 

 

titanic 데이터 survived 열에서 0은 사망 1은 생존으로 바꿔준다.

 

 

히트맵을 만들어봤고 parch과 alone , sibsp과 alone이 연관성이 있다.

sibsp : 함께 탑승한 형제 또는 배우자 수

prach : 함께 탑승한 부모 또는 아이의 수

 

뜻을 알고보니까 당연히 연관성이 있을수밖에 없다. alone인 사람이 당연히 혼자왔으니 가족과 함께 온 수가 적은것이다. 인사이트를 얻기에는 좀 그렇다.

 

그리고 히트맵 파렛트입히는거는 좀 공부를 해야 될 것 같다.

 

 

타이타닉 영화도 그렇고 보통 재난영화나 재난상황을 가정하면,

1.어린아이들은 많이 살거같고 (아이먼저 구출해주니까)

2. 남자들이 보통 많이 죽는거같다.

3. 혼자인 사람이 많이죽었을까?

4. 가난한 사람들이 많이 죽을 것 같다

 

라는 생각이 드는데 한번 나이,성별,일행여부,부富(여기서는 좌석계급?class)에 따라 생존률을 분석해봐야겠다.

 

 

본격적인 분석에 앞서

 

 

891명중에 죽은사람이 500명이 넘고 생존자가 300명이 좀 넘는다.

 

1. 두 상관관계를 봤을때 수치의 절댓값이 높지않은걸보니 의외로 어린아이라고 생존률이 높진않은걸로 나왔다.

 

상관계수로는 부족해서 시각화로 나타내보자. 15살보다 어리면 어린애라고 하고

어린애들 생존률을 나타내봤는데, 전체 생존률이 30-40%인데 어린애들은 생존률이 50-60%는 되니 어린애들이 생존률이 높다는게 맞는말같다. 위에는 전체 나이와 생존률을 비교했고 밑에 그래프는 특정 나이대만 비교한거라 결과가 다른걸까? 이건 좀 고민해봐야 될 것 같다.

 

 

 

2. countplot으로 남,녀 숫자를 비교해본다. 남자가 많이 죽는거같긴한데 그냥 남자가 많이 타서 많이 죽은건가? 싶기도하다

x와 hue를 바꿔보면

 

확실히 남자가 많이죽었다. 정확한 수치로 비교해보자

남자수 577 사망 468   81%

여자수 314  사망 81    25.7%

 

3. 결과를 보면 일행이 있는사람은 (alone=False) 생존률이 50%정도 반반이고

일행이 없는사람은 (alone=True) 대충봤을때 70%는되는거같다.

4. 

 

일단 3등석에 타는사람이 좀 많다.

 

 

1등석은 생존자가 더 많고,  3등석은 사망자가 월등히 많다

 

 

+추가) 나이많은 사람이 요금을 많이낼까?

-> 나이랑 요금이랑 겉보기에도 상관관계가 약해보이고 상관계수도 0.10으로 나온다

 

 

타이타닉 데이터분석 글들을 많이 찾아봤는데 여기가 가장 자세하다

https://velog.io/@lsmmay322/%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89-%EC%A0%9C%EB%8C%80%EB%A1%9C-%EB%B6%84%EC%84%9D%ED%95%B4%EB%B3%B4%EA%B8%B0

 

kaggle - 타이타닉 제대로 분석해보기

kaggle 노트북을 필사해보면서 공부하기로 마음먹고 바로 시작했다. Kaggle Korea의 이유한님께서 올려주신 Kaggle 커리큘럼을 보고 순차대로 진행해볼 예정이다.

velog.io