본문 바로가기

분류 전체보기259

txt, csv 파일 불러오기 / 저장하기 그냥 encoding ='utf-8' 해도 encoding error발생하는데, encoding='utf-8-sig' 라고 입력해주니 깔끔하게 한글이 나온다 df.to_csv('score.txt', sep='\t') sep으로 나눠주니까 깔끔하게나온다 sep조건이 없으면 이렇게나온다 파일 열때도 sep조건은 중요하다. score파일은 애초에 저장될때도 tap으로 나눠져있어서 그런지 열때도 tap으로 나눠줘야 되나봄. 2022. 7. 4.
xlsx(excel) 파일로 저장 / 불러오기 : skiprows, nrows, usecols A1부터 시작되는 게 아닌 특정 셀부터 시작되는 데이터는 어떻게 가져올까? 사실 회사에서 만지는 대부분의 엑셀파일은 A1부터 시작하지않는다. 예전부터 이게 너무 궁금했는데 오늘 stackoverflow 검색하다 찾게됐다. 이렇게 생긴 xlsx,excel 엑셀파일 어떻게 불러와야될까? 그냥 불러오면 이렇게된다 df = pd.read_excel('score.xlsx', skiprows=2, usecols = 'B:K') skiprows로 행을 잘라내고 usecols로 필요한 열을 고르면된다. 팁 : usecols = 'B:AB' 이런식으로해도 딱 필요한 열만큼만 가져온다 ++추가) usecols='B,E:Y' 이런식으로 B열 + E~Y열을 고를 수있다 range를 이용할 수도 있다. df = pd.read_.. 2022. 7. 4.
groupby, 막대그래프 gruopby로 카테고리별 sum합계를 구해서 막대그래프 그리는거 groupby도 보면 DataFrame인데 막대그래프 그릴때 DataFrame이면 경고문 뜨면서 안되고 특정 열을 지정해서 Series만드니까 그래프가 나옴. 데이터프레임에서 알아서 합계구해서 막대그래프로 바로 만드는방법은 없나? https://rfriend.tistory.com/411 [Python] 막대 그래프 (Bar Chart) 지난 포스팅에서는 Python으로 연속형 자료에 대해 히스토그램과 박스 그래프를 그리는 방법을 소개하였습니다. 이번 포스팅에서는 이산형 자료에 대해 범주(category), 계급(class)별로 빈도나 합계 rfriend.tistory.com 2022. 7. 2.
Seaborn 공식사이트 공식사이트가면 그래프 유형별로 굉장히 친절하게 설명해준다. https://seaborn.pydata.org/index.html seaborn: statistical data visualization — seaborn 0.11.2 documentation Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics. For a brief introduction to the ideas behind the library, you can read the introductory note.. 2022. 7. 2.
Pandas DataFrame : 데이터 행,열 바꾸는 방법들 https://www.delftstack.com/ko/howto/python-pandas/how-to-change-the-order-of-dataframe-columns/ Pandas DataFrame 열의 순서를 변경하는 방법이 자습서에서는 insert, re_index 및 new list를 사용하여 DataFrame 열의 순서를 변경하는 방법을 보여줍니다.www.delftstack.com  df = df.reindex(columns=['a','f','d','b','c','e'])1번 방식 가장 간단df = df[['가','라','나','다']] 2번 reindex 사용df = df.reindex(columns=['가','라','나','다'] 이건 행에도 가능하다 df = df.reindex(index.. 2022. 7. 2.
해결) DataFrame에서 int64 자료형 숫자 천의단위마다 ,찍고 싶은데 어떡하는지 150,000 이런식으로 나오게 하고싶은데. 찾아봐도 잘 안나온다, 되게 간단한 질문이라 찾기도 쉬울줄 알았는데 아니다. pd.set_option('display.float_format', '{:,.2f}'.format) float64는 그냥 소수점 둘째 짜리까지 찍는 명령어를 배웠는데 int64는 모르겠다 정답 : apply lambda를 이용하는 방법 float형식은 display option으로 설정해줄수가 있었어서 그런 방법이 있을줄알았는데 진짜 구글에 한글도 쳐보고 영어로도 'pandas int separator', 'pandas thousand comma' 별에별거 다쳐봤는데 안나와서 그냥 apply lambda방식을 사용하기로함. 그리고 이게 좋은게 내가 원하는 열만 설정할수있는거라 또 좋다.. 2022. 7. 2.
fig, ax = plt.subplots : 여러 그래프 동시에 보여주기 1.(튜플형식) https://velog.io/@lsmmay322/%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89-%EC%A0%9C%EB%8C%80%EB%A1%9C-%EB%B6%84%EC%84%9D%ED%95%B4%EB%B3%B4%EA%B8%B0 kaggle - 타이타닉 제대로 분석해보기 kaggle 노트북을 필사해보면서 공부하기로 마음먹고 바로 시작했다. Kaggle Korea의 이유한님께서 올려주신 Kaggle 커리큘럼을 보고 순차대로 진행해볼 예정이다. velog.io https://jimmy-ai.tistory.com/80 [Matplotlib] 파이썬 그래프 여러개 다중 플롯(subplot) 초간단 설정 방법 파이썬 plt 그림 여러개 간단하게 설정하기 : plt.subplots() 안녕하세요.. 2022. 7. 2.
타이타닉 분석 : 어떤 사람들이 탑승했을까? 어떤 사람들이 많이 죽었을까? titanic 데이터 survived 열에서 0은 사망 1은 생존으로 바꿔준다. 히트맵을 만들어봤고 parch과 alone , sibsp과 alone이 연관성이 있다. sibsp : 함께 탑승한 형제 또는 배우자 수 prach : 함께 탑승한 부모 또는 아이의 수 뜻을 알고보니까 당연히 연관성이 있을수밖에 없다. alone인 사람이 당연히 혼자왔으니 가족과 함께 온 수가 적은것이다. 인사이트를 얻기에는 좀 그렇다. 그리고 히트맵 파렛트입히는거는 좀 공부를 해야 될 것 같다. 타이타닉 영화도 그렇고 보통 재난영화나 재난상황을 가정하면, 1.어린아이들은 많이 살거같고 (아이먼저 구출해주니까) 2. 남자들이 보통 많이 죽는거같다. 3. 혼자인 사람이 많이죽었을까? 4. 가난한 사람들이 많이 죽을 것 같다 라는.. 2022. 7. 2.