본문 바로가기

파이썬. 데이터분석119

Pandas DataFrame : str, lower, isin, contains 나도코딩 공부요약 str.startswith -> 시작 str.contains -> 포함 str.lower() -> 소문자로 싹 바꿔버림 df[df['SW특기'].str.contains('Java')] 평범한데 왜 에러가 나올까? 4,5보면 True도 False도 아닌 NaN이 떠서 그렇다. na=False 로 처리하면 문제해결 2022. 7. 6.
물결표시(~) : 반대되는 데이터 2022. 7. 6.
새 함수 정의하기 : def hdta (head & tail) 갑자기 든 생각 : df.head(3), df.tail(5) 하는거를 한번에 하면 어떨까? 보통 그냥 df를 출력하면 위에 n개 아래 n개 이런식으로 뜨는데 위에 3개, 아래 5개 보고싶을때도 있으니까. 상상 : 데이터프레임, head수, tail수를 입력하면 head수와 tail수를 concat으로 합쳐서 한번에 보여주는 함수를 만들기 별거없긴하지만 뭔가 이렇게 조그마한 거라도 계속 만들어야 실력이 늘기때문에 한번 시도해봤다. 실험할 DataFrame hdta(데이터프레임, 보고싶은 head수, 보고싶은 tail 수) 이게 .. SW특기가 비어보이는것 처럼 보이지만 셀이 밀려서 그렇다. 생각외로 한번도 오류가 안나고 깔끔하게됐다 2022. 7. 4.
txt, csv 파일 불러오기 / 저장하기 그냥 encoding ='utf-8' 해도 encoding error발생하는데, encoding='utf-8-sig' 라고 입력해주니 깔끔하게 한글이 나온다 df.to_csv('score.txt', sep='\t') sep으로 나눠주니까 깔끔하게나온다 sep조건이 없으면 이렇게나온다 파일 열때도 sep조건은 중요하다. score파일은 애초에 저장될때도 tap으로 나눠져있어서 그런지 열때도 tap으로 나눠줘야 되나봄. 2022. 7. 4.
xlsx(excel) 파일로 저장 / 불러오기 : skiprows, nrows, usecols A1부터 시작되는 게 아닌 특정 셀부터 시작되는 데이터는 어떻게 가져올까? 사실 회사에서 만지는 대부분의 엑셀파일은 A1부터 시작하지않는다. 예전부터 이게 너무 궁금했는데 오늘 stackoverflow 검색하다 찾게됐다. 이렇게 생긴 xlsx,excel 엑셀파일 어떻게 불러와야될까? 그냥 불러오면 이렇게된다 df = pd.read_excel('score.xlsx', skiprows=2, usecols = 'B:K') skiprows로 행을 잘라내고 usecols로 필요한 열을 고르면된다. 팁 : usecols = 'B:AB' 이런식으로해도 딱 필요한 열만큼만 가져온다 ++추가) usecols='B,E:Y' 이런식으로 B열 + E~Y열을 고를 수있다 range를 이용할 수도 있다. df = pd.read_.. 2022. 7. 4.
groupby, 막대그래프 gruopby로 카테고리별 sum합계를 구해서 막대그래프 그리는거 groupby도 보면 DataFrame인데 막대그래프 그릴때 DataFrame이면 경고문 뜨면서 안되고 특정 열을 지정해서 Series만드니까 그래프가 나옴. 데이터프레임에서 알아서 합계구해서 막대그래프로 바로 만드는방법은 없나? https://rfriend.tistory.com/411 [Python] 막대 그래프 (Bar Chart) 지난 포스팅에서는 Python으로 연속형 자료에 대해 히스토그램과 박스 그래프를 그리는 방법을 소개하였습니다. 이번 포스팅에서는 이산형 자료에 대해 범주(category), 계급(class)별로 빈도나 합계 rfriend.tistory.com 2022. 7. 2.
Pandas DataFrame : 데이터 행,열 바꾸는 방법들 https://www.delftstack.com/ko/howto/python-pandas/how-to-change-the-order-of-dataframe-columns/ Pandas DataFrame 열의 순서를 변경하는 방법이 자습서에서는 insert, re_index 및 new list를 사용하여 DataFrame 열의 순서를 변경하는 방법을 보여줍니다.www.delftstack.com  df = df.reindex(columns=['a','f','d','b','c','e'])1번 방식 가장 간단df = df[['가','라','나','다']] 2번 reindex 사용df = df.reindex(columns=['가','라','나','다'] 이건 행에도 가능하다 df = df.reindex(index.. 2022. 7. 2.
fig, ax = plt.subplots : 여러 그래프 동시에 보여주기 1.(튜플형식) https://velog.io/@lsmmay322/%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89-%EC%A0%9C%EB%8C%80%EB%A1%9C-%EB%B6%84%EC%84%9D%ED%95%B4%EB%B3%B4%EA%B8%B0 kaggle - 타이타닉 제대로 분석해보기 kaggle 노트북을 필사해보면서 공부하기로 마음먹고 바로 시작했다. Kaggle Korea의 이유한님께서 올려주신 Kaggle 커리큘럼을 보고 순차대로 진행해볼 예정이다. velog.io https://jimmy-ai.tistory.com/80 [Matplotlib] 파이썬 그래프 여러개 다중 플롯(subplot) 초간단 설정 방법 파이썬 plt 그림 여러개 간단하게 설정하기 : plt.subplots() 안녕하세요.. 2022. 7. 2.