판다스 데이터프레임과 시리즈
목차
판다스 데이터프레임과 시리즈
장점
: 방대한 양의 데이터 저장 가능
행, 열 단위로 데이터 조작가능
나만의 데이터 만들기
시리즈 만들기
S= pd.Series([‘한 열에 들어갈것들’,index=[‘인덱스 이름’]]
데이터 프레임 만들기
• 기본 구조
• 열 순서 고정
시리즈 다루기
데이터 프레임에서 시리즈 선택
• (위의 데이터에서 시리즈 추출) first_row = scientists.loc[‘William Gosset’]
타입-> 시리즈
출력-> 오브젝트(문자열로 인식)
• index, values 속성과 keys 메서드 사용
• 시리즈 메서드
시리즈와 불린 추출
• 나이가 많은 사람데이터만 추출
• 불린 데이터 추출
• 불린 데이터 True값 추출
시리즈와 브로드캐스팅
• 백터: 시리즈처럼 여러 개의 값을 갖음
스칼라: 단순크기를 나타냄 • 백터 연산(같은 길이)
• 백터에 스칼라 연산
• 백터 연산(다른 길이)
누락값(NaN)처리
• sort_index 처리
ascending = True ->오름차순 정리
ascending = False ->내림차순 정리
• ascending = False 와 ascending = True 연산
ages+ ages 와 같음(index값으로 계산하기 떄문)
데이터프레임 다루기
불린 추출과 브로드 캐스팅
• 불린 추출하기
• bool 백터
• 브로드캐스팅(*2) 정수는 2배//문자열 2번 써짐
시리즈와 데이터프레임의 데이터 처리 • 날짜(문자열) 시간관련작업 유용 형태로
• 새로운 열 추가 데이터프레임 이름[‘추가 열 이름’], 데이터프레임 이름[‘추가 열 이름’]= (추가 행 이름, 추가 행 이름)
• 계산 열 추가(산 시간)
• 데이터 섞기 Import random // random.shuffle()
• 데이터프레임 열 삭제 문자열이름.drop([‘열 이름’], axis = 1)
데이터 저장하고 불러오기
피클로 저장하기
:바이너리 형태(2진법)의 오브젝트로 저장
-> pd.read_pickle 매서드로 읽어야함
• 직렬화(시리즈)한 오브젝트 저장 :스프레드시트보다 더 작은 용량으로 데이터 저장
• 데이터프레임 저장
CSV파일과 TSV파일로 저장하기
• CSV파일
:데이터를 쉼표로 구분하여 저장 • TSV파일
:데이터를 탭으로 구분하여 저장 • to_csv 매서드로 데이터프레임을 CSV파일로 저장
scientists.to_csv(‘../output/scientists_df.csv’)
• to_csv 매서드로 데이터프레임을 TSV파일로 저장
scientists.to_csv(‘../output/scientists_df.tsv’, sep=’\t’)
+엑셀 저장
시리즈: X -> 데이터프레임으로 변경
데이터프레임: 엑셀파일로 바로 저장 가능 (xlwt 라이브러리 필요)