목차
판다스 자료형
자료형 다루기
자료형 자유자재로 변환
: seaborn 라이브러리의 tips 집합
import pandas as pd
import seaborn as sns
tips = sns.load_dataset(“tips”) • 자료형을 변환 변환자료.astype(변환형태)
• 변환된 데이터 원래대로 변환
잘못 입력한 데이터 처리
- : pd.to_numeric(데이터프레임[‘바꿀열’], errors=’’)
- 문자열-> 정수
• 문자열로 셋팅(문제상황을)
• 오류(부분을 정수로 바꾸기)
tips_sub_miss[‘total_bill’].astype(float)
pd.to_numeric(tips_sub_miss[‘total_bill’])
• 활용 -raise: 숫자로 변환할 수 없는 값이 있으면 오류발생, 그 오류의 원인 찾아줌 (여전히 문자열)
-coerce: 숫자로 변환할 수 없는 값을 누락값으로
(정수로 추출)
-ignore: 오류발생X, 정수 변환X
+ downcast: 자료형의 크기 줄이기 —
카테고리 자료형
카테고리
: 유한한 범위의 값만을 가짐
용량, 속도 면에서 더 효율적
동일한 문자열이 반복되는 경우
문자열을 카테고리로 변환
카테고리를 문자열로 변환
문자열 처리하기
문자열 다루기
문자열을 일정한 간격으로 건너뛰며 추출
print(sent[::2})
문자열 메서드
- Capitalize :첫 문자를 대문자로 변환
- Count :문자열의 개수 반환
- Startswith :문자열이 특정 문자로 시작하면 참
- Endswith :문자열이 특정문자로 끝나면 참
- Find :찾을 문자열의 첫번째 인덱스 , 실패:-1
- Index :같음, 실패: ValueError
- Isalpha :모든 문자가 알파벳이면 참
- Isdecimal :모든 문자가 숫자이면 참
- Isalnum :모든 문자가 알파벳or 숫자면 참
- Partition :Spilt과 같지만 구분자도 반환
- Center :지정한 넓이고 문자열 벌리고 문자열 가운데 정렬
- zfill :문자열의 빈칸을 0으로 채움
• join ‘사이사이 연결어’.join([])
• splitlines 문자열.splitline()
: 문자열 행단위로 분리 후 리스트 반환
문자열 포맷팅
포맷
{}-> 플레이스 홀더
• 쉼표 숫자표현
• 소수점 표현
• 자리수에 맞추기
정규식
정규식
• 기본 정규식 문법
정규식으로 전화번호 패턴 찾기
1.re모듈과 테스트용 문자열 준비
import re
2.해보기
Re.match(pattern= 찾는 문자 패턴,string=0103328)
• 불함수도 가능
• match 에는 다양한 메서드 있음
Apply 메서드 활용
간단한 함수 만들기
적용 함수의 변수 1개
Def A(x):
Return x**2
B = df[‘a’].apply(A)
적용 함수의 변수 2개
행단위로 연산
그룹 연산
데이터 집계
집계 메서드
사용자 함수와 groupby함수 조합
: A= df.groupby(‘’).대입데이터이름.agg(적용함수)
여러 개 추가해서 딕셔너리 만들기
데이터 변환
표준점수
: 표준편차 – 평균 ->데이터 쉽게 비교가능
->표준화 할 뿐 집계하지 않아서 데이터 양 안줄어듦
누락값을 평균값으로 처리
Fillna : 각 열의 평균으로 결측치 채우기
-> 남녀 따로 해야되니 그룹으로 나눠서
그룹 오브젝트
그룹 오브젝트에 포함된 그룹보기
평균을 구할 수 없는 열
: 빼고 계산
특정 데이터 추출
그룹데이터이름.get_group(‘추출데이터’)
반복문
: 튜플로 출력
계산
• multiindex
- 인덱스 : sex, time
- 열 : total_bill ,tip ,size
• reset_index 로 데이터프레임 인덱스 새로 부여