'dropna' 태그의 글 목록

dropna

ipython - pandas 3 2019.02.14

ipython - pandas 3

Iike 2019. 2. 14. 18:52

2019. 2. 14. 18:52

산술연산과 데이터 정렬

산술연산

객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합된다.

서로 겹치는 색인이 없다면 데이터는 NA 값이 된다.
산술연산 시 누락된 값은 전파되며, DataFrame에서는 로우와 칼럼 모두에 적용된다.

NA 값을 치환할 때는 fill_value 값을 지정

산술연산 메서드

일반 array의 산술 연산(브로드캐스팅 기능)

DataFrame과 Series간의 연산은 앞의 브로드캐스팅 기법과 유사

만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면, 그 객체는 형식을 맞추기 위해 재색인된다

python의 분산 구하기

두 var의 결과가 다른 이유는 np.var와 pd.var에서 제공하는 자유도(ddof)가 서로 다르기 때문

Series구조는 자동으로 pd.var 적용(ddof = 1)
a1.var()는 np.var, s1.var()는 pd.var 적용

함수 적용과 매핑

- 각 컬럼별 로우별 함수 적용(축 값 지정)

[파이썬 적용함수]

1. map함수
- map(function, **iterable)
- 1차원 원소별 적용 가능
- 리스트 출력
- 다수의 인자 전달 시 각 인자의 크기 일치 필요

2. map메서드
- data.map(function, **iterable)
- 1차원(Series) 원소별 적용 가능
- 다수의 인자 전달 시 각 인자 크기 일치 시킬 필요 없음

3. apply 메서드
- data.apply(function, axis)
- 행별(axis=0), 열별(axis=1) 적용 가능
- 주로 그룹함수와 함께 사용
- 출력 결과 Series

4. applymap 메서드
- data.applymap(function, **iterable)
- 2차원 원소별 적용 가능
- 출력 결과 DataFrame

# applymap은 row나 컬럼별로 작동하는 함수가 아니라, 각 요소별로 작동을 한다.
# 자체가 그룹함수라면 동시에 여러개가 전달되어서 요구되는 apply와 잘 어울림

정렬과 순위

sort_index 메서드
- 키 이름별 정렬
- 로우, 칼럼의 색인을 알파벳 순으로 정렬하여 새로운 객체 반환
- 지정된 축 별 정렬 가능

Series의 value 값에 따라 정렬하려면 sort_values 메서드 사용

rank
- rank(순위)는 정렬과 거의 흡사하며 1부터 배열의 유효한 데이터 개수까지 순위를 매김
- 순위는 numpy.argsort에서 반환하는 간접 정렬 색인과 유사한데, 동률인 순위를 처리하는 방식 다름
- 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매김

rank method