안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 판다스 결측값에 대해서 알아보도록 하겠습니다.
판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.
결측값(NaN)
Not a Number의 약어로 표현 불가능한 수치형 결과입니다. 말 그대로 DataFrame의 누락된 데이터입니다. 파이썬에서는 NaN, NA, Null은 모두 같은 표현입니다.
df.info()
df.info()를 사용해서 데이터프레임의 정보를 확인할 수 있습니다. 데이터프레임의 전체 데이터 개수, 칼럼별 데이터 개수 및 타입 정보를 제공합니다. 여기서 non-null인 데이터 개수를 칼럼별로 제공하기 때문에 각 칼럼별 결측치를 확인할 수 있습니다.
여기서는 '그룹'과 '키' 칼럼에서 결측값이 있는 것을 확인할 수 있습니다.
isna(), isnull()
isna()는 데이터프레임 내에 결측 값을 확인하여, 그 결과를 True 또는 False로 반환합니다. NA, None, numpy.nan은 True 값에 해당하고, 그 외 나머지는 False에 해당합니다.
df.isna()
>>>
True가 return 되는 값이 NaN이라는 것을 알 수 있습니다.
df['키'].isnull()
>>>
'키' 칼럼의 결측값을 확인해 봤습니다. True로 나와있는 게 결측값들입니다.
notna(), notnull()
isna와 반대 결과를 반환하는 메서드입니다. 즉, 결측치가 아닌 값을 찾는 메서드입니다. NA, None, numpy.nan은 True 값에 매핑되고, 그 외 경우에는 False에 해당합니다.
df.notna()
>>>
isna와 반대로 False가 return 되는 값이 NaN임을 알 수 있습니다.
df['키'].notnull()
>>>
데이터 프레임 '키' 칼럼에서 NaN 값이 아닌 값들을 추출했습니다.
'pandas' 카테고리의 다른 글
pandas 기초(10) - 결측값 정리하기 dropna 옵션 axis, how, inplace (0) | 2023.02.27 |
---|---|
pandas 기초(9) - 결측값 정리하기 dropna(), fillna() (0) | 2023.02.22 |
pandas 기초(7) - 칼럼 배우기 part 2 (0) | 2023.01.31 |
pandas 기초(6) - 칼럼 배우기 part 1 (0) | 2023.01.30 |
pandas 기초(5) - 데이터 프레임 정렬하기 (0) | 2023.01.28 |
댓글