pandas

pandas 기초(8) - 결측값 확인하기 isna(), notna()

dmkdmk 2023. 2. 1. 16:16

안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 판다스 결측값에 대해서 알아보도록 하겠습니다.

 

판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.

 

결측값(NaN)

Not a Number의 약어로 표현 불가능한 수치형 결과입니다. 말 그대로 DataFrame의 누락된 데이터입니다. 파이썬에서는 NaN, NA, Null은 모두 같은 표현입니다.

 

df.info()

df.info()를 사용해서 데이터프레임의 정보를 확인할 수 있습니다. 데이터프레임의 전체 데이터 개수, 칼럼별 데이터 개수 및 타입 정보를 제공합니다.  여기서 non-null인 데이터 개수를 칼럼별로 제공하기 때문에 각 칼럼별 결측치를 확인할 수 있습니다.

여기서는 '그룹'과 '키' 칼럼에서 결측값이 있는 것을 확인할 수 있습니다.

 

 

 

 

isna(), isnull()

isna()는 데이터프레임 내에 결측 값을 확인하여, 그 결과를 True 또는 False로 반환합니다. NA, None, numpy.nan은 True 값에 해당하고, 그 외 나머지는 False에 해당합니다.

df.isna()

>>>

True가 return 되는 값이 NaN이라는 것을 알 수 있습니다.

 

 

df['키'].isnull()

>>>

'키' 칼럼의 결측값을 확인해 봤습니다. True로 나와있는 게 결측값들입니다.

 

 

notna(), notnull()

 

isna와 반대 결과를 반환하는 메서드입니다. 즉, 결측치가 아닌 값을 찾는 메서드입니다. NA, None, numpy.nan은 True 값에 매핑되고, 그 외 경우에는 False에 해당합니다.

df.notna()

>>>

isna와 반대로 False가 return 되는 값이 NaN임을 알 수 있습니다.

 

df['키'].notnull()

>>>

데이터 프레임 '키' 칼럼에서 NaN 값이 아닌 값들을 추출했습니다.