본문 바로가기
  • CobsLab upgrades your company value by AI technology
pandas

pandas 기초(8) - 결측값 확인하기 isna(), notna()

by dmkdmk 2023. 2. 1.

안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 판다스 결측값에 대해서 알아보도록 하겠습니다.

 

판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.

 

결측값(NaN)

Not a Number의 약어로 표현 불가능한 수치형 결과입니다. 말 그대로 DataFrame의 누락된 데이터입니다. 파이썬에서는 NaN, NA, Null은 모두 같은 표현입니다.

 

df.info()

df.info()를 사용해서 데이터프레임의 정보를 확인할 수 있습니다. 데이터프레임의 전체 데이터 개수, 칼럼별 데이터 개수 및 타입 정보를 제공합니다.  여기서 non-null인 데이터 개수를 칼럼별로 제공하기 때문에 각 칼럼별 결측치를 확인할 수 있습니다.

여기서는 '그룹'과 '키' 칼럼에서 결측값이 있는 것을 확인할 수 있습니다.

 

 

 

 

isna(), isnull()

isna()는 데이터프레임 내에 결측 값을 확인하여, 그 결과를 True 또는 False로 반환합니다. NA, None, numpy.nan은 True 값에 해당하고, 그 외 나머지는 False에 해당합니다.

df.isna()

>>>

True가 return 되는 값이 NaN이라는 것을 알 수 있습니다.

 

 

df['키'].isnull()

>>>

'키' 칼럼의 결측값을 확인해 봤습니다. True로 나와있는 게 결측값들입니다.

 

 

notna(), notnull()

 

isna와 반대 결과를 반환하는 메서드입니다. 즉, 결측치가 아닌 값을 찾는 메서드입니다. NA, None, numpy.nan은 True 값에 매핑되고, 그 외 경우에는 False에 해당합니다.

df.notna()

>>>

isna와 반대로 False가 return 되는 값이 NaN임을 알 수 있습니다.

 

df['키'].notnull()

>>>

데이터 프레임 '키' 칼럼에서 NaN 값이 아닌 값들을 추출했습니다.

댓글