pandas 기초(11) - 중복값 확인하기 duplicated()

안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 데이터분석에 들어가기 앞서서 반드시 확인해야 하는 중복값에 대해서 알아보도록 하겠습니다.

판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.

duplicated()

duplicated()는 데이터에서 중복값이 있는 지 확인하는 메서드입니다. duplicated() 메소드는 True, False의 boolean 형태로 반환해 줍니다. 위 데이터에서 중복값이 있는지 확인해 보도록 하겠습니다.

df.duplicated(['그룹'])

'그룹'칼럼에서 '방탄소년단'과 '뉴이스트'에서 중복값이 True로 표시되었습니다.

keep='first'

duplicated 메소드에서 defalut값이며 중복값이 있으면 첫 번째 값만 False이고 나머지는 True를 반환해 줍니다.

df.duplicated(['그룹'], keep='first')

위와 같이 '그룹'칼럼에서 '방탄소년단'과 '뉴이스트'에서 중복값이 True로 표시되었습니다.

keep='last'

first 값의 반대이며 중복되는 대상이 마지막으로 나왔을 때만, 중복을 나타내는 True를 반환하고, 전에 나왔던 중복 값들은 False로 반환해 줍니다.

df.duplicated(['column'], keep='last')

keep=False

False는 'first'와 'last'와 다르게 처음이나 끝값인지 여부는 고려를 안 하고 중복이면 무조건 True를 반환합니다.

df.duplicated(['column'], keep=False)

pandas 기초(13) - 데이터프레임 합치기 concat() (2)	2023.03.15
pandas 기초(12) - 중복값 처리하기 drop.duplicates() (0)	2023.03.06
pandas 기초(10) - 결측값 정리하기 dropna 옵션 axis, how, inplace (0)	2023.02.27
pandas 기초(9) - 결측값 정리하기 dropna(), fillna() (0)	2023.02.22
pandas 기초(8) - 결측값 확인하기 isna(), notna() (0)	2023.02.01

콥스랩 기술 블로그