pandas 기초(12) - 중복값 처리하기 drop.duplicates()

안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번 시간에 소개한 중복값에 대해서 좀 더 알아보도록 하겠습니다.

판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.

drop.duplicates()

drop.duplicates( )는 데이터 프레임에서 중복되는 값이 있는 행을 제거하고 싶을 때 사용하는 메서드입니다. 아무것도 지정하지 않으면 모든 열(column)을 기준으로 중복을 제거해 줍니다.

df.drop_duplicates(['그룹'])

파라미터로 '그룹'열을 지정해 줘서 중복값을 제거했습니다.

keep='first'

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'first'로 설정할 경우 인덱스 기준 가장 앞에 있는 행만 남습니다.

df.drop_duplicates(['그룹'], keep = 'first')

'first'가 default값이기 때문에 위와 같이 나왔습니다.

keep='last'

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'last'로 설정할 경우 인덱스 기준 가장 마지막에 있는 행만 남습니다.

df.drop_duplicates(['그룹'], keep = 'last')

keep=False

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. False로 설정할 경우 중복값이 있는 행을 모든 행을 제거해 줍니다.

df.drop_duplicates(['그룹'], keep = False)

pandas 기초(14) - 데이터프레임 합치기 concat() (0)	2023.03.17
pandas 기초(13) - 데이터프레임 합치기 concat() (2)	2023.03.15
pandas 기초(11) - 중복값 확인하기 duplicated() (0)	2023.03.03
pandas 기초(10) - 결측값 정리하기 dropna 옵션 axis, how, inplace (0)	2023.02.27
pandas 기초(9) - 결측값 정리하기 dropna(), fillna() (0)	2023.02.22

콥스랩 기술 블로그