본문 바로가기
  • CobsLab upgrades your company value by AI technology
pandas

pandas 기초(12) - 중복값 처리하기 drop.duplicates()

by dmkdmk 2023. 3. 6.

안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번 시간에 소개한 중복값에 대해서 좀 더 알아보도록 하겠습니다.

 

판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다.

 

drop.duplicates()

drop.duplicates( )는 데이터 프레임에서 중복되는 값이 있는 행을 제거하고 싶을 때 사용하는 메서드입니다. 아무것도 지정하지 않으면 모든 열(column)을 기준으로 중복을 제거해 줍니다.

df.drop_duplicates(['그룹'])

파라미터로 '그룹'열을 지정해 줘서 중복값을 제거했습니다.

 

keep='first' 

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'first'로 설정할 경우 인덱스 기준 가장 앞에 있는 행만 남습니다.

df.drop_duplicates(['그룹'], keep = 'first')

'first'가 default값이기 때문에 위와 같이 나왔습니다.

 

 

keep='last' 

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'last'로 설정할 경우 인덱스 기준 가장 마지막에 있는 행만 남습니다.

df.drop_duplicates(['그룹'], keep = 'last')

 

 

keep=False 

중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. False로 설정할 경우 중복값이 있는 행을 모든 행을 제거해 줍니다.

df.drop_duplicates(['그룹'], keep = False)

 

댓글