본문 바로가기
  • CobsLab upgrades your company value by AI technology

판다스 기초11

pandas 기초(12) - 중복값 처리하기 drop.duplicates() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번 시간에 소개한 중복값에 대해서 좀 더 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. drop.duplicates() drop.duplicates( )는 데이터 프레임에서 중복되는 값이 있는 행을 제거하고 싶을 때 사용하는 메서드입니다. 아무것도 지정하지 않으면 모든 열(column)을 기준으로 중복을 제거해 줍니다. df.drop_duplicates(['그룹']) 파라미터로 '그룹'열을 지정해 줘서 중복값을 제거했습니다. keep='first' 중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'first'로 설정할 경우 인덱스 기준 가.. 2023. 3. 6.
pandas 기초(5) - 데이터 프레임 정렬하기 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번시간에는 데이터 프레임을 정렬하기 위해서 필요한 함수 sort_index와 sort_value에 대해서 알아보도록 하겠습니다. 예제용 데이터프레임입니다. df = pd.DataFrame({'name': ['A','B','C','D','E','F'], 'age': [20,22,18,18,24,30], 'state': ['서울','부산','대구','포항','울산','광주'], 'point': [74,84,70,90,88,97]} ) df >>> 1. sort_index sort_index는 인덱스 값을 기준으로 정렬하는 방법입니다. df.sort_index() >>> 아무 값도 넣지 않고 실행하면 index기준으로 오름.. 2023. 1. 28.
pandas 기초(4) - loc와 iloc 차이 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번시간에는 인덱스에서 행 선택할 때 사용하는 loc와 iloc에 관해서 배워보도록 하겠습니다. 저번 시간에 사용한 데이터 프레임을 가져왔습니다. df = pd.DataFrame({'name': ['A','B','C','D','E','F'], 'age': [20,22,18,18,24,30], 'state': ['서울','부산','대구','포항','울산','광주'], 'point': [74,84,70,90,88,97]} ) df >>> loc loc는 데이터 프레임의 행/열의 라벨을 통해 추출하는 방법입니다. loc에 하나의 값을 입력하면 그에 해당되는 하나의 행만 출력됩니다. df.loc[0] 전체 데이터 프레임에서 인.. 2023. 1. 27.