본문 바로가기
  • CobsLab upgrades your company value by AI technology

pandas 개념3

Pandas로 데이터프레임 그룹화하기: 그룹별로 데이터 처리하는 방법 데이터프레임을 그룹화하고 집계하는 기능은 판다스에서 가장 많이 사용되는 기능 중 하나입니다. 이번에는 판다스 데이터프레임을 그룹화하는 방법에 대해서 알아보도록 하겠습니다. 데이터프레임 그룹화 판다스에서 데이터프레임을 그룹화하는 방법은 groupby() 함수를 사용하는 것입니다. groupby() 함수는 지정한 열(column)을 기준으로 데이터프레임을 그룹화합니다. 이후 집계(aggregation) 함수를 사용하여 각 그룹별로 데이터를 처리할 수 있습니다. data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'], 'gender': ['F', 'M', 'M', 'M', 'F', 'M'], 'age': [25, 32, 18, 47, 22, .. 2023. 3. 22.
pandas 기초(11) - 중복값 확인하기 duplicated() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 데이터분석에 들어가기 앞서서 반드시 확인해야 하는 중복값에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. duplicated() duplicated()는 데이터에서 중복값이 있는 지 확인하는 메서드입니다. duplicated() 메소드는 True, False의 boolean 형태로 반환해 줍니다. 위 데이터에서 중복값이 있는지 확인해 보도록 하겠습니다. df.duplicated(['그룹']) '그룹'칼럼에서 '방탄소년단'과 '뉴이스트'에서 중복값이 True로 표시되었습니다. keep='first' duplicated 메소드에서 defalut값이며 .. 2023. 3. 3.
pandas 기초(8) - 결측값 확인하기 isna(), notna() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 판다스 결측값에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. 결측값(NaN) Not a Number의 약어로 표현 불가능한 수치형 결과입니다. 말 그대로 DataFrame의 누락된 데이터입니다. 파이썬에서는 NaN, NA, Null은 모두 같은 표현입니다. df.info() df.info()를 사용해서 데이터프레임의 정보를 확인할 수 있습니다. 데이터프레임의 전체 데이터 개수, 칼럼별 데이터 개수 및 타입 정보를 제공합니다. 여기서 non-null인 데이터 개수를 칼럼별로 제공하기 때문에 각 칼럼별 결측치를 확인할 수 있습니다. 여기서는 '그룹'.. 2023. 2. 1.