본문 바로가기
  • CobsLab upgrades your company value by AI technology

파이썬16

데이터 전처리에서 가장 중요한! 판다스(Pandas)의 데이터 타입 변경 방법 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 판다스 데이터 타입 변경에 대해서 설명하도록 하겠습니다. 데이터를 다룰 때 각 열(column)과 행(row)마다 데이터 타입이 다르기 때문에 데이터타입을 잘 이해하고 활용하는 것이 중요합니다. 1. object object 데이터타입은 일반적으로 문자열(string)을 나타냅니다. 예를 들어, 다음과 같은 데이터를 담고 있는 시리즈(Series)를 생성할 수 있습니다. data = {'name': ['John', 'Mike', 'Sarah', 'Kate'], 'age': [30, 25, 35, 27], 'gender': ['M', 'M', 'F', 'F']} df = pd.DataFrame(data) print(df.dtypes) nam.. 2023. 3. 21.
pandas 기초(13) - 데이터프레임 합치기 concat() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 데이터 프레임을 합치는 concat 함수에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. 데이터프레임을 합치기 위해서 복사본도 준비했습니다. df2 = df.copy() concat() 데이터프레임을 연결시켜주는 함수입니다. axis=0으로 두면 행을 기준으로 합칩니다. pd.concat([df, df2], axis=0) 데이터프레임양이 많아서 다 나오진 않았지만 df과 df2의 데이터프레임들이 행을 기준으로 합쳐졌습니다. pd.concat([df, df2], axis=1) df과 df2의 데이터프레임들이 을 기준으로 합쳐졌습니다. pd.conca.. 2023. 3. 15.
pandas 기초(12) - 중복값 처리하기 drop.duplicates() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번 시간에 소개한 중복값에 대해서 좀 더 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. drop.duplicates() drop.duplicates( )는 데이터 프레임에서 중복되는 값이 있는 행을 제거하고 싶을 때 사용하는 메서드입니다. 아무것도 지정하지 않으면 모든 열(column)을 기준으로 중복을 제거해 줍니다. df.drop_duplicates(['그룹']) 파라미터로 '그룹'열을 지정해 줘서 중복값을 제거했습니다. keep='first' 중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'first'로 설정할 경우 인덱스 기준 가.. 2023. 3. 6.
pandas 기초(11) - 중복값 확인하기 duplicated() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 데이터분석에 들어가기 앞서서 반드시 확인해야 하는 중복값에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. duplicated() duplicated()는 데이터에서 중복값이 있는 지 확인하는 메서드입니다. duplicated() 메소드는 True, False의 boolean 형태로 반환해 줍니다. 위 데이터에서 중복값이 있는지 확인해 보도록 하겠습니다. df.duplicated(['그룹']) '그룹'칼럼에서 '방탄소년단'과 '뉴이스트'에서 중복값이 True로 표시되었습니다. keep='first' duplicated 메소드에서 defalut값이며 .. 2023. 3. 3.