pandas21 이상치를 대체하는 다양한 방법, 판다스로 구현하기 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 판다스 데이터 탐색 단계에서 이상치에 대해서 설명하도록 하겠습니다. 데이터 탐색 시 이상치(outlier) 처리 방법은 매우 중요합니다. 이상치는 일반적인 패턴에서 벗어나는 값으로, 데이터 분석 결과를 왜곡시킬 수 있습니다. 따라서 이상치를 식별하고 처리하는 것은 데이터 분석 과정에서 필수적인 단계입니다. 데이터 탐색 데이터 탐색은 데이터를 분석하기 전에 필요한 과정으로, 데이터의 구조와 특성을 파악하는 과정입니다. 데이터 탐색을 통해 데이터의 결측치, 이상치, 분포, 상관관계 등을 확인할 수 있습니다. import pandas as pd data = pd.read_csv('data.csv') 이상치란? 이상치란, 일반적인 데이터 분포에서.. 2023. 3. 20. pandas 기초(14) - 데이터프레임 합치기 concat() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번시간에 이어서 데이터 프레임을 합치는 concat 함수 옵션에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. 데이터프레임을 합치기 위해서 복사본도 준비했습니다. df2 = df.copy() 저번 시간에 배웠던 concat 함수를 사용해서 데이터프레임을 연결시켜 주었습니다. axis=0으로 두고 행을 기준으로 병합했습니다. pd.concat([df, df2], axis=0) 인덱스가 정리가 안돼있습니다. 이 때, reset_index함수를 사용해서 인덱스를 정리해 줍니다. df_concat.reset_index() 인덱스가 깔끔하게 정리가 됐지만.. 2023. 3. 17. pandas 기초(13) - 데이터프레임 합치기 concat() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 데이터 프레임을 합치는 concat 함수에 대해서 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. 데이터프레임을 합치기 위해서 복사본도 준비했습니다. df2 = df.copy() concat() 데이터프레임을 연결시켜주는 함수입니다. axis=0으로 두면 행을 기준으로 합칩니다. pd.concat([df, df2], axis=0) 데이터프레임양이 많아서 다 나오진 않았지만 df과 df2의 데이터프레임들이 행을 기준으로 합쳐졌습니다. pd.concat([df, df2], axis=1) df과 df2의 데이터프레임들이 을 기준으로 합쳐졌습니다. pd.conca.. 2023. 3. 15. pandas 기초(12) - 중복값 처리하기 drop.duplicates() 안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 pandas입니다. 이번 시간에는 저번 시간에 소개한 중복값에 대해서 좀 더 알아보도록 하겠습니다. 판다스 기초를 진행하면서 사용할 국내 아이돌 평판지수 데이터 프레임입니다. drop.duplicates() drop.duplicates( )는 데이터 프레임에서 중복되는 값이 있는 행을 제거하고 싶을 때 사용하는 메서드입니다. 아무것도 지정하지 않으면 모든 열(column)을 기준으로 중복을 제거해 줍니다. df.drop_duplicates(['그룹']) 파라미터로 '그룹'열을 지정해 줘서 중복값을 제거했습니다. keep='first' 중복되는 데이터 중에서 어떤 행을 남길지 지정할 수 있습니다. 'first'로 설정할 경우 인덱스 기준 가.. 2023. 3. 6. 이전 1 2 3 4 5 6 다음