안녕하세요 콥스랩(COBS LAB)입니다. 오늘 소개해드릴 주제는 판다스 데이터 타입 변경에 대해서 설명하도록 하겠습니다.
데이터를 다룰 때 각 열(column)과 행(row)마다 데이터 타입이 다르기 때문에 데이터타입을 잘 이해하고 활용하는 것이 중요합니다.
1. object
object 데이터타입은 일반적으로 문자열(string)을 나타냅니다. 예를 들어, 다음과 같은 데이터를 담고 있는 시리즈(Series)를 생성할 수 있습니다.
data = {'name': ['John', 'Mike', 'Sarah', 'Kate'],
'age': [30, 25, 35, 27],
'gender': ['M', 'M', 'F', 'F']}
df = pd.DataFrame(data)
print(df.dtypes)
name과 gender 열(column)은 object 데이터타입으로 인식되었습니다.
2. int64
int64 데이터타입은 정수형(integer)을 나타냅니다. 예를 들어, 다음과 같은 데이터를 담고 있는 시리즈(Series)를 생성할 수 있습니다.
data = {'name': ['John', 'Mike', 'Sarah', 'Kate'],
'age': [30, 25, 35, 27],
'gender': ['M', 'M', 'F', 'F']}
df = pd.DataFrame(data)
df['birth_year'] = 2023 - df['age']
print(df.dtypes)
age 열(column)은 int64 데이터타입으로 인식되었고, birth_year 열(column)은 age 열(column)에서 계산된 정수형 데이터입니다.
3. float64
float64 데이터타입은 실수형(float)을 나타냅니다. 예를 들어, 다음과 같은 데이터를 담고 있는 시리즈(Series)를 생성할 수 있습니다.
data = {'name': ['John', 'Mike', 'Sarah', 'Kate'],
'age': [30, 25, 35, 27],
'height': [175.2, 180.0, 163.5, 168.9]}
df = pd.DataFrame(data)
print(df.dtypes)
height 열(column)은 float64 데이터타입으로 인식되었습니다.
데이터 타입 변경
판다스(Pandas)에서는 데이터프레임(DataFrame)의 각 열(Column)에 대한 데이터 타입(dtype)을 변경할 수 있습니다. 이를 통해 데이터 분석에 필요한 타입으로 변환하여 분석 작업을 수행할 수 있습니다.
데이터 타입 변경에는 여러 가지 방법이 있습니다.
# 예시 데이터프레임 생성
df = pd.DataFrame({
'A': ['1', '2', '3'],
'B': [1, 2, 3],
'C': [1.1, 2.2, 3.3],
'D': ['a', 'b', 'c']
})
예시 데이터프레임(df)을 생성합니다. 이 데이터프레임은 4개의 열(Column)을 가지고 있으며, 각 열의 이름은 'A', 'B', 'C', 'D'입니다. 'A'열은 문자열(string) 데이터이고, 'B'열은 정수형(integer) 데이터, 'C'열은 실수형(float) 데이터, 'D'열은 문자열(string) 데이터입니다.
astype()
astype() 메서드를 사용하여 데이터 타입을 변경할 수 있습니다. 이 메서드는 기존 데이터프레임을 변경하지 않고, 변경된 새로운 데이터프레임을 반환합니다.
# 데이터 타입 변경
df['A'] = df['A'].astype(int)
df['C'] = df['C'].astype(str)
# 변경된 데이터프레임 출력
print(df)
데이터프레임(df)의 'A'열을 int(integer) 타입으로, 'C'열을 str(string) 타입으로 변경합니다. astype() 메서드를 사용하여 데이터 타입을 변경합니다. 변경된 데이터프레임은 원본 데이터프레임을 변경하지 않고, 새로운 데이터프레임을 반환합니다.
to_numeric()
to_numeric() 메서드를 사용하여 문자열을 숫자형으로 변경할 수 있습니다.
# 데이터 타입 변경
df['A'] = pd.to_numeric(df['A'])
# 변경된 데이터프레임 출력
print(df)
'A' 열의 문자열 타입을 숫자형으로 변경해줍니다.
apply()
apply() 함수를 사용하여 데이터프레임의 각 열(Column)에 대해 함수를 적용하여 데이터 타입을 변경할 수 있습니다.
# 데이터 타입 변경
df['A'] = df['A'].apply(int)
# 변경된 데이터프레임 출력
print(df)
'A'열을 int 타입으로 변경하는 코드입니다.
위와 같이 판다스에서 데이터 타입을 변경하는 방법은 다양합니다. 데이터 타입을 변경할 때에는 변경하고자 하는 열(Column)의 형태에 따라 적절한 방법을 선택하여 변경하시면 됩니다.
'pandas' 카테고리의 다른 글
판다스(Pandas)로 피벗테이블(Pivot Table) 만들기: 데이터 분석의 필수 도구! (0) | 2023.03.22 |
---|---|
Pandas merge, join, concat의 차이와 활용 예시 (0) | 2023.03.21 |
이상치를 대체하는 다양한 방법, 판다스로 구현하기 (0) | 2023.03.20 |
Pandas의 Concat 함수를 활용한 데이터 프레임 병합 방법 (0) | 2023.03.20 |
판다스로 데이터 전처리하기: 결측값과 중복값 처리 (0) | 2023.03.20 |
댓글