본문 바로가기

Aiffel_learning/Data_analysis

2-4. pandas : 문자열 처리

문자열 처리 : str 메소드

str 메소드는 pandas 시리즈의 문자열 데이터를 조작하는 데 사용됩니다.

주로 문자열의 부분 추출, 변환, 검색, 대체 등의 작업을 수행합니다.

주요 기능

  • 부분 문자열 추출: str.slice, str[:n], str[-n:]
  • 문자열 변환: str.upper(), str.lower(), str.capitalize()
  • 문자열 검색: str.contains(), str.startswith(), str.endswith()
  • 문자열 대체: str.replace()
  • 공백 제거: str.strip(), str.lstrip(), str.rstrip()
# str처리
data['칼럼'][-5:]      # 이렇게 하면 행 기준 제일 뒷 값 5개 출력됨
data['칼럼'].str[-5:]  # str 처리 해 줘야 텍스트 기준 처리됨

# split()
data['칼럼'].str.split(expand = True)  # 처리해주면 나뉜 항목을 칼럼화해서 보여줌
data['new_칼럼'] = data['칼럼'].str.split().apply(lambda x: x[-1]) 
# 'new_칼럼'이라는 새로운 칼럼 생성 & apply 적용해서 lambda 함수 적용

# 데이터타입 변경
data['new_칼럼'].astype('int')   # astype 사용
pd.to_numeric(data['new_칼럼'])  # pandas 메서드 to_numeric 사용(int/float 여부는 알아서 지정해줌)

# 숫자가 아닌 부분 찾아내기
data['new_칼럼'].str.isdigit()         # 숫자로만 구성된 항목은 True 출력
~data['new_칼럼'].str.isdigit()        # ~(=not)사용, 숫자로 구성되지 않은 항목이 True 출력
data[~data['new_칼럼'].str.isdigit()]  # True(숫자가 아닌 항목)만 출력