본문 바로가기

Aiffel_learning/Data_analysis

5. PCA

PCA (Principal Component Analysis)

데이터의 주요 특성을 유지하면서 차원을 줄여 계산 효율성을 높임

from sklearn.decomposition import PCA
pca = PCA(n)  # n개의 주성분만 뽑고싶다
pca.fit(data)
pca.transform(data)
pca.fit_transform(data)

 

explained_variance_ratio_

: 주로 주성분 분석(Principal Component Analysis, PCA)과 같은 차원 축소 기법에서 사용되는 속성.

이 속성은 각 주성분이 원본 데이터의 분산(variance)을 얼마나 설명하는지에 대한 비율을 나타냄

(pca.explained_variance_ratio_).sum()

 

 

장점

데이터를 시각화 할때 유용함

데이터가 너무 복잡할때 학습시간을 줄일 수 있음

다중분산성(변수간의 상관관계)을 처리할 수 있다

 

단점

기본 변수들의 특성을 설명하기 힘들다

데이터의 손실이 있을 수 있다