학부 수업/머신러닝
12. 차원 축소 (Dimension Reduction)
백지오
2020. 12. 16. 14:08
반응형
차원 축소는 데이터 전처리의 일종으로, 말 그대로 데이터의 차원을 줄이는 과정이다. 고차원 데이터를 머신러닝에 적합한 저차원의 데이터로 축소한다.
차원의 저주Curse of Dimension
차원이 증가할 수록 동일 정보량을 표현하기 위해 필요한 데이터의 수가 지수적으로 증가한다.
차원이 증가하면서, 학습 데이터 수가 차원 수보다 적어져 모델 성능이 저하된다. 데이터 차원이 증가할 수록, 데이터들의 밀도가 희박sparse해져서 학습이 어려워진다.
데이터의 수에 비해 특성의 수가 많아지면 발생한다.
차원 축소 배경
- 이론적으로, 차원의 증가는 모델의 성능을 향상시킨다. (각 변수가 독립일 경우)
- 그러나 실제로는 차원의 증가가 모델 성능 저하를 야기한다.
- 각 변수들이 상관관계가 있고, 노이즈가 존재하기 때문
- 일반적으로 데이터의 차원은 실제 모델에서 필요로 하는 본질적 차원Intrinsic Dimension보다 크다.
- 차원을 축소해도, 표현력이 상실되지 않는다.
차원 축소는 모델의 성능을 최대화 해주는 특성 변수들만을 선별하고 만드는 과정으로 볼 수 있다.
차원 축소를 하여 변수간의 상관 관계를 제거하고, 적절한 정보를 유지하면서 중복되거나 불필요한 변수를 제거할 수 있다.
고차원 데이터의 문제점
- 데이터에 포함된 노이즈의 비율도 증가함
- 모델 학습과 추론의 계산 복잡도 증가
- 동일한 성능을 얻기 위해 더 많은 데이터의 수가 필요함
차원의 저주 해결법
- 도메인 지식 활용: 데이터의 분야에 관련된 지식을 기반으로 중요한 특성 변수를 선별
- 목적함수에 Regularization Term 추가
- 차원 축소 기술로 전처리
차원 축소
차원 축소 방법은 크게 피드백을 통해 특성을 선택하는 지도학습 기반 방법과 피드백 없이 진행되는 비지도학습 기반 방법으로 나뉜다.
- 특성 선택Featrue Selection: 존재하는 변수 중, 유의미한 변수들을 선택
- 장점: 선택한 변수를 해석하기 용이함
- 단점: 변수간 상관관계 고려의 어려움
- $ x_1, x_2, \cdot , x_100 \rightarrow x_1, x_5 $
- 특성 추출Feature Extraction: 존재하는 변수의 변환을 통해 새로운 변수 추출
- 특성 생성Featrue Construction이라고도 함
- 장점: 변수간의 상관관계를 고려하고, 변수의 개수를 크게 줄일 수 있음
- 단점: 추출된 변수의 해석이 어려움
- $z = f(x_1, x_2)$
특성 선택은 비지도학습 방법인 Filter와 지도학습 방법인 Wrapper 방법으로 나뉘고, 특성 추출은 선형 방법과 비선형 방법으로 나뉜다. 특성 선택 분야는 최근, 오토인코더나 합성곱 bottleneck layer 등을 활용한 딥러닝 기반 방법이 대새이다.
반응형