이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

12. 차원 축소 (Dimension Reduction)

  • 2020.12.16 14:08
  • 학부 수업/머신러닝
반응형

차원 축소는 데이터 전처리의 일종으로, 말 그대로 데이터의 차원을 줄이는 과정이다. 고차원 데이터를 머신러닝에 적합한 저차원의 데이터로 축소한다.

차원의 저주Curse of Dimension

차원이 증가할 수록 동일 정보량을 표현하기 위해 필요한 데이터의 수가 지수적으로 증가한다.
차원이 증가하면서, 학습 데이터 수가 차원 수보다 적어져 모델 성능이 저하된다. 데이터 차원이 증가할 수록, 데이터들의 밀도가 희박sparse해져서 학습이 어려워진다.

데이터의 수에 비해 특성의 수가 많아지면 발생한다.

차원 축소 배경

  • 이론적으로, 차원의 증가는 모델의 성능을 향상시킨다. (각 변수가 독립일 경우)
  • 그러나 실제로는 차원의 증가가 모델 성능 저하를 야기한다.
    • 각 변수들이 상관관계가 있고, 노이즈가 존재하기 때문
  • 일반적으로 데이터의 차원은 실제 모델에서 필요로 하는 본질적 차원Intrinsic Dimension보다 크다.
    • 차원을 축소해도, 표현력이 상실되지 않는다.

차원 축소는 모델의 성능을 최대화 해주는 특성 변수들만을 선별하고 만드는 과정으로 볼 수 있다.

차원 축소를 하여 변수간의 상관 관계를 제거하고, 적절한 정보를 유지하면서 중복되거나 불필요한 변수를 제거할 수 있다.

고차원 데이터의 문제점

  • 데이터에 포함된 노이즈의 비율도 증가함
  • 모델 학습과 추론의 계산 복잡도 증가
  • 동일한 성능을 얻기 위해 더 많은 데이터의 수가 필요함

차원의 저주 해결법

  • 도메인 지식 활용: 데이터의 분야에 관련된 지식을 기반으로 중요한 특성 변수를 선별
  • 목적함수에 Regularization Term 추가
  • 차원 축소 기술로 전처리

차원 축소

차원 축소 방법은 크게 피드백을 통해 특성을 선택하는 지도학습 기반 방법과 피드백 없이 진행되는 비지도학습 기반 방법으로 나뉜다.

  • 특성 선택Featrue Selection: 존재하는 변수 중, 유의미한 변수들을 선택
    • 장점: 선택한 변수를 해석하기 용이함
    • 단점: 변수간 상관관계 고려의 어려움
    • $ x_1, x_2, \cdot , x_100 \rightarrow x_1, x_5 $
  • 특성 추출Feature Extraction: 존재하는 변수의 변환을 통해 새로운 변수 추출
    • 특성 생성Featrue Construction이라고도 함
    • 장점: 변수간의 상관관계를 고려하고, 변수의 개수를 크게 줄일 수 있음
    • 단점: 추출된 변수의 해석이 어려움
    • $z = f(x_1, x_2)$

특성 선택은 비지도학습 방법인 Filter와 지도학습 방법인 Wrapper 방법으로 나뉘고, 특성 추출은 선형 방법과 비선형 방법으로 나뉜다. 특성 선택 분야는 최근, 오토인코더나 합성곱 bottleneck layer 등을 활용한 딥러닝 기반 방법이 대새이다.

반응형

'학부 수업 > 머신러닝' 카테고리의 다른 글

14. 교차 검증 (Cross Validation)  (0) 2020.12.16
13. 주성분 분석 (Principal Component Analysis: PCA)  (0) 2020.12.16
11. 군집화 (Clustering)  (0) 2020.12.15
10. 비선형 서포트 벡터 머신 (Non-linear SVM)  (0) 2020.11.25
9. 서포트 벡터 머신 (Support Vector Machine: SVM)  (2) 2020.11.25

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • 14. 교차 검증 (Cross Validation)

    14. 교차 검증 (Cross Validation)

    2020.12.16
  • 13. 주성분 분석 (Principal Component Analysis: PCA)

    13. 주성분 분석 (Principal Component Analysis: PCA)

    2020.12.16
  • 11. 군집화 (Clustering)

    11. 군집화 (Clustering)

    2020.12.15
  • 10. 비선형 서포트 벡터 머신 (Non-linear SVM)

    10. 비선형 서포트 벡터 머신 (Non-linear SVM)

    2020.11.25
다른 글 더 둘러보기

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (276)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (42)
      • 회고 & 계획 (16)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바