이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

1. 데이터 전처리 (Data Pre-Processing)

  • 2020.09.11 17:10
  • 학부 수업/머신러닝
반응형

머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정을 데이터 전처리라고 한다.

전처리 과정에서 해야 하는 일들을 다음과 같다.

  • 데이터 실수화: 문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환
  • 불완전 데이터(결측치) 제거: NaN, NA, NULL 값 등을 제거
  • 데이터 노이즈 제거
    • 가격 데이터의 '-', '없음' 등 적절하지 않은 데이터 제거
    • 이상치 제거
      • 나이 값으로 200, 1200 등이 존재하는 경우 등
  • 모순된 데이터 제거: 남성 주민번호가 2로 시작하는 경우 등
  • 데이터 불균형 해결
    • 과소포집(Undersampling), 과대포집(Oversampling)

주요 데이터 전처리 기법

  • Data Vectorization: 데이터를 실수화 하는 작업
  • Data Cleaning: 결측치, 이상치, 모순 데이터 등을 제거하는 작업
  • Data Integration: 여러 개의 데이터 파일을 하나로 합치는 과정
  • Data Reduction: 데이터가 과도하게 큰 경우 이를 줄이거나, 데이터의 차원을 축소하는 작업
  • Data Transformation: 데이터에 로그를 씌우거나, 평균값을 구하거나 하는 방법으로 데이터를 변환하는 작업
  • Data Balancing: 특정 클래스의 데이터가 타 클래스의 데이터 수와 너무 차이가 날 때, 샘플링을 통해 이 비율을 맞추는 작업
반응형

'학부 수업 > 머신러닝' 카테고리의 다른 글

5. 선형 회귀 (Linear Regression)  (0) 2020.10.21
4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall)  (0) 2020.09.23
4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor)  (0) 2020.09.23
3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing)  (0) 2020.09.13
2. 데이터 실수화 (Data Vectorization)  (0) 2020.09.11

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • 4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall)

    4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall)

    2020.09.23
  • 4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor)

    4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor)

    2020.09.23
  • 3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing)

    3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing)

    2020.09.13
  • 2. 데이터 실수화 (Data Vectorization)

    2. 데이터 실수화 (Data Vectorization)

    2020.09.11
다른 글 더 둘러보기

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (276)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (42)
      • 회고 & 계획 (16)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바