1. 데이터 전처리 (Data Pre-Processing)
반응형
머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정을 데이터 전처리라고 한다.
전처리 과정에서 해야 하는 일들을 다음과 같다.
- 데이터 실수화: 문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환
- 불완전 데이터(결측치) 제거: NaN, NA, NULL 값 등을 제거
- 데이터 노이즈 제거
- 가격 데이터의 '-', '없음' 등 적절하지 않은 데이터 제거
- 이상치 제거
- 나이 값으로 200, 1200 등이 존재하는 경우 등
- 모순된 데이터 제거: 남성 주민번호가 2로 시작하는 경우 등
- 데이터 불균형 해결
- 과소포집(Undersampling), 과대포집(Oversampling)
주요 데이터 전처리 기법
- Data Vectorization: 데이터를 실수화 하는 작업
- Data Cleaning: 결측치, 이상치, 모순 데이터 등을 제거하는 작업
- Data Integration: 여러 개의 데이터 파일을 하나로 합치는 과정
- Data Reduction: 데이터가 과도하게 큰 경우 이를 줄이거나, 데이터의 차원을 축소하는 작업
- Data Transformation: 데이터에 로그를 씌우거나, 평균값을 구하거나 하는 방법으로 데이터를 변환하는 작업
- Data Balancing: 특정 클래스의 데이터가 타 클래스의 데이터 수와 너무 차이가 날 때, 샘플링을 통해 이 비율을 맞추는 작업
반응형
'학부 수업 > 머신러닝' 카테고리의 다른 글
5. 선형 회귀 (Linear Regression) (0) | 2020.10.21 |
---|---|
4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall) (0) | 2020.09.23 |
4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor) (0) | 2020.09.23 |
3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing) (0) | 2020.09.13 |
2. 데이터 실수화 (Data Vectorization) (0) | 2020.09.11 |
댓글
이 글 공유하기
다른 글
-
4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall)
4.5. 머신러닝의 정확도, 정밀도, 재현율 (Accuracy, Precision, Recall)
2020.09.23 -
4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor)
4. K-최근접 이웃 알고리즘 (K-Nearest Neighbor)
2020.09.23 -
3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing)
3. 데이터 변환, 정제, 통합, 균형 (Data Transformation, Cleaning, Integration and Balancing)
2020.09.13 -
2. 데이터 실수화 (Data Vectorization)
2. 데이터 실수화 (Data Vectorization)
2020.09.11