from sklearn.impute import SimpleImputer
im = SimpleImputer(strategy='mean') # mean = 평균 / median = 중위수 / most frequent value = 최빈수
# dropna(), fillna() = 결측 데이터 0으로 채우기
im.fit(x_miss)
데이터 통합(Data Integration)
- 여러 개의 데이터 파일을 하나로 합치는 과정
import pandas as pd
df1 = pd.read_csv("train.csv", engine = 'python')
df2 = pd.read_csv("store.csv",engine ='python')
df = pd.merge(df1,df2,on='Store') # Store를 기준으로 병합
데이터 불균형(Data Imbalance)
- 특정 클래스의 관측치가 다른 클래스에 비해 매우 낮게 나타나는 데이터 불균형 현상을 해소하기 위한 기법
# 데이터 생성
from collections import Counter
from sklearn.datasets import make_classification
X, y = make_classification(n_classes = 3, weights=[0.03, 0.07, 0.9], n_features=2, n_informative = 2, n_redundant=0,
n_clusters_per_class=1, n_samples=200, random_state = 10)
# matplotlib로 그래프 그리기
import matplotlib.pyplot as plt
plt.scatter(X[:,0], X[:,1], marker='o', c=y,
s=100, edgecolor="k", linewidth = 1)
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")