목차
👀, 🤷♀️ , 📜
이 아이콘들을 누르시면 코드, 개념 부가 설명을 보실 수 있습니다:)
SVM이란?
서포트 벡터 머신 SVM(support vector machine)
- 매우 강력함: 머신러닝 모델 중 가장 인기있는 모델 중 하나임
- 다목적 머신러닝 모델: 선형 or 비선형 분류 회귀, 이상치 탐색에 사용가능
- 사용 용도
- 특히 복잡한 분류 문제에 적합
- 작거나 중간 크기의 데이터셋에 적합
비선형 SVM 분류
선형 SVM 분류기가 효율적이고 많은 경우에 아주 잘 작동하지만,
선형적으로 분류할 수 없는 데이터셋이 많다.
선형 데이터 셋을 다루는 한가지 방법은 특성을 더 추가하는 것 이다.
이렇게 하면 선형적으로 구분되는 데이터셋이 만들어 질 수 있다.
예를 들어보면
아래는 \(X_1\) 이라는 특성 하나를 기준으로 데이터셋을 분류한 것이다.(1차원)
그런데 데이터 셋이 하나다 보니 잘 분류되지 않는다.
그러므로 \(X_2\)라는 특성하나를 더 추가해서 더 잘 분류가 되게 하는 것이다.(2차원)
👀 특성 추가 전,후 코드 보기
X1D = np.linspace(-4, 4, 9).reshape(-1, 1)
X2D = np.c_[X1D, X1D**2]
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])
plt.figure(figsize=(10, 3))
plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.plot(X1D[:, 0][y==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][y==1], np.zeros(5), "g^")
plt.gca().get_yaxis().set_ticks([])
plt.xlabel(r"$x_1$", fontsize=20)
plt.axis([-4.5, 4.5, -0.2, 0.2])
plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(X2D[:, 0][y==0], X2D[:, 1][y==0], "bs")
plt.plot(X2D[:, 0][y==1], X2D[:, 1][y==1], "g^")
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"$x_2$ ", fontsize=20, rotation=0)
plt.gca().get_yaxis().set_ticks([0, 4, 8, 12, 16])
plt.plot([-4.5, 4.5], [6.5, 6.5], "r--", linewidth=3)
plt.axis([-4.5, 4.5, -1, 17])
plt.subplots_adjust(right=1)
save_fig("higher_dimensions_plot", tight_layout=False)
plt.show()
사이킷 런을 이용하여 이를 구현하려면,
- PolynomialFeatures
- StandardScaler: 두 특성의 단위 조정
- LinearSVC C: 값 조정
👀 사용할 데이터셋 만드는 코드 보기
moons 데이터셋은 사이킷런의 make_moons 를 사용해서 만든 두 개의 반달 모양 데이터셋이다.
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)
def plot_dataset(X, y, axes):
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
plt.axis(axes)
plt.grid(True, which='both')
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"$x_2$", fontsize=20, rotation=0)
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.show()
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
polynomial_svm_clf = Pipeline([
("poly_features", PolynomialFeatures(degree=3)),
("scaler", StandardScaler()),
("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42))
])
polynomial_svm_clf.fit(X, y)
다항식 커널
위의 예처럼 특성을 추가하는 것은 간단하고 모든 머신러닝 알고리즘에서 잘 작동한다.
🚫 하지만, 높은 치수의 다항식은
- 매우 복잡한 데이터셋을 잘 표현하지 못함
- 높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모델을 느리게 만듦
[SOLUTION]
SVM의 커널 트릭(kernel trick) 사용
커널 트릭
- 실제로는 특성을추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을수 있음.
- SVC 파이썬 클래스에 구현되어 있음
moons 데이터셋으로 테스트 해보자. 아래의 코드는 3차 다항식 커널을 사용해 SVM 분류기를 훈련시키는 코드이다.
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])
poly_kernel_svm_clf.fit(X, y)
아래의코드는 10차 다항식 커널을 사용한 또다른 SVM 분류기이다.
- 모델이 과대적합이라면 다항식의 차수를 줄여야 함.
- 반대로 과소적합이라면 차수를 늘려야 함.
매개변수 coef0
는 모델이 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절함
poly100_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="poly", degree=10, coef0=100, C=5))
])
poly100_kernel_svm_clf.fit(X, y)
유사도 특성
비선형 특성을 다루는 또 다른 기법은 유사도 함수로 계산한 특성을 추가하는 것이다.
- 유사도 함수 similaritiy function: 각 샘플이 특정 랜드 마크 landmark 와 얼마나 닮았는지 측정
이해가 안되니 예를 들어보자.
앞에서 본 1차원 데이터셋에 두 개의 랜드마크 \(x_1=-2\)와 \(x_1=1\) 을 추가하자
그리고 𝛾 = 0.3 인 가우시안 방사 기저 함수 radial basis function(RBF) 를 유사도 함수로 정의해보자.
그렇다면 가우시안 RBF는 아래와 같다.
- 𝑙: 랜드마크 지점
- 𝛾: 0 보다 커야 하며 값이 작을수록 폭이 넓은 종모양이 됨
📜 가우시안 RBF 특성 보기
함수의 값은 종모양으로 나타나며,
- 0에 가까움: 랜드마크에서 점점 멀리 떨어짐
- 1에 가까움: 랜드마크와 점점 가까워짐
빨간점이 랜드마크고 이 랜드마크를 중심으로 종모양이 그려진 것을 볼 수 있음
사각형으로 표시된 샘플은 두 개의 랜드마크 중 적어도 하나와 멀리 떨어져 있음
그럼 이제 새로운 특성을 만들어보자.
예를 들어 \(x_1=1\) 샘플을 살펴보자.
이 샘플은 첫 번째 랜드마크에서 1 만큼 떨어져 있고 두 번째 랜드마크에서 2 만큼 떨어져 있다.
그러므로 새로 만든 특성은,
\(x_2 = exp(—0.3 x 1^2) ≈ 0.74\) 와 \(x_3 = exp(-0.3 x 2^2) ≈ 0.30\) 이다.
📜 랜드마크 선택 기준 보기
랜드마크가 선택되어지는 기준을 살펴보자.
랜드마크를 선정하는 가장 간단한 방법은 데이터셋에 있는 모든 샘플 위치에 랜드마크를 설정하는 것이다.
(장점)
- 차원이 매우 커지고,
- 따라서 변환된 훈련세트가 선형적으로 구분될 기능성이 높다.
(단점)
- 훈련 세트에 있는 n개의 특성을 가진 m개의 샘플이 m개의 특성을 가진 m개의 샘플로 변환됨.
- 즉, 훈련 세트가 매우 클 경우 동일한 크기의 아주 많은 특성이 만들어짐.
👀 가우시안 RBF를 사용한 유사도 특성 코드 보기
def gaussian_rbf(x, landmark, gamma):
return np.exp(-gamma * np.linalg.norm(x - landmark, axis=1)**2)
gamma = 0.3
x1s = np.linspace(-4.5, 4.5, 200).reshape(-1, 1)
x2s = gaussian_rbf(x1s, -2, gamma)
x3s = gaussian_rbf(x1s, 1, gamma)
XK = np.c_[gaussian_rbf(X1D, -2, gamma), gaussian_rbf(X1D, 1, gamma)]
yk = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])
plt.figure(figsize=(10.5, 4))
plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.scatter(x=[-2, 1], y=[0, 0], s=150, alpha=0.5, c="red")
plt.plot(X1D[:, 0][yk==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][yk==1], np.zeros(5), "g^")
plt.plot(x1s, x2s, "g--")
plt.plot(x1s, x3s, "b:")
plt.gca().get_yaxis().set_ticks([0, 0.25, 0.5, 0.75, 1])
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"Similarity", fontsize=14)
plt.annotate(r'$\mathbf{x}$',
xy=(X1D[3, 0], 0),
xytext=(-0.5, 0.20),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.1),
fontsize=18,
)
plt.text(-2, 0.9, "$x_2$", ha="center", fontsize=20)
plt.text(1, 0.9, "$x_3$", ha="center", fontsize=20)
plt.axis([-4.5, 4.5, -0.1, 1.1])
plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(XK[:, 0][yk==0], XK[:, 1][yk==0], "bs")
plt.plot(XK[:, 0][yk==1], XK[:, 1][yk==1], "g^")
plt.xlabel(r"$x_2$", fontsize=20)
plt.ylabel(r"$x_3$ ", fontsize=20, rotation=0)
plt.annotate(r'$\phi\left(\mathbf{x}\right)$',
xy=(XK[3, 0], XK[3, 1]),
xytext=(0.65, 0.50),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.1),
fontsize=18,
)
plt.plot([-0.1, 1.1], [0.57, -0.1], "r--", linewidth=3)
plt.axis([-0.1, 1.1, -0.1, 1.1])
plt.subplots_adjust(right=1)
save_fig("kernel_method_plot")
plt.show()
가우시안 RBF 커널
다항 특성 방식과 마찬가지로 위에서 말한 유사도 특성 방식도 머신러닝 알고리즘에 유용하게 사용 될 수 있음.
🚫 추가 특성을 모두 계산하려면 연산 비용이 많이 드는데 특히 훈련 세트가 클 경우 더 그럼.
[SOLUTION]
여기에서 커널 트릭이 한 번 더 SVM 의 마법을 만듬.
커널 트릭은 유사도 특성을 많이 추가하는 것과 같은 비슷한 결과를 얻을 수 있음.
그럼 가우시안 RBF 커널을 사용한 svc 모젤을 시도해보자.
rbf_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])
rbf_kernel_svm_clf.fit(X, y)
# Pipeline(steps=[('scaler', StandardScaler()),
('svm_clf', SVC(C=0.001, gamma=5))])
그럼 여기서 하이퍼파라미터 를 조정해보자
하이퍼파라미터
규제 역할을 함
[gamma (y)]
- gamma 를 증가
- 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아짐.
- 결정 경계가 조금 더 불규칙해지고 각 샘플을 따라 구불구불하세 휘어짐.
- gamma 를 감소
- 넓은 종 모양 그래프를 만듦.
- 샘플이 넓은 범위에 걸쳐 영향을 주므로 결정 경계가 더 부드러워짐
➡️ 모델이 과대적합일 경우엔 감소시켜야하고,
과소적합일 경우엔증가시켜야함
하이퍼파라미터 C와 비슷
👀코드 보기
from sklearn.svm import SVC
gamma1, gamma2 = 0.1, 5
C1, C2 = 0.001, 1000
hyperparams = (gamma1, C1), (gamma1, C2), (gamma2, C1), (gamma2, C2)
svm_clfs = []
for gamma, C in hyperparams:
rbf_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="rbf", gamma=gamma, C=C))
])
rbf_kernel_svm_clf.fit(X, y)
svm_clfs.append(rbf_kernel_svm_clf)
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10.5, 7), sharex=True, sharey=True)
for i, svm_clf in enumerate(svm_clfs):
plt.sca(axes[i // 2, i % 2])
plot_predictions(svm_clf, [-1.5, 2.45, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.45, -1, 1.5])
gamma, C = hyperparams[i]
plt.title(r"$\gamma = {}, C = {}$".format(gamma, C), fontsize=16)
if i in (0, 1):
plt.xlabel("")
if i in (1, 3):
plt.ylabel("")
save_fig("moons_rbf_svc_plot")
plt.show()
계산 복잡도
LinearSVC 파이썬 클래스는 선형 SVM을 위한 최적화된 알고리즘 을 구현한 liblinear
라이브러리 기반임
liblinear
라이브러리
- 커널 트릭을 지원하지 않지만 훈련 샘플과 특성 수에 거의 선형적으로 늘어남
- 알고리즘의 훈련시간 복잡도: 대략 O(mxn)
- 정밀도를 높이면 알고리즘의 수행시간이 길어짐