Table of Contents

SVM이란?

서포트 벡터 머신 SVM(support vector machine)

매우 강력함: 머신러닝 모델 중 가장 인기있는 모델 중 하나임
다목적 머신러닝 모델: 선형 or 비선형 분류 회귀, 이상치 탐색에 사용가능
사용 용도
- 특히 복잡한 분류 문제에 적합
- 작거나 중간 크기의 데이터셋에 적합

비선형 SVM 분류

선형 SVM 분류기가 효율적이고 많은 경우에 아주 잘 작동하지만,
선형적으로 분류할 수 없는 데이터셋이 많다.

선형 데이터 셋을 다루는 한가지 방법은 특성을 더 추가하는 것 이다.
이렇게 하면 선형적으로 구분되는 데이터셋이 만들어 질 수 있다.

예를 들어보면

아래는 \(X_1\) 이라는 특성 하나를 기준으로 데이터셋을 분류한 것이다.(1차원)
그런데 데이터 셋이 하나다 보니 잘 분류되지 않는다.

그러므로 \(X_2\)라는 특성하나를 더 추가해서 더 잘 분류가 되게 하는 것이다.(2차원)

👀 특성 추가 전,후 코드 보기

X1D = np.linspace(-4, 4, 9).reshape(-1, 1)
X2D = np.c_[X1D, X1D**2]
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(10, 3))

plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.plot(X1D[:, 0][y==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][y==1], np.zeros(5), "g^")
plt.gca().get_yaxis().set_ticks([])
plt.xlabel(r"$x_1$", fontsize=20)
plt.axis([-4.5, 4.5, -0.2, 0.2])

plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(X2D[:, 0][y==0], X2D[:, 1][y==0], "bs")
plt.plot(X2D[:, 0][y==1], X2D[:, 1][y==1], "g^")
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"$x_2$  ", fontsize=20, rotation=0)
plt.gca().get_yaxis().set_ticks([0, 4, 8, 12, 16])
plt.plot([-4.5, 4.5], [6.5, 6.5], "r--", linewidth=3)
plt.axis([-4.5, 4.5, -1, 17])

plt.subplots_adjust(right=1)

save_fig("higher_dimensions_plot", tight_layout=False)
plt.show()

사이킷 런을 이용하여 이를 구현하려면,

PolynomialFeatures
StandardScaler: 두 특성의 단위 조정
LinearSVC C: 값 조정

👀 사용할 데이터셋 만드는 코드 보기

moons 데이터셋은 사이킷런의 make_moons 를 사용해서 만든 두 개의 반달 모양 데이터셋이다.

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)

def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
    plt.axis(axes)
    plt.grid(True, which='both')
    plt.xlabel(r"$x_1$", fontsize=20)
    plt.ylabel(r"$x_2$", fontsize=20, rotation=0)

plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.show()

from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

polynomial_svm_clf = Pipeline([
        ("poly_features", PolynomialFeatures(degree=3)),
        ("scaler", StandardScaler()),
        ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42))
    ])

polynomial_svm_clf.fit(X, y)

다항식 커널

위의 예처럼 특성을 추가하는 것은 간단하고 모든 머신러닝 알고리즘에서 잘 작동한다.
🚫 하지만, 높은 치수의 다항식은

매우 복잡한 데이터셋을 잘 표현하지 못함
높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모델을 느리게 만듦

[SOLUTION]
SVM의 커널 트릭(kernel trick) 사용
커널 트릭

실제로는 특성을추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을수 있음.
SVC 파이썬 클래스에 구현되어 있음

moons 데이터셋으로 테스트 해보자. 아래의 코드는 3차 다항식 커널을 사용해 SVM 분류기를 훈련시키는 코드이다.

from sklearn.svm import SVC

poly_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
    ])
poly_kernel_svm_clf.fit(X, y)

아래의코드는 10차 다항식 커널을 사용한 또다른 SVM 분류기이다.

모델이 과대적합이라면 다항식의 차수를 줄여야 함.
반대로 과소적합이라면 차수를 늘려야 함.

매개변수 coef0는 모델이 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절함

poly100_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=10, coef0=100, C=5))
    ])
poly100_kernel_svm_clf.fit(X, y)

유사도 특성

비선형 특성을 다루는 또 다른 기법은 유사도 함수로 계산한 특성을 추가하는 것이다.

유사도 함수 similaritiy function: 각 샘플이 특정 랜드 마크 landmark 와 얼마나 닮았는지 측정

이해가 안되니 예를 들어보자.
앞에서 본 1차원 데이터셋에 두 개의 랜드마크 \(x_1=-2\)와 \(x_1=1\) 을 추가하자

그리고 𝛾 = 0.3 인 가우시안 방사 기저 함수 radial basis function(RBF) 를 유사도 함수로 정의해보자.
그렇다면 가우시안 RBF는 아래와 같다.

𝑙: 랜드마크 지점
𝛾: 0 보다 커야 하며 값이 작을수록 폭이 넓은 종모양이 됨

📜 가우시안 RBF 특성 보기

함수의 값은 종모양으로 나타나며,

0에 가까움: 랜드마크에서 점점 멀리 떨어짐
1에 가까움: 랜드마크와 점점 가까워짐

빨간점이 랜드마크고 이 랜드마크를 중심으로 종모양이 그려진 것을 볼 수 있음
사각형으로 표시된 샘플은 두 개의 랜드마크 중 적어도 하나와 멀리 떨어져 있음

그럼 이제 새로운 특성을 만들어보자.
예를 들어 \(x_1=1\) 샘플을 살펴보자.
이 샘플은 첫 번째 랜드마크에서 1 만큼 떨어져 있고 두 번째 랜드마크에서 2 만큼 떨어져 있다.

그러므로 새로 만든 특성은,
\(x_2 = exp(—0.3 x 1^2) ≈ 0.74\) 와 \(x_3 = exp(-0.3 x 2^2) ≈ 0.30\) 이다.

📜 랜드마크 선택 기준 보기

랜드마크가 선택되어지는 기준을 살펴보자.

랜드마크를 선정하는 가장 간단한 방법은 데이터셋에 있는 모든 샘플 위치에 랜드마크를 설정하는 것이다.
(장점)

차원이 매우 커지고,
따라서 변환된 훈련세트가 선형적으로 구분될 기능성이 높다.

(단점)

훈련 세트에 있는 n개의 특성을 가진 m개의 샘플이 m개의 특성을 가진 m개의 샘플로 변환됨.
즉, 훈련 세트가 매우 클 경우 동일한 크기의 아주 많은 특성이 만들어짐.

👀 가우시안 RBF를 사용한 유사도 특성 코드 보기

def gaussian_rbf(x, landmark, gamma):
    return np.exp(-gamma * np.linalg.norm(x - landmark, axis=1)**2)

gamma = 0.3

x1s = np.linspace(-4.5, 4.5, 200).reshape(-1, 1)
x2s = gaussian_rbf(x1s, -2, gamma)
x3s = gaussian_rbf(x1s, 1, gamma)

XK = np.c_[gaussian_rbf(X1D, -2, gamma), gaussian_rbf(X1D, 1, gamma)]
yk = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(10.5, 4))

plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.scatter(x=[-2, 1], y=[0, 0], s=150, alpha=0.5, c="red")
plt.plot(X1D[:, 0][yk==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][yk==1], np.zeros(5), "g^")
plt.plot(x1s, x2s, "g--")
plt.plot(x1s, x3s, "b:")
plt.gca().get_yaxis().set_ticks([0, 0.25, 0.5, 0.75, 1])
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"Similarity", fontsize=14)
plt.annotate(r'$\mathbf{x}$',
             xy=(X1D[3, 0], 0),
             xytext=(-0.5, 0.20),
             ha="center",
             arrowprops=dict(facecolor='black', shrink=0.1),
             fontsize=18,
            )
plt.text(-2, 0.9, "$x_2$", ha="center", fontsize=20)
plt.text(1, 0.9, "$x_3$", ha="center", fontsize=20)
plt.axis([-4.5, 4.5, -0.1, 1.1])

plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(XK[:, 0][yk==0], XK[:, 1][yk==0], "bs")
plt.plot(XK[:, 0][yk==1], XK[:, 1][yk==1], "g^")
plt.xlabel(r"$x_2$", fontsize=20)
plt.ylabel(r"$x_3$  ", fontsize=20, rotation=0)
plt.annotate(r'$\phi\left(\mathbf{x}\right)$',
             xy=(XK[3, 0], XK[3, 1]),
             xytext=(0.65, 0.50),
             ha="center",
             arrowprops=dict(facecolor='black', shrink=0.1),
             fontsize=18,
            )
plt.plot([-0.1, 1.1], [0.57, -0.1], "r--", linewidth=3)
plt.axis([-0.1, 1.1, -0.1, 1.1])
    
plt.subplots_adjust(right=1)

save_fig("kernel_method_plot")
plt.show()

가우시안 RBF 커널

다항 특성 방식과 마찬가지로 위에서 말한 유사도 특성 방식도 머신러닝 알고리즘에 유용하게 사용 될 수 있음.

🚫 추가 특성을 모두 계산하려면 연산 비용이 많이 드는데 특히 훈련 세트가 클 경우 더 그럼.

[SOLUTION]
여기에서 커널 트릭이 한 번 더 SVM 의 마법을 만듬.
커널 트릭은 유사도 특성을 많이 추가하는 것과 같은 비슷한 결과를 얻을 수 있음.
그럼 가우시안 RBF 커널을 사용한 svc 모젤을 시도해보자.

rbf_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
    ])
rbf_kernel_svm_clf.fit(X, y)

# Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=0.001, gamma=5))])

그럼 여기서 하이퍼파라미터 를 조정해보자

하이퍼파라미터

규제 역할을 함
[gamma (y)]

gamma 를 증가
- 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아짐.
- 결정 경계가 조금 더 불규칙해지고 각 샘플을 따라 구불구불하세 휘어짐.
gamma 를 감소
- 넓은 종 모양 그래프를 만듦.
- 샘플이 넓은 범위에 걸쳐 영향을 주므로 결정 경계가 더 부드러워짐

➡️ 모델이 과대적합일 경우엔 감소시켜야하고,
과소적합일 경우엔증가시켜야함
하이퍼파라미터 C와 비슷

👀코드 보기

from sklearn.svm import SVC

gamma1, gamma2 = 0.1, 5
C1, C2 = 0.001, 1000
hyperparams = (gamma1, C1), (gamma1, C2), (gamma2, C1), (gamma2, C2)

svm_clfs = []
for gamma, C in hyperparams:
    rbf_kernel_svm_clf = Pipeline([
            ("scaler", StandardScaler()),
            ("svm_clf", SVC(kernel="rbf", gamma=gamma, C=C))
        ])
    rbf_kernel_svm_clf.fit(X, y)
    svm_clfs.append(rbf_kernel_svm_clf)

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10.5, 7), sharex=True, sharey=True)

for i, svm_clf in enumerate(svm_clfs):
    plt.sca(axes[i // 2, i % 2])
    plot_predictions(svm_clf, [-1.5, 2.45, -1, 1.5])
    plot_dataset(X, y, [-1.5, 2.45, -1, 1.5])
    gamma, C = hyperparams[i]
    plt.title(r"$\gamma = {}, C = {}$".format(gamma, C), fontsize=16)
    if i in (0, 1):
        plt.xlabel("")
    if i in (1, 3):
        plt.ylabel("")

save_fig("moons_rbf_svc_plot")
plt.show()

계산 복잡도

LinearSVC 파이썬 클래스는 선형 SVM을 위한 최적화된 알고리즘 을 구현한 liblinear 라이브러리 기반임

liblinear 라이브러리

커널 트릭을 지원하지 않지만 훈련 샘플과 특성 수에 거의 선형적으로 늘어남
알고리즘의 훈련시간 복잡도: 대략 O(mxn)
정밀도를 높이면 알고리즘의 수행시간이 길어짐

Machine Learning

[04] Machine Learning: 비선형 SVM

08 Mar 2020

목차