• Home
  • About
    • Yerim Oh photo

      Yerim Oh

      Happy and worthwhile day by day :)

    • Learn More
    • Email
    • LinkedIn
    • Instagram
    • Github
    • Youtube
  • Posts
    • All Posts
    • All Tags
  • Projects

[04] Machine Learning: 비선형 SVM

08 Mar 2020

Reading time ~6 minutes

Table of Contents
  • 목차
  • SVM이란?
  • 비선형 SVM 분류
    • 다항식 커널
    • 유사도 특성
    • 가우시안 RBF 커널
      • 하이퍼파라미터
    • 계산 복잡도

목차

  • SVM이란?
  • 비선형 SVM 분류
    • 다항식 커널
    • 유사도 특성
    • 가우시안 RBF 커널
      • 하이퍼파라미터
    • 계산 복잡도


👀, 🤷‍♀️ , 📜
이 아이콘들을 누르시면 코드, 개념 부가 설명을 보실 수 있습니다:)



SVM이란?

서포트 벡터 머신 SVM(support vector machine)

  • 매우 강력함: 머신러닝 모델 중 가장 인기있는 모델 중 하나임
  • 다목적 머신러닝 모델: 선형 or 비선형 분류 회귀, 이상치 탐색에 사용가능
  • 사용 용도
    • 특히 복잡한 분류 문제에 적합
    • 작거나 중간 크기의 데이터셋에 적합


비선형 SVM 분류

선형 SVM 분류기가 효율적이고 많은 경우에 아주 잘 작동하지만,
선형적으로 분류할 수 없는 데이터셋이 많다.

선형 데이터 셋을 다루는 한가지 방법은 특성을 더 추가하는 것 이다.
이렇게 하면 선형적으로 구분되는 데이터셋이 만들어 질 수 있다.

예를 들어보면

아래는 \(X_1\) 이라는 특성 하나를 기준으로 데이터셋을 분류한 것이다.(1차원)
그런데 데이터 셋이 하나다 보니 잘 분류되지 않는다.
image

그러므로 \(X_2\)라는 특성하나를 더 추가해서 더 잘 분류가 되게 하는 것이다.(2차원) image

👀 특성 추가 전,후 코드 보기
X1D = np.linspace(-4, 4, 9).reshape(-1, 1)
X2D = np.c_[X1D, X1D**2]
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(10, 3))

plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.plot(X1D[:, 0][y==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][y==1], np.zeros(5), "g^")
plt.gca().get_yaxis().set_ticks([])
plt.xlabel(r"$x_1$", fontsize=20)
plt.axis([-4.5, 4.5, -0.2, 0.2])

plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(X2D[:, 0][y==0], X2D[:, 1][y==0], "bs")
plt.plot(X2D[:, 0][y==1], X2D[:, 1][y==1], "g^")
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"$x_2$  ", fontsize=20, rotation=0)
plt.gca().get_yaxis().set_ticks([0, 4, 8, 12, 16])
plt.plot([-4.5, 4.5], [6.5, 6.5], "r--", linewidth=3)
plt.axis([-4.5, 4.5, -1, 17])

plt.subplots_adjust(right=1)

save_fig("higher_dimensions_plot", tight_layout=False)
plt.show()

사이킷 런을 이용하여 이를 구현하려면,

  • PolynomialFeatures
  • StandardScaler: 두 특성의 단위 조정
  • LinearSVC C: 값 조정
👀 사용할 데이터셋 만드는 코드 보기

moons 데이터셋은 사이킷런의 make_moons 를 사용해서 만든 두 개의 반달 모양 데이터셋이다.

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)

def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
    plt.axis(axes)
    plt.grid(True, which='both')
    plt.xlabel(r"$x_1$", fontsize=20)
    plt.ylabel(r"$x_2$", fontsize=20, rotation=0)

plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.show()

image

from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

polynomial_svm_clf = Pipeline([
        ("poly_features", PolynomialFeatures(degree=3)),
        ("scaler", StandardScaler()),
        ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42))
    ])

polynomial_svm_clf.fit(X, y)

image



다항식 커널

위의 예처럼 특성을 추가하는 것은 간단하고 모든 머신러닝 알고리즘에서 잘 작동한다.
🚫 하지만, 높은 치수의 다항식은

  • 매우 복잡한 데이터셋을 잘 표현하지 못함
  • 높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모델을 느리게 만듦

[SOLUTION]
SVM의 커널 트릭(kernel trick) 사용
커널 트릭

  • 실제로는 특성을추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을수 있음.
  • SVC 파이썬 클래스에 구현되어 있음

moons 데이터셋으로 테스트 해보자. 아래의 코드는 3차 다항식 커널을 사용해 SVM 분류기를 훈련시키는 코드이다.

from sklearn.svm import SVC

poly_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
    ])
poly_kernel_svm_clf.fit(X, y)

image

아래의코드는 10차 다항식 커널을 사용한 또다른 SVM 분류기이다.

  • 모델이 과대적합이라면 다항식의 차수를 줄여야 함.
  • 반대로 과소적합이라면 차수를 늘려야 함.

매개변수 coef0는 모델이 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절함

poly100_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=10, coef0=100, C=5))
    ])
poly100_kernel_svm_clf.fit(X, y)

image



유사도 특성

비선형 특성을 다루는 또 다른 기법은 유사도 함수로 계산한 특성을 추가하는 것이다.

  • 유사도 함수 similaritiy function: 각 샘플이 특정 랜드 마크 landmark 와 얼마나 닮았는지 측정

이해가 안되니 예를 들어보자.
앞에서 본 1차원 데이터셋에 두 개의 랜드마크 \(x_1=-2\)와 \(x_1=1\) 을 추가하자
image

그리고 𝛾 = 0.3 인 가우시안 방사 기저 함수 radial basis function(RBF) 를 유사도 함수로 정의해보자.
그렇다면 가우시안 RBF는 아래와 같다.

  • 𝑙: 랜드마크 지점
  • 𝛾: 0 보다 커야 하며 값이 작을수록 폭이 넓은 종모양이 됨
    image
📜 가우시안 RBF 특성 보기

함수의 값은 종모양으로 나타나며,

  • 0에 가까움: 랜드마크에서 점점 멀리 떨어짐
  • 1에 가까움: 랜드마크와 점점 가까워짐

빨간점이 랜드마크고 이 랜드마크를 중심으로 종모양이 그려진 것을 볼 수 있음
사각형으로 표시된 샘플은 두 개의 랜드마크 중 적어도 하나와 멀리 떨어져 있음
image

그럼 이제 새로운 특성을 만들어보자.
예를 들어 \(x_1=1\) 샘플을 살펴보자.
이 샘플은 첫 번째 랜드마크에서 1 만큼 떨어져 있고 두 번째 랜드마크에서 2 만큼 떨어져 있다.
image

그러므로 새로 만든 특성은,
\(x_2 = exp(—0.3 x 1^2) ≈ 0.74\) 와 \(x_3 = exp(-0.3 x 2^2) ≈ 0.30\) 이다.
image

📜 랜드마크 선택 기준 보기

랜드마크가 선택되어지는 기준을 살펴보자.

랜드마크를 선정하는 가장 간단한 방법은 데이터셋에 있는 모든 샘플 위치에 랜드마크를 설정하는 것이다.
(장점)

  • 차원이 매우 커지고,
  • 따라서 변환된 훈련세트가 선형적으로 구분될 기능성이 높다.

(단점)

  • 훈련 세트에 있는 n개의 특성을 가진 m개의 샘플이 m개의 특성을 가진 m개의 샘플로 변환됨.
  • 즉, 훈련 세트가 매우 클 경우 동일한 크기의 아주 많은 특성이 만들어짐.
👀 가우시안 RBF를 사용한 유사도 특성 코드 보기
def gaussian_rbf(x, landmark, gamma):
    return np.exp(-gamma * np.linalg.norm(x - landmark, axis=1)**2)

gamma = 0.3

x1s = np.linspace(-4.5, 4.5, 200).reshape(-1, 1)
x2s = gaussian_rbf(x1s, -2, gamma)
x3s = gaussian_rbf(x1s, 1, gamma)

XK = np.c_[gaussian_rbf(X1D, -2, gamma), gaussian_rbf(X1D, 1, gamma)]
yk = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(10.5, 4))

plt.subplot(121)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.scatter(x=[-2, 1], y=[0, 0], s=150, alpha=0.5, c="red")
plt.plot(X1D[:, 0][yk==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][yk==1], np.zeros(5), "g^")
plt.plot(x1s, x2s, "g--")
plt.plot(x1s, x3s, "b:")
plt.gca().get_yaxis().set_ticks([0, 0.25, 0.5, 0.75, 1])
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"Similarity", fontsize=14)
plt.annotate(r'$\mathbf{x}$',
             xy=(X1D[3, 0], 0),
             xytext=(-0.5, 0.20),
             ha="center",
             arrowprops=dict(facecolor='black', shrink=0.1),
             fontsize=18,
            )
plt.text(-2, 0.9, "$x_2$", ha="center", fontsize=20)
plt.text(1, 0.9, "$x_3$", ha="center", fontsize=20)
plt.axis([-4.5, 4.5, -0.1, 1.1])

plt.subplot(122)
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(XK[:, 0][yk==0], XK[:, 1][yk==0], "bs")
plt.plot(XK[:, 0][yk==1], XK[:, 1][yk==1], "g^")
plt.xlabel(r"$x_2$", fontsize=20)
plt.ylabel(r"$x_3$  ", fontsize=20, rotation=0)
plt.annotate(r'$\phi\left(\mathbf{x}\right)$',
             xy=(XK[3, 0], XK[3, 1]),
             xytext=(0.65, 0.50),
             ha="center",
             arrowprops=dict(facecolor='black', shrink=0.1),
             fontsize=18,
            )
plt.plot([-0.1, 1.1], [0.57, -0.1], "r--", linewidth=3)
plt.axis([-0.1, 1.1, -0.1, 1.1])
    
plt.subplots_adjust(right=1)

save_fig("kernel_method_plot")
plt.show()

image



가우시안 RBF 커널

다항 특성 방식과 마찬가지로 위에서 말한 유사도 특성 방식도 머신러닝 알고리즘에 유용하게 사용 될 수 있음.

🚫 추가 특성을 모두 계산하려면 연산 비용이 많이 드는데 특히 훈련 세트가 클 경우 더 그럼.

[SOLUTION]
여기에서 커널 트릭이 한 번 더 SVM 의 마법을 만듬.
커널 트릭은 유사도 특성을 많이 추가하는 것과 같은 비슷한 결과를 얻을 수 있음.
그럼 가우시안 RBF 커널을 사용한 svc 모젤을 시도해보자.

rbf_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
    ])
rbf_kernel_svm_clf.fit(X, y)

# Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=0.001, gamma=5))])

image

그럼 여기서 하이퍼파라미터 를 조정해보자


하이퍼파라미터

규제 역할을 함
[gamma (y)]

  • gamma 를 증가
    • 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아짐.
    • 결정 경계가 조금 더 불규칙해지고 각 샘플을 따라 구불구불하세 휘어짐.
  • gamma 를 감소
    • 넓은 종 모양 그래프를 만듦.
    • 샘플이 넓은 범위에 걸쳐 영향을 주므로 결정 경계가 더 부드러워짐

➡️ 모델이 과대적합일 경우엔 감소시켜야하고,
과소적합일 경우엔증가시켜야함
하이퍼파라미터 C와 비슷

image

👀코드 보기
from sklearn.svm import SVC

gamma1, gamma2 = 0.1, 5
C1, C2 = 0.001, 1000
hyperparams = (gamma1, C1), (gamma1, C2), (gamma2, C1), (gamma2, C2)

svm_clfs = []
for gamma, C in hyperparams:
    rbf_kernel_svm_clf = Pipeline([
            ("scaler", StandardScaler()),
            ("svm_clf", SVC(kernel="rbf", gamma=gamma, C=C))
        ])
    rbf_kernel_svm_clf.fit(X, y)
    svm_clfs.append(rbf_kernel_svm_clf)

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10.5, 7), sharex=True, sharey=True)

for i, svm_clf in enumerate(svm_clfs):
    plt.sca(axes[i // 2, i % 2])
    plot_predictions(svm_clf, [-1.5, 2.45, -1, 1.5])
    plot_dataset(X, y, [-1.5, 2.45, -1, 1.5])
    gamma, C = hyperparams[i]
    plt.title(r"$\gamma = {}, C = {}$".format(gamma, C), fontsize=16)
    if i in (0, 1):
        plt.xlabel("")
    if i in (1, 3):
        plt.ylabel("")

save_fig("moons_rbf_svc_plot")
plt.show()


계산 복잡도

LinearSVC 파이썬 클래스는 선형 SVM을 위한 최적화된 알고리즘 을 구현한 liblinear 라이브러리 기반임

liblinear 라이브러리

  • 커널 트릭을 지원하지 않지만 훈련 샘플과 특성 수에 거의 선형적으로 늘어남
  • 알고리즘의 훈련시간 복잡도: 대략 O(mxn)
  • 정밀도를 높이면 알고리즘의 수행시간이 길어짐

image



Machine Learning Share Tweet +1