Яка різниця між C і лямбда в контексті SVM?

Я не розумію різниці між параметрами $ C $ і $ \ lambda $ з точки зору SVM . Мені здається, що вони обидва беруть участь у регулюванні надмірності даних.

Яка різниця між $ C $ і $ \ lambda $?

2

1 Відповіді

Ви маєте рацію, щоб це заважало. Що відбувається в тому, що гіперпараметри відносяться до різних формулювань. З одного боку існує загальний емпіричний мінімізатор ризику

$$ \ lambda \ lVert \ mathbf w \ rVert ^ 2 + \ frac 1 n \ sum_ (i = 1) ^ n \ max \ left (0, 1 - y_i (\ mathbf x_i ^ T \ mathbf w + w_0) \ правильно) $ $

З іншого - мети з м'якою маржею

$ $ \ frac {1} {2} \ lVert \ mathbf w \ rVert ^ 2 + C \ sum_ (i = 1) ^ n \ xi_i $$

така, що $ $ \ xi_i \ geq 0, y_i \ left (\ mathbf x_i ^ T \ mathbf w + w_0 \ right) \ geq 1 \ xi_i, \ forall i $$

The first one places SVM in the framework of empirical risk minimization, in which the objective is an expected loss plus the $L_p$-norm of the main parameter. The purpose of introducing slack variables and constraints in the second formulation is to allow a fraction of points (adjustable by $C$) to lie on the wrong side of the margin, and eliminate the non-differentiable $\max$ function. Moreover, it draws attention to the fact that SVMs encode sparsity in the loss function, rather than the prior. This is called the primal form and can be solved using quadratic programming. Wikipedia currently explains this in the Computing the classifier section. You should be able to see that $C=1/{2n\lambda}$. Some texts omit the $1/2$ or the $n$.

1
додано
Штучний інтелект Dev UA
Штучний інтелект Dev UA
212 учасників

Штучний інтелект, машинне навчання, Data Science