Логистическая регрессия

Содержание

Это вероятность того, что \(y = 1\) при текущих входных параметрах \(x\)

\begin{equation} \hat{y} = P(y=1|x) \\ \hat{y} = \sigma{}(w^{T}x + b) \end{equation}

\begin{equation} z = w^{T}x + b \end{equation}

Ограничивает значение \(\hat{y}\) между \(0\) и \(1\).

\begin{equation} \sigma{}(z) = \frac{1}{1+e^{-z}} \end{equation}

Если значение \(z\) сильно больше \(0\), то
\begin{equation} \sigma{}(z) \approx{} \frac{1}{1+0} \approx{} 1 \end{equation}
Если значение \(z\) сильно меньше \(0\), то
\begin{equation} \sigma{}(z) \ approx{} \frac{1}{1+bignum} \approx{} 0 \end{equation}

sigmoid

\(a = \frac{1}{1+e^{-z}}\)

Значения будут от 0 до 1.
Стоит применять только для выходного слоя
Andrew Ng рекомендует никогда не использовать эту функцию активации кроме как для выходного слоя

tanh

\(a = \tanh(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}\)

Значения от -1 до 1, что значительнее удобнее чем [0,1] у сигмоиды в плане центрирования данных вокруг нуля.
Почти всегда лучше чем сигмоида (исключение: выходной слой)

ReLU (Rectified Linear Unit)

\(a = max(x, 0)\)

Leaky ReLU

\(a = max(0.01z, z)\)

Работает лучше чем ReLU, но редко используется на практике
Решает проблему ReLU с тем, что для отрицательных значений backpropagation будет занулять параметры

\(z^{[l]} = w^{T}x + b\)