Qual é a diferença entre regressão logística e perceptron?

30

Estou examinando as anotações de Andrew Ng sobre aprendizado de máquina.

As notas nos apresentam regressão logística e, em seguida, perceptron. Ao descrever o Perceptron, as notas dizem que apenas mudamos a definição da função de limite usada para a regressão logística. Depois disso, podemos usar o modelo Perceptron para classificação.

Então, minha pergunta é - se isso precisa ser especificado e consideramos o Perceptron como uma técnica de classificação, o que exatamente é a regressão logística? É usado apenas para obter a probabilidade de um ponto de dados pertencer a uma das classes?

regression machine-learning self-study logistic perceptron GrowinMan
fonte

Boa pergunta, acho que é muito importante como você começa a explicação sobre NN, especialmente porque NN pode ser muito complicado de entender, pls. considere minha resposta.

prosti 15/01

22

Em resumo, a regressão logística tem conotações probabilísticas que vão além do uso do classificador no ML. Eu tenho algumas notas sobre regressão logística aqui .

A hipótese em regressão logística fornece uma medida de incerteza na ocorrência de um resultado binário com base em um modelo linear. A saída é delimitada assintoticamente entre e e depende de um modelo linear, de modo que quando a linha de regressão subjacente tem valor , a equação logística é , fornecendo um ponto de corte natural para fins de classificação. No entanto, é ao custo de lançar as informações de probabilidade no resultado real de , que geralmente é interessante (por exemplo, probabilidade de inadimplência do empréstimo, dada a renda, a pontuação de crédito, a idade etc.). $0$ $1$ $0$ $0.5 = \frac{e^0}{1+e^0}$ $h(\Theta^T\bf x) =\frac{e^{\Theta^T \bf x}}{1 +e^{\Theta^T\bf x}}$

O algoritmo de classificação de perceptron é um procedimento mais básico, baseado em produtos pontuais entre exemplos e pesos . Sempre que um exemplo é classificado incorretamente, o sinal do produto escalar está em desacordo com o valor da classificação ( e ) no conjunto de treinamento. Para corrigir isso, o vetor de exemplo será iterativamente adicionado ou subtraído do vetor de pesos ou coeficientes, atualizando progressivamente seus elementos: $-1$ $1$

Vectorialmente, os recursos ou atributos de um exemplo são , e a idéia é "passar" o exemplo se: $d$ $\bf x$

$\displaystyle \sum_{1}^d \theta_i x_i > \text{theshold}$ ou ...

$h(x) = \text{sign}\big(\displaystyle \sum_{1}^d \theta_i x_i - \text{theshold}\big)$ . A função de sinal resulta em ou , em oposição a e na regressão logística. $1$ $-1$ $0$ $1$

O limite será absorvido no coeficiente de polarização , . A fórmula é agora: $+ \theta_0$

$h(x) = \text{sign}\big(\displaystyle \sum_0^d \theta_i x_i\big)$ ou vetorizado: . $h(x) = \text{sign}(\theta^T\bf x)$

Os pontos classificados incorretamente terão , o que significa que o produto escalar de e será positivo (vetores na mesma direção), quando for negativo, ou o produto escalar será negativo (vetores em direções opostas), enquanto $\text{sign}(\theta^T\bf x) \neq y_n$ $\Theta$ $\bf x_n$ $y_n$ é positivo. $y_n$

Eu tenho trabalhado nas diferenças entre esses dois métodos em um conjunto de dados do mesmo curso , no qual os resultados dos testes em dois exames separados estão relacionados à aceitação final da faculdade:

O limite de decisão pode ser facilmente encontrado com a regressão logística, mas foi interessante ver que, embora os coeficientes obtidos com o perceptron sejam muito diferentes dos da regressão logística, a simples aplicação da função de aos resultados produziu uma classificação tão boa quanto algoritmo. De fato, a precisão máxima (o limite definido pela inseparabilidade linear de alguns exemplos) foi atingida pela segunda iteração. Aqui está a sequência de linhas de divisão de fronteira, com iterações aproximando os pesos, começando de um vetor aleatório de coeficientes: $\text{sign}(\cdot)$ $10$

$90\%$

O código usado está aqui .

Antoni Parellada
fonte

5

Há alguma confusão que pode surgir aqui. Originalmente, um perceptron estava se referindo apenas a redes neurais com uma função step como a função de transferência. Nesse caso, é claro que a diferença é que a regressão logística usa uma função logística e o perceptron usa uma função step. Em geral, ambos os algoritmos devem produzir o mesmo limite de decisão (pelo menos para um único neurônio perceptron). Contudo:

O vetor de parâmetro para o perceptron pode ser escalonado arbitrariamente em comparação com o derivado por regressão logística. Qualquer escala do vetor de parâmetro definirá o mesmo limite, mas as probabilidades calculadas por regressão logística dependem da escala exata.
Obviamente, a saída de uma função step não pode ser interpretada como qualquer tipo de probabilidade.
Como uma função step não é diferenciável, não é possível treinar um perceptron usando os mesmos algoritmos usados para a regressão logística.

Em alguns casos, o termo perceptron também é usado para se referir a redes neurais que usam uma função logística como uma função de transferência (no entanto, isso não está de acordo com a terminologia original). Nesse caso, uma regressão logística e um "perceptron" são exatamente os mesmos. Obviamente, com um perceptron, é possível usar vários neurônios, todos usando uma função de transferência logística, que se torna um pouco relacionada ao empilhamento da regressão logística (não é a mesma coisa, mas é similar).

LiKao
fonte

2

Você pode usar a regressão logística para construir um perceptron. A regressão logística usa a função logística para construir a saída de uma determinada entrada. A função logística produz uma saída suave entre 0 e 1, portanto, você precisa de mais uma coisa para torná-lo um classificador, que é um limite. Perceptrons podem ser construídos com outras formas funcionais, é claro, não apenas com a logística .

y (x_{1}, x_{2} | b) = \frac{e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}{1 + e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}

$y(x_1,x_2|b)=\frac{e^{b_0+b_1x_1+b_2x_2}}{1+e^{b_0+b_1x_1+b_2x_2}}$

b_{1}, b_{2}, b_{3}

$b_1,b_2,b_3$

\frac{e^{x}}{1 + e^{x}}

$\frac{e^x}{1+e^x}$

$y(x|b)$ $x$ $b$ $y$ $Y$ $\tilde y=0$ $y(x|b)<Y$ $\tilde y=1$ $y(x|b)\ge Y$

Aksakal
fonte

1

Ambos estão aplicando regressão estimando os parâmetros do mesmo modelo transformado pela logística. De acordo com as propriedades das funções convexas, os valores dos parâmetros serão os mesmos da maneira que você escolher para estimar. Para citar uma resposta anterior:

A regressão logística modela uma função da média de uma distribuição de Bernoulli como uma equação linear (a média é igual à probabilidade p de um evento de Bernoulli). Usando o link logit como uma função da média (p), o logaritmo das probabilidades (log-probabilidades) pode ser derivado analiticamente e usado como resposta do chamado modelo linear generalizado. Além da previsão, isso permite que você interprete o modelo em inferência causal. Isso é algo que você não pode alcançar com um Perceptron linear.

O Perceptron, assume a função logit inversa (logística) de wx e não usa suposições probabilísticas para o modelo nem seu parâmetro. O treinamento on-line fornecerá exatamente as mesmas estimativas para os pesos / parâmetros do modelo, mas você não poderá interpretá-los em inferência causal devido à falta de valores-p, intervalos de confiança e, bem, um modelo de probabilidade subjacente.

Digio
fonte

1

$x_1,\ldots, x_N \in \mathbb R^n$ $y_1,\ldots,y_N \in \{-1, 1 \}$ $1$ $x_i$

\begin{aligned} (1) & minimize & \frac{1}{N} \sum_{i = 1}^{N} max (- y_{i} β^{T} x_{i}, 0) . \end{aligned}

$\begin{align} \tag{1}\text{minimize} & \quad \frac{1}{N}\sum_{i=1}^N \max(-y_i\beta^T x_i,0). \end{align}$

β \in R^{n + 1}

$\beta \in \mathbb R^{n+1}$

$\frac{1}{N}\sum_i \ell_i(\beta)$

ℓ_{i} (β) = max (- y_{i} β^{T} x_{i}, 0) .

$\ell_i(\beta) = \max(-y_i \beta^T x_i,0).$

ℓ_{i}

$\ell_i$

β

$\beta$

g = {\begin{cases} 0 & if - y_{i} β^{T} x_{i} \leq 0 (so y_{i} and β^{T} x_{i} have the same sign) \\ - y_{i} x_{i} & otherwise. \end{cases}

$g = \begin{cases} 0 & \quad \text{if } -y_i \beta^T x_i \leq 0 \qquad \text{(so $y_i$ and $\beta^T x_i$ have the same sign)}\\ - y_i x_i & \quad \text{otherwise.} \end{cases}$

t > 0)

$t > 0)$

i

$i$

β \leftarrow β - t g = {\begin{cases} β & if y_{i} and β^{T} x_{i} have the same sign \\ β + t y_{i} x_{i} & otherwise. \end{cases}

$\beta \leftarrow \beta - t g = \begin{cases} \beta & \quad \text{if $y_i$ and $\beta^T x_i$ have the same sign} \\ \beta + t y_i x_i & \quad \text{otherwise.} \end{cases}$

t

$t$

littleO
fonte

0

Andrew Ng usou o termo "regressão logística" como modelo para resolver o problema de classificação binária.

Como você pode ver no artigo, ele nunca desenhou o modelo em si.

Deixe-me acrescentar alguns detalhes ao balde, para que você possa encontrar o raciocínio sobre como ele construiu as palestras.

O modelo usado para a "regressão logística" é uma percepção de nível único com um número personalizado de entradas e uma saída que varia de 0 a 1.

Nos anos 90, a função de ativação mais apreciada era a função de ativação sigmoidal, e há uma grande teoria matemática como backup.

Esse é exatamente o modelo que Andrew Ng está usando, pois essa função varia de 0 a 1.

Também a derivada s'(x) = s(x)(1−s(x)), onde s(x)está a função de ativação sigmoidal.

Para a função de erro, ele usa L2, embora em alguns trabalhos ele possa usar alguma outra função para isso.

Para recapitular, ao considerar a "regressão logística", considere apenas a percepção de nível único com a função de ativação sigmoidal, número personalizado de entradas e saída única.

Apenas algumas notas: Não há nada errado com a função de ativação sigmoidal, embora para a aritmética de ponto flutuante, a ReLU domine camadas ocultas hoje em dia, mas no futuro próximo posturas (ou algumas outras unidades aritméticas) possam colocar a função de ativação sigmoidal de volta à mesa .

Pessoalmente, eu usaria um modelo mais simples com a função ReLU para explicar o SLP (perceptron de nível único), pois ele é mais usado hoje.

prosti
fonte

Qual é a diferença entre regressão logística e perceptron?

Respostas: