Qual é a diferença entre regressão logística e redes neurais?

32

Como explicamos a diferença entre regressão logística e rede neural para um público que não tem formação em estatística?

user16789
fonte
7
Alguém realmente sem experiência em estatística gostaria de saber? E, o que constituiria uma explicação aceitável da diferença? Talvez uma metáfora. Certamente, nenhuma das respostas abaixo (até o momento), todas elas totalmente ausentes do requisito "sem antecedentes".
Rolando2
3
P: "Como explicamos a diferença entre regressão logística e rede neural para um público que não tem experiência em estatística?" R: Primeiro você deve fornecer a eles um histórico em estatística.
Firebug
2
Não vejo razão para isso não permanecer aberto. Não precisamos entender "explicar ... nenhum histórico em estatística" tão literalmente. É comum pedir explicações que funcionariam para 'uma criança de 5 anos' ou 'sua avó'. Essas são apenas maneiras coloquiais de pedir respostas não (ou pelo menos menos ) técnicas. Para ser mais explícito, as respostas sempre buscam satisfazer várias restrições simultaneamente, como precisão e brevidade; aqui adicionamos minimizando o quão técnico é. Não há razão para não termos uma pergunta buscando uma explicação menos técnica da diferença entre LR e RNAs.
gung - Restabelece Monica
2
@mbq É engraçado que em novembro de 2012 fosse possível descrever redes neurais como obsoletas.
littleO
2
@littleO Isso praticamente continua de pé; compare NNs'18 com NNs'12 e verá que o progresso veio da remoção da semelhança com as redes reais e os neurônios reais, em vez de ir mais além em conjuntos de operações algébricas com otimização estocástica. Mas é claro que, aparentemente, a marca registrada da NN se mostrou tão poderosa que viverá por muito tempo e prosperará, independentemente do que isso signifique.

Respostas:

27

Suponho que você esteja pensando no que costumava ser, e talvez ainda seja referido como 'perceptrons multicamada' na sua pergunta sobre redes neurais. Nesse caso, eu explicaria tudo em termos de flexibilidade sobre a forma do limite de decisão em função de variáveis ​​explicativas. Em particular, para esse público, eu não mencionaria funções de link / probabilidades de log etc. Apenas mantenha a ideia de que a probabilidade de um evento está sendo prevista com base em algumas observações.

Aqui está uma sequência possível:

  • Certifique-se de que eles saibam qual é a probabilidade prevista, conceitualmente falando. Mostre-o como uma função de uma variável no contexto de alguns dados familiares. Explique o contexto de decisão que será compartilhado por regressão logística e redes neurais.
  • Comece com regressão logística. Declare que é o caso linear, mas mostre a linearidade do limite de decisão resultante usando um gráfico de calor ou contorno das probabilidades de saída com duas variáveis ​​explicativas.
  • Observe que duas classes podem não estar bem separadas pelo limite que veem e motivam um modelo mais flexível para criar um limite mais curvilíneo. Se necessário, mostre alguns dados que seriam bem diferenciados dessa maneira. (É por isso que você começa com 2 variáveis)
  • Observe que você pode começar a complicar o modelo linear original com termos extras, como quadrados ou outras transformações, e talvez mostrar os limites que eles geram.
  • Mas descarte-as, observando que você não sabe antecipadamente qual deve ser a forma da função e prefere aprender com os dados. Assim que eles ficarem entusiasmados com isso, observe a impossibilidade disso em total generalidade e sugira que você fique feliz em supor que deve ser pelo menos 'suave' em vez de 'instável', mas de outro modo determinado pelos dados. (Afirme que eles provavelmente estavam pensando apenas em limites suaves, da mesma maneira que estiveram falando em prosa a vida toda).
  • Mostre a saída de um modelo de aditivo generalizado em que a probabilidade de saída é uma função conjunta do par de variáveis ​​originais em vez de uma verdadeira combinação de aditivos - isso é apenas para fins de demonstração. Importante, chame isso de mais suave, porque isso é legal e geral e descreve as coisas intuitivamente. Demonstre o limite de decisão não linear na figura como antes.
  • Observe que este (atualmente anônimo) mais suave tem um parâmetro de suavidade que controla o quão suave é realmente; consulte isso de passagem como uma crença anterior sobre a suavidade da função, transformando as variáveis ​​explicativas na probabilidade prevista. Talvez mostre as consequências de diferentes configurações de suavidade no limite de decisão.
  • Agora introduza a rede neural como um diagrama. Saliente que a segunda camada é apenas um modelo de regressão logística, mas também aponta a transformação não linear que ocorre nas unidades ocultas. Lembre ao público que essa é apenas outra função da entrada para a saída que não será linear em seu limite de decisão.
  • Observe que ele possui muitos parâmetros e que alguns deles precisam ser constrangidos para estabelecer um limite de decisão suave - reintroduz a idéia de um número que controla a suavidade como o mesmo número (conceitualmente falando) que mantém os parâmetros ligados e distantes Valores extremos. Observe também que, quanto mais unidades ocultas, mais tipos diferentes de formas funcionais podem ser executadas. Para manter a intuição, fale sobre unidades ocultas em termos de flexibilidade e restrição de parâmetros em termos de suavidade (apesar da negligência matemática dessa caracterização)
  • Em seguida, surpreenda-os afirmando que você ainda não conhece a forma funcional e deseja ser infinitamente flexível adicionando um número infinito de unidades ocultas. Deixe a impossibilidade prática disso afundar um pouco. Então observe que esse limite pode ser considerado na matemática e pergunte (retoricamente) como seria essa coisa.
  • Responda que seria mais suave novamente (um processo gaussiano, por acaso; Neal, 1996, mas esse detalhe não é importante), como o que eles viram antes. Observe que há novamente uma quantidade que controla a suavidade, mas nenhum outro parâmetro específico (integrado para aqueles que se preocupam com esse tipo de coisa).
  • Conclua que as redes neurais são implementações particulares, implicitamente limitadas, de múmias comuns, que são extensões não lineares, não necessariamente aditivas, do modelo de regressão logística. Em seguida, faça o contrário, concluindo que a regressão logística é equivalente a um modelo de rede neural ou mais suave, com o parâmetro de suavização definido como 'extra extra suave', ou seja, linear.

As vantagens dessa abordagem é que você não precisa realmente entrar em nenhum detalhe matemático para dar a idéia correta. De fato, eles não precisam entender nem a regressão logística nem as redes neurais para entender as semelhanças e diferenças.

A desvantagem da abordagem é que você precisa fazer muitas fotos e resistir fortemente à tentação de cair na álgebra para explicar as coisas.

conjugateprior
fonte
14

Para um resumo mais simples:

Regressão logística: a forma mais simples de Rede Neural, que resulta em limites de decisão que são uma linha reta

insira a descrição da imagem aqui

Redes neurais: um superconjunto que inclui regressão logística e também outros classificadores que podem gerar limites de decisão mais complexos.

insira a descrição da imagem aqui

(nota: estou me referindo à regressão logística "simples", sem a assistência de kernels integrais)

(referência: deeplearning.ai cursos de Andrew Ng, "Regressão logística como rede neural" e "Classificação de dados planares com uma camada oculta")

Eusebio Rufian-Zilbermann
fonte
1
De todas as respostas atuais, acho que essa é a maneira mais realista de explicar os conceitos a uma pessoa sem formação estatística.
precisa
1
Então, um classificador de regressão logística é uma rede neural? Isso faz muito sentido.
Björn Lindqvist 23/04
8

Vou fazer a pergunta literalmente: alguém sem formação em estatística. E não vou tentar dar a essa pessoa um histórico em estatística. Por exemplo, suponha que você precise explicar a diferença para o CEO de uma empresa ou algo assim.

Portanto: a regressão logística é uma ferramenta para modelar uma variável categórica em termos de outras variáveis. Ele fornece maneiras de descobrir como as alterações em cada uma das "outras" variáveis ​​afetam as chances de resultados diferentes na primeira variável. A saída é bastante fácil de interpretar.

As redes neurais são um conjunto de métodos para permitir que um computador tente aprender com exemplos de maneiras que se assemelham vagamente à maneira como os humanos aprendem sobre as coisas. Pode resultar em modelos que são bons preditores, mas geralmente são muito mais opacos do que os da regressão logística.

Peter Flom - Restabelece Monica
fonte
5
+1 Este é um bom esforço inicial para enfrentar o desafio original de fornecer uma explicação que possa ser entendida por um leigo, mas que seja razoavelmente clara e precisa.
whuber
2
Você terá que explicar o que são "categóricas", "variáveis" e "probabilidades". Além disso, as redes neurais artificiais são meramente inspiradas em redes neurais reais. Nosso cérebro não pode aprender por propagação traseira, tanto quanto sabemos. Então, sim, é principalmente um termo interessante para um conceito relativamente simplificado. Além disso, a regressão logística é uma forma de rede neural, então também existe.
Firebug
7

Foi-me ensinado que você pode pensar em redes neurais (com funções de ativação logística) como uma média ponderada de funções de logit, com os pesos estimados. Ao escolher um grande número de logits, você pode ajustar qualquer forma funcional. Há alguma intuição gráfica na postagem do blog Econometric Sense .

Dimitriy V. Masterov
fonte
6

As outras respostas são ótimas. Eu simplesmente adicionaria algumas imagens mostrando que você pode pensar em regressão logística e regressão logística multi-classe (aka maxent, regressão logística multinomial, regressão softmax, regressão máxima de entropia) como uma arquitetura especial de redes neurais.

De Sebastian Raschka, Michigan State University, no KDnuggets :

insira a descrição da imagem aqui


Mais algumas ilustrações para a regressão logística multi-classe:

insira a descrição da imagem aqui

Uma ilustração semelhante extraída de http://www.deeplearningbook.org/ capítulo 1:

insira a descrição da imagem aqui

E mais um dos tutoriais do TensorFlow :

insira a descrição da imagem aqui

Por exemplo, no Caffe , você implementaria a regressão logística da seguinte maneira :

insira a descrição da imagem aqui

Franck Dernoncourt
fonte
2
Então, a propagação traseira em uma rede neural calcula os mesmos pesos que a regressão logística?
Mitch
1
@ Mitch - Talvez seja tarde demais para o jogo contribuir. Uma diferença importante é que, para uma regressão logística, usamos o mle para obter os coeficientes. Em essência, é a escolha de uma função específica de erro ou perda. Para uma rede neural, a função de perda é uma das opções. Portanto, com a perda correta fn (acho que, de cabeça para baixo, é a norma L ^ 2), esse é o caso.
aginensky
Portanto, a regressão logística pode ser formulada exatamente como ADALINE (rede neural de camada única que usa descida gradiente em lote / estocástico), com as únicas diferenças principais sendo a função de ativação sendo alterada para sigmóide em vez de linear e a função de previsão mudando para> = 0,5 com 0,1 rótulos em vez de> = 0 com -1,1 rótulos. Outra diferença fortemente preferida, mas opcional, é alterar a função de custo do RSS para a função de custo logístico, porque a ativação sigmoide faz com que o RSS seja não convexo para que o RSS fique preso em mínimos locais.
Austin
5

Eu usaria um exemplo de um problema complicado, mas concreto, que o público entende. Use nós ocultos cujas interpretações não são treinadas, mas têm significados particulares.

64×12

A regressão linear determina como é bom ter um cavaleiro branco em h4. Pode não ser óbvio que é bom, mas se estiver no h4, não foi capturado, o que provavelmente supera outras considerações. A regressão linear provavelmente recupera os valores aproximados das peças, e é melhor colocá-las em direção ao centro do tabuleiro e do lado do adversário. A regressão linear é incapaz de avaliar combinações, como que sua rainha em b2 é subitamente mais valiosa se o rei oponente estiver em a1.

Uma rede neural poderia ter nós ocultos para conceitos, como "vantagem material", "segurança do rei negro", "controle do centro", "duas torres no arquivo d", "peão ​​isolado da torre da rainha" ou "bispo" mobilidade." Alguns deles podem ser estimados apenas a partir das entradas da placa, enquanto outros podem ter que estar em uma segunda ou mais tarde camada oculta. A rede neural pode usá-los como entradas para a avaliação final da posição. Esses conceitos ajudam um especialista a avaliar uma posição; portanto, uma rede neural deve ser capaz de avaliações mais precisas do que uma regressão linear. No entanto, é preciso mais trabalho para criar a rede neural, pois você precisa escolher sua estrutura e ela tem muitos outros parâmetros para treinar.

Douglas Zare
fonte