Como a Regressão Logística pode produzir curvas que não são funções tradicionais?

15

Eu acho que tenho alguma confusão fundamental sobre como as funções da regressão logística funcionam (ou talvez apenas funcionem como um todo).

Como é que a função h (x) produz a curva vista à esquerda da imagem?

Vejo que esse é um gráfico de duas variáveis, mas essas duas variáveis ​​(x1 e x2) também são argumentos da própria função. Conheço funções padrão de um mapa de variável para uma saída, mas essa função claramente não está fazendo isso - e não tenho muita certeza do porquê.

insira a descrição da imagem aqui

Minha intuição é que a curva azul / rosa não é realmente plotada neste gráfico, mas sim uma representação (círculos e X) que é mapeada para valores na próxima dimensão (3ª) do gráfico. Esse raciocínio está com defeito e estou perdendo alguma coisa? Obrigado por qualquer insight / intuição.

Sam
fonte
8
Preste atenção aos rótulos dos eixos, observe que nenhum deles é rotulado . y
Matthew Drury
3
O que seria uma "função tradicional"?
whuber
@matthewDrury Eu entendo isso, e isso explica o X / Os 2D. Eu estou perguntando onde curva traçada é então vindo
Sam

Respostas:

19

Este é um exemplo de ajuste excessivo no curso Coursera no ML por Andrew Ng no caso de um modelo de classificação com dois recursos , no qual os valores reais são simbolizados por × e , e o limite de decisão é precisamente adaptado ao conjunto de treinamento através do uso de termos polinomiais de alta ordem.(x1,x2)×,

O problema que ele tenta ilustrar refere-se ao fato de que, embora a linha de decisão do limite (linha curvilínea em azul) não classifique erroneamente nenhum exemplo, sua capacidade de generalizar fora do conjunto de treinamento ficará comprometida. Andrew Ng continua explicando que a regularização pode atenuar esse efeito e desenha a curva magenta como um limite de decisão menos restrito ao conjunto de treinamento e com maior probabilidade de generalização.


Com relação à sua pergunta específica:

Minha intuição é que a curva azul / rosa não é realmente plotada neste gráfico, mas sim uma representação (círculos e X) que é mapeada para valores na próxima dimensão (3ª) do gráfico.

Não há altura (terceira dimensão): há duas categorias, e ) , e os shows de linha de decisão como o modelo é separando-os. No modelo mais simples(×),

hθ(x)=g(θ0+θ1x1+θ2x2)

o limite de decisão será linear.


Talvez você tenha em mente algo assim, por exemplo:

5+2x1.3x21.2x2y+1x2y2+3x2y3

insira a descrição da imagem aqui

No entanto, observe que existe uma função na hipótese - a ativação logística em sua pergunta inicial. Portanto, para cada valor de x 1 e x 2, a função polinomial sofre e "ativação" (geralmente não linear, como na função sigmoide como no OP, embora não necessariamente (por exemplo, RELU)). Como saída limitada, a ativação sigmoide se presta a uma interpretação probabilística: a idéia em um modelo de classificação é que, em um determinado limite, a saída seja rotulada como × ( ou ) . Efetivamente, uma saída contínua será compactada em um binário ( 1 ,g()x1x2× (). saída.(1,0)

Dependendo dos pesos (ou parâmetros) e da função de ativação, cada ponto no plano de feição será mapeado para a categoria × ou . Essa rotulagem pode ou não estar correta: elas estarão corretas quando os pontos na amostra desenhada por × e no plano da figura no OP corresponderem aos rótulos previstos. Os limites entre as regiões do plano rotuladas × e as regiões adjacentes rotuladas . Eles podem ser uma linha ou várias linhas que isolam "ilhas" (veja você mesmo brincando com este aplicativo por Tony Fischetti, parte de(x1,x2)×××esta entrada de blog em R-bloggers ).

Observe a entrada na Wikipedia sobre o limite de decisão :

Em um problema de classificação estatística com duas classes, um limite ou superfície de decisão é uma hipersuperfície que divide o espaço vetorial subjacente em dois conjuntos, um para cada classe. O classificador classificará todos os pontos de um lado do limite de decisão como pertencentes a uma classe e todos os do outro lado como pertencentes à outra classe. Um limite de decisão é a região de um espaço problemático no qual o rótulo de saída de um classificador é ambíguo.

Não há necessidade de um componente de altura para representar graficamente o limite real. Se, por outro lado, você estiver plotando o valor de ativação sigmóide (contínuo com intervalo precisará de um terceiro componente ("altura") para visualizar o gráfico:[0,1]),

insira a descrição da imagem aqui


Se você quiser introduzir um visualização D para a superfície de decisão, verifique este slide em um curso online sobre NN do por Hugo Larochelle , representando a ativação de um neurônio:3

insira a descrição da imagem aqui

y1=hθ(x)W(Θ)Θ

Juntando vários neurônios, esses hiperplanos de separação podem ser adicionados e subtraídos para acabar com formas caprichosas:

insira a descrição da imagem aqui

Isso está relacionado ao teorema da aproximação universal .

Antoni Parellada
fonte
11
+1 sempre gosta de ler sua resposta. Pode ser ainda melhor se você puder ter um plano de decisão interceptado com sua plotagem. para mostrar alguns acima e outros abaixo.
Haitao Du
Muito obrigado por isso. Ainda sinto que estou sentindo falta de algo pequeno na própria curva - isso significa que o limite de decisão não está realmente sendo "desenhado", mas é apenas a maneira de Andrew Ng de indicar os limiares de valor de x1 e x2 que fazer com que a hipótese seja × ou ∘? Acho que parte da minha confusão decorreu de como essa curva poderia ser uma função em primeiro lugar, mas agora percebo que não é.
Sam
11
@AntoniParellada Isso é ótimo, eu vejo a distinção agora. Muito obrigado pela ajuda.
Sam
0

Temos alguns matemáticos pesados ​​respondendo a essa pergunta. Eu nunca vi um diagrama como você descreve aqui, com os valores dos preditores X1 e X2 e a linha 'limite de decisão' separando os positivos previstos dos negativos previstos. (ou é um mapa dos resultados previstos x reais?) Mas é útil - desde que você tenha apenas dois preditores de interesse que deseja mapear.
Parece que a linha magenta separa os positivos previstos dos negativos previstos, enquanto a linha azul escura inclui todos os positivos. Este é geralmente o caso da regressão logística: o modelo prediz corretamente o resultado em menos de 100% dos casos (e prediz alguns falsos positivos e / ou falsos negativos).
É possível executar a regressão logística e fazer com que o procedimento produza a função h (x) para cada caso individual no conjunto de dados. Isso produzirá uma pontuação de propensão para cada sujeito, de 0 a 1, que fornece a probabilidade prevista ou a probabilidade do resultado positivo para cada sujeito, com base nas variáveis ​​preditivas desse sujeito, com base no modelo de regressão logística que utiliza todos os sujeitos. Prevê-se que aqueles com um ponto de corte de propensão de 0,5 ou superior tenham o resultado e aqueles com menos de 0,5 não tenham o resultado. Mas você pode ajustar esse nível de corte como achar melhor, por exemplo, para fazer um modelo de previsão de diagnóstico de algum resultado com base em todas as variáveis ​​de entrada inseridas em sua análise de regressão logística. Você pode definir o ponto de corte em 0,3, por exemplo. Você pode então fazer uma tabela 2X2 de resultados previstos versus reais e determinar sua sensibilidade, especificidade, taxa de falso positivo e taxa de falso negativo do modelo com base nesse nível de corte. Isso fornece mais informações e também o libera do limite de 2 variáveis ​​usadas no seu gráfico. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna.
No gráfico que você fornece, provavelmente assume um ponto de corte de 0,5. Esse é o padrão comum para o software. Se você o ajustasse mais alto (para 0,65, por exemplo), ele pode incluir todos os O's dentro da linha, mas você também terá alguns falsos positivos (Xs que considera que devem ser O) que seriam previstos pelo modelo para obter o resultado de interesse. (ou ajuste a pontuação de corte mais baixa e tenha mais falsos negativos).
Eu espero que isso ajude.

Jerry
fonte