Eu acho que tenho alguma confusão fundamental sobre como as funções da regressão logística funcionam (ou talvez apenas funcionem como um todo).
Como é que a função h (x) produz a curva vista à esquerda da imagem?
Vejo que esse é um gráfico de duas variáveis, mas essas duas variáveis (x1 e x2) também são argumentos da própria função. Conheço funções padrão de um mapa de variável para uma saída, mas essa função claramente não está fazendo isso - e não tenho muita certeza do porquê.
Minha intuição é que a curva azul / rosa não é realmente plotada neste gráfico, mas sim uma representação (círculos e X) que é mapeada para valores na próxima dimensão (3ª) do gráfico. Esse raciocínio está com defeito e estou perdendo alguma coisa? Obrigado por qualquer insight / intuição.
Respostas:
Este é um exemplo de ajuste excessivo no curso Coursera no ML por Andrew Ng no caso de um modelo de classificação com dois recursos , no qual os valores reais são simbolizados por × e ∘ , e o limite de decisão é precisamente adaptado ao conjunto de treinamento através do uso de termos polinomiais de alta ordem.(x1,x2) × ∘,
O problema que ele tenta ilustrar refere-se ao fato de que, embora a linha de decisão do limite (linha curvilínea em azul) não classifique erroneamente nenhum exemplo, sua capacidade de generalizar fora do conjunto de treinamento ficará comprometida. Andrew Ng continua explicando que a regularização pode atenuar esse efeito e desenha a curva magenta como um limite de decisão menos restrito ao conjunto de treinamento e com maior probabilidade de generalização.
Com relação à sua pergunta específica:
Não há altura (terceira dimensão): há duas categorias, e ∘ ) , e os shows de linha de decisão como o modelo é separando-os. No modelo mais simples(× ∘),
o limite de decisão será linear.
Talvez você tenha em mente algo assim, por exemplo:
No entanto, observe que existe uma função na hipótese - a ativação logística em sua pergunta inicial. Portanto, para cada valor de x 1 e x 2, a função polinomial sofre e "ativação" (geralmente não linear, como na função sigmoide como no OP, embora não necessariamente (por exemplo, RELU)). Como saída limitada, a ativação sigmoide se presta a uma interpretação probabilística: a idéia em um modelo de classificação é que, em um determinado limite, a saída seja rotulada como × ( ou ∘ ) . Efetivamente, uma saída contínua será compactada em um binário ( 1 ,g(⋅) x1 x2 × ( ∘). saída.(1,0)
Dependendo dos pesos (ou parâmetros) e da função de ativação, cada ponto no plano de feição será mapeado para a categoria × ou ∘ . Essa rotulagem pode ou não estar correta: elas estarão corretas quando os pontos na amostra desenhada por × e ∘ no plano da figura no OP corresponderem aos rótulos previstos. Os limites entre as regiões do plano rotuladas × e as regiões adjacentes rotuladas ∘ . Eles podem ser uma linha ou várias linhas que isolam "ilhas" (veja você mesmo brincando com este aplicativo por Tony Fischetti, parte de(x1,x2) × ∘ × ∘ × ∘ esta entrada de blog em R-bloggers ).
Observe a entrada na Wikipedia sobre o limite de decisão :
Não há necessidade de um componente de altura para representar graficamente o limite real. Se, por outro lado, você estiver plotando o valor de ativação sigmóide (contínuo com intervalo precisará de um terceiro componente ("altura") para visualizar o gráfico:∈[0,1]),
Se você quiser introduzir um visualização D para a superfície de decisão, verifique este slide em um curso online sobre NN do por Hugo Larochelle , representando a ativação de um neurônio:3
Juntando vários neurônios, esses hiperplanos de separação podem ser adicionados e subtraídos para acabar com formas caprichosas:
Isso está relacionado ao teorema da aproximação universal .
fonte
Temos alguns matemáticos pesados respondendo a essa pergunta. Eu nunca vi um diagrama como você descreve aqui, com os valores dos preditores X1 e X2 e a linha 'limite de decisão' separando os positivos previstos dos negativos previstos. (ou é um mapa dos resultados previstos x reais?) Mas é útil - desde que você tenha apenas dois preditores de interesse que deseja mapear.
Parece que a linha magenta separa os positivos previstos dos negativos previstos, enquanto a linha azul escura inclui todos os positivos. Este é geralmente o caso da regressão logística: o modelo prediz corretamente o resultado em menos de 100% dos casos (e prediz alguns falsos positivos e / ou falsos negativos).
É possível executar a regressão logística e fazer com que o procedimento produza a função h (x) para cada caso individual no conjunto de dados. Isso produzirá uma pontuação de propensão para cada sujeito, de 0 a 1, que fornece a probabilidade prevista ou a probabilidade do resultado positivo para cada sujeito, com base nas variáveis preditivas desse sujeito, com base no modelo de regressão logística que utiliza todos os sujeitos. Prevê-se que aqueles com um ponto de corte de propensão de 0,5 ou superior tenham o resultado e aqueles com menos de 0,5 não tenham o resultado. Mas você pode ajustar esse nível de corte como achar melhor, por exemplo, para fazer um modelo de previsão de diagnóstico de algum resultado com base em todas as variáveis de entrada inseridas em sua análise de regressão logística. Você pode definir o ponto de corte em 0,3, por exemplo. Você pode então fazer uma tabela 2X2 de resultados previstos versus reais e determinar sua sensibilidade, especificidade, taxa de falso positivo e taxa de falso negativo do modelo com base nesse nível de corte. Isso fornece mais informações e também o libera do limite de 2 variáveis usadas no seu gráfico. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna. Você pode usar quantos preditores puderem caber razoavelmente no modelo e ainda fazer uma tabela 2X2 do resultado previsto versus o previsto. Como a regressão logística usa resultados categóricos (sim-não), cada célula na tabela 2X2 é simplesmente uma contagem dos sujeitos que atendem aos critérios de linha e coluna.
No gráfico que você fornece, provavelmente assume um ponto de corte de 0,5. Esse é o padrão comum para o software. Se você o ajustasse mais alto (para 0,65, por exemplo), ele pode incluir todos os O's dentro da linha, mas você também terá alguns falsos positivos (Xs que considera que devem ser O) que seriam previstos pelo modelo para obter o resultado de interesse. (ou ajuste a pontuação de corte mais baixa e tenha mais falsos negativos).
Eu espero que isso ajude.
fonte