Recentemente, comecei a estudar aprendizado de máquina, mas não compreendi a intuição por trás da regressão logística .
A seguir, são apresentados os fatos sobre a regressão logística.
Como base para a hipótese, usamos a função sigmóide . Entendo por que é uma escolha correta, mas por que é a única opção que não entendo. A hipótese representa a probabilidade de que a saída apropriada seja ; portanto, o domínio de nossa função deve ser ; essa é a única propriedade da função sigmóide que eu achei útil e apropriada aqui, embora muitas funções satisfaçam essa propriedade. Além disso, a função sigmóide possui uma derivada nesta forma , mas não vejo a utilidade dessa forma especial na regressão logística.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )
Pergunta : o que há de tão especial na função sigmóide e por que não podemos usar nenhuma outra função com domínio ?
A função de custo consiste em dois parâmetros se se . Na mesma situação acima, eu entendo por que está correto, no entanto, por que é a única forma? Por exemplo, por que não foi possívelser uma boa escolha para a função de custo?y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ) y = 0 | h θ ( x )
Pergunta : o que há de tão especial na forma de função de custo acima; por que não podemos usar outro formulário?
Eu gostaria que você pudesse compartilhar seu entendimento sobre regressão logística.
fonte
Respostas:
O modelo de regressão logística é de máxima probabilidade usando o parâmetro natural (a razão de chances de log) para contrastar as mudanças relativas no risco do resultado por diferença de unidade no preditor. Isso pressupõe, é claro, um modelo de probabilidade binomial para o resultado. Isso significa que as propriedades de consistência e robustez da regressão logística se estendem diretamente da máxima probabilidade: robusta a ausente em dados aleatórios, consistência raiz-n e existência e exclusividade de soluções para estimativa de equações. Isso pressupõe que as soluções não estejam nos limites do espaço de parâmetro (onde as probabilidades de log são ). Como a regressão logística é de probabilidade máxima, a função de perda está relacionada à probabilidade, pois são problemas de otimização equivalentes.± ∞
Com quase-probabilidade de probabilidade ou equações de estimativa (inferência semiparamétrica), a existência, as propriedades de exclusividade ainda se mantêm, mas a suposição de que o modelo médio mantém não é relevante e a inferência e os erros padrão são consistentes, independentemente da especificação incorreta do modelo. Portanto, neste caso, não é uma questão de saber se a sigmóide é a função correta, mas uma que nos dá uma tendência em que podemos acreditar e é parametrizada por parâmetros que têm uma interpretação extensível.
O sigmóide, no entanto, não é a única função de modelagem binária existente. A função probit mais comumente contrastada possui propriedades semelhantes. Ele não estima razões de log-odds, mas funcionalmente elas parecem muito semelhantes e tendem a fornecer aproximações muito semelhantes à mesma coisa . Também não é necessário usar propriedades de limite na função do modelo médio. O simples uso de uma curva de log com uma função de variação binomial fornece regressão de risco relativo; um link de identidade com variação binomial fornece modelos de risco aditivos. Tudo isso é determinado pelo usuário. Infelizmente, a popularidade da regressão logística é o motivo pelo qual é tão comumente usada. No entanto, tenho minhas razões (as que afirmei) por que acho que é bem justificado por ser usado na maioria das circunstâncias de modelagem de resultados binários.
No mundo da inferência, para resultados raros, o odds ratio pode ser interpretado aproximadamente como um "risco relativo", isto é, uma "mudança relativa percentual no risco de resultado comparando X + 1 a X". Isso nem sempre é o caso e, em geral, um odds ratio não pode e não deve ser interpretado como tal. No entanto, esses parâmetros têm interpretação e podem ser facilmente comunicados a outros pesquisadores é um ponto importante, algo que infelizmente está faltando nos materiais didáticos dos aprendizes de máquina.
O modelo de regressão logística também fornece os fundamentos conceituais para abordagens mais sofisticadas, como modelagem hierárquica, bem como modelagem mista e abordagens de probabilidade condicional que são consistentes e robustas ao número exponencial de parâmetros de incômodo. GLMMs e regressão logística condicional são conceitos muito importantes em estatística de alta dimensão.
fonte
fonte