Na regressão linear, a solução Maximize Likelihood Estimation (MLE) para estimar x possui a seguinte solução de formulário fechado (supondo que A seja uma matriz com classificação completa da coluna):
x^lin= argminx∥ A x - b∥22= ( ATA )- 1UMATb
Isso é lido como "encontre o que minimiza a função objetivo, ". O bom de representar a função objetivo de regressão linear dessa maneira é que podemos manter tudo na notação matricial e resolver manualmente. Como Alex R. menciona, na prática geralmente não consideramos diretamente porque é computacionalmente ineficiente e geralmente não atende aos critérios de classificação completa. Em vez disso, nos voltamos para o pseudoinverso de Moore-Penrose . Os detalhes da resolução computacional para o pseudo-inverso podem envolver a decomposição de Cholesky ou a decomposição de valor singular.x∥ A x - b ∥22x lin ( A T A ) - 1 Umx^lin( ATA )- 1UMA
Alternativamente, a solução MLE para estimar os coeficientes na regressão logística é:
x^registro= argminx∑i = 1Ny( I )registro( 1 + e- xTuma( I )) + ( 1 - y( I )) log( 1 + exTuma( I ))
onde (supondo que cada amostra de dados seja armazenada em linhas):
x é um vetor representa coeficientes de regressão
uma( I ) i t h Um é um vetor que representa a / amostra / linha na matriz de dadosEut hUMA
y( I ) { 0 , 1 } i t h i t h é um escalar em e o rótulo corresponde à amostra{ 0 , 1 }Eut hEut h
NA é o número de amostras de dados / número de linhas da matriz de dados de .UMA
Novamente, isso é lido como "encontre o que minimiza a função objetivo".x
Se você quisesse, poderia dar um passo adiante e representar na notação de matriz da seguinte maneira:x^registro
x^registro= argminx⎡⎣⎢⎢1⋮1( 1 - y( 1 ))⋮( 1 - y( N))⎤⎦⎥⎥[ log( 1 + e- xTuma( 1 ))registro( 1 + exTuma( 1 )). . .. . .registro( 1 + e- xTuma( N))registro( 1 + exTuma( N))]
mas você não ganha nada fazendo isso. A regressão logística não possui uma solução de formulário fechado e não obtém os mesmos benefícios que a regressão linear, representando-a na notação matricial. Para resolver são utilizadas técnicas de estimativa como descida em gradiente e o método Newton-Raphson. Usando algumas dessas técnicas (por exemplo, Newton-Raphson), é aproximado e representado em notação matricial ( veja o link fornecido por Alex R. ).x^registro x logx^registro
A resposta do @joceratops se concentra no problema de otimização da máxima probabilidade de estimativa. Esta é realmente uma abordagem flexível que é passível de muitos tipos de problemas. Para estimar a maioria dos modelos, incluindo modelos de regressão linear e logística, existe outra abordagem geral baseada no método de estimativa de momentos.
O estimador de regressão linear também pode ser formulado como a raiz da equação de estimativa:
Nesse sentido, é visto como o valor que recupera um resíduo médio de 0. Ele não precisa contar com nenhum modelo de probabilidade subjacente para ter essa interpretação. É, no entanto, interessante deduzir as equações de pontuação para uma probabilidade normal; você verá que elas assumem exatamente a forma exibida acima. Maximizar a probabilidade de família exponencial regular para um modelo linear (por exemplo, regressão linear ou logística) é equivalente a obter soluções para suas equações de pontuação.β
Onde possui o valor esperado . Na estimativa de GLM, é considerado o inverso de uma função de link. Nas equações de probabilidade normal, é a função de identidade e na regressão logística é a função de logit. Uma abordagem mais geral seria exigir que permita a especificação incorreta do modelo.YEu g( XEuβ) g g- 1 g- 1 0 = ∑ni = 1Y- g( XEuβ)
Além disso, é interessante notar que, para famílias exponenciais regulares, que é chamado de relação de variância média. De fato, para a regressão logística, a relação de variação média é tal que a média está relacionada à variação por . Isso sugere uma interpretação de um modelo GLM mal especificado como sendo aquele que fornece um resíduo médio de 0 Pearson. Isso sugere ainda uma generalização para permitir derivadas médias funcionais não proporcionais e relações de variação média.∂g( X β)∂β= V ( g( X β) )) p = g( X β) var ( YEu) = pEu( 1 - pEu)
Uma abordagem de equação de estimativa generalizada especificaria modelos lineares da seguinte maneira:
Com uma matriz de variações baseada no valor ajustado (média) dado por . Essa abordagem de estimativa permite escolher uma função de link e uma relação de variação média como nos GLMs.V g( X β)
Na regressão logística, seria o logit inverso e seria dado por . As soluções para esta equação de estimativa, obtidas por Newton-Raphson, produzirão o obtido a partir da regressão logística. No entanto, uma classe um pouco mais ampla de modelos é estimada sob uma estrutura semelhante. Por exemplo, a função de link pode ser considerada o log do preditor linear, de modo que os coeficientes de regressão são riscos relativos e não razões de chances . O que - dadas as armadilhas bem documentadas de interpretar as ORs como RRs - me cabe perguntar por que alguém se encaixa mais nos modelos de regressão logística.g Veu eu g( XEuβ) ( 1 - g( X β) )) β
fonte