Notação matricial para regressão logística

Na regressão linear (perda ao quadrado), usando matriz, temos uma notação muito concisa para o objetivo

minimizar__UMA x - b {__}^{2}

$\text{minimize}~~ \|Ax-b\|^2$

Onde é a matriz de dados, são os coeficientes é a resposta. $A$ $x$ $b$

Existe uma notação matricial semelhante para o objetivo da regressão logística? Todas as anotações que eu vi não conseguem se livrar da soma em todos os pontos de dados (algo como $\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)$ ).

Edição: obrigado por joceratops e grande resposta de AdamO. A resposta deles me ajudou a perceber que outra razão pela qual a regressão linear tem uma notação mais concisa é porque a definição da norma, que encapsula o quadrado e a soma ou $e^\top e$ . Mas na perda logística, não existe essa definição, o que torna a notação um pouco mais complicada.

regression logistic linear-model notation Haitao Du
fonte

Respostas:

Na regressão linear, a solução Maximize Likelihood Estimation (MLE) para estimar $x$ possui a seguinte solução de formulário fechado (supondo que A seja uma matriz com classificação completa da coluna):

{\hat{x}}_{lin} = \underset{x}{argmin}__UMA x - b {__}_{2}^{2} = ({UMA}^{T} UMA)^{- 1} {UMA}^{T} b

$\hat{x}_\text{lin}=\underset{x}{\text{argmin}} \|Ax-b\|_2^2 = (A^TA)^{-1}A^Tb$

Isso é lido como "encontre o que minimiza a função objetivo, ". O bom de representar a função objetivo de regressão linear dessa maneira é que podemos manter tudo na notação matricial e resolver manualmente. Como Alex R. menciona, na prática geralmente não consideramos diretamente porque é computacionalmente ineficiente e geralmente não atende aos critérios de classificação completa. Em vez disso, nos voltamos para o pseudoinverso de Moore-Penrose . Os detalhes da resolução computacional para o pseudo-inverso podem envolver a decomposição de Cholesky ou a decomposição de valor singular. $x$ $\|Ax-b\|_2^2$ $\hat{x}_\text{lin}$ $(A^TA)^{-1}$ $A$

Alternativamente, a solução MLE para estimar os coeficientes na regressão logística é:

{\hat{x}}_{registro} = \underset{x}{argmin} \sum_{Eu = 1}^{N} y^{(Eu)} registro (1 + e^{- x^{T} {uma}^{(Eu)}}) + (1 - y^{(Eu)}) registro (1 + e^{x^{T} {uma}^{(Eu)}})

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \sum_{i=1}^{N} y^{(i)}\log(1+e^{-x^Ta^{(i)}}) + (1-y^{(i)})\log(1+e^{x^T a^{(i)}})$

onde (supondo que cada amostra de dados seja armazenada em linhas):

$x$ é um vetor representa coeficientes de regressão

$a^{(i)}$ é um vetor que representa a / amostra / linha na matriz de dados $i^{th}$ $A$

$y^{(i)}$ é um escalar em e o rótulo corresponde à amostra $\{0, 1\}$ $i^{th}$ $i^{th}$

$N$ é o número de amostras de dados / número de linhas da matriz de dados de . $A$

Novamente, isso é lido como "encontre o que minimiza a função objetivo". $x$

Se você quisesse, poderia dar um passo adiante e representar na notação de matriz da seguinte maneira: $\hat{x}_\text{log}$

{\hat{x}}_{registro} = \underset{x}{argmin} [\begin{matrix} 1 & (1 - y^{(1)}) \\ ⋮ & ⋮ \\ 1 & (1 - y^{(N)}) \end{matrix}] [\begin{matrix} registro (1 + e^{- x^{T} {uma}^{(1)}}) & . . . & registro (1 + e^{- x^{T} {uma}^{(N)}}) \\ registro (1 + e^{x^{T} {uma}^{(1)}}) & . . . & registro (1 + e^{x^{T} {uma}^{(N)}}) \end{matrix}]

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \begin{bmatrix} 1 & (1-y^{(1)}) \\ \vdots & \vdots \\ 1 & (1-y^{(N)})\\\end{bmatrix} \begin{bmatrix} \log(1+e^{-x^Ta^{(1)}}) & ... & \log(1+e^{-x^Ta^{(N)}}) \\\log(1+e^{x^Ta^{(1)}}) & ... & \log(1+e^{x^Ta^{(N)}}) \end{bmatrix}$

mas você não ganha nada fazendo isso. A regressão logística não possui uma solução de formulário fechado e não obtém os mesmos benefícios que a regressão linear, representando-a na notação matricial. Para resolver são utilizadas técnicas de estimativa como descida em gradiente e o método Newton-Raphson. Usando algumas dessas técnicas (por exemplo, Newton-Raphson), é aproximado e representado em notação matricial ( veja o link fornecido por Alex R. ). $\hat{x}_\text{log}$ $\hat{x}_\text{log}$

joceratops
fonte

Ótimo. Obrigado. Acho que a razão pela qual não temos algo como resolver é a razão pela qual não damos mais esse passo para fazer a notação da matriz e evitar o símbolo da soma.

A^{⊤} A x = A^{⊤} b

$A^\top A x=A^\top b$

Haitao Du

Nós temos alguma vantagem de dar um passo adiante, transformá-lo em multiplicação de matrizes para simplificar o código, e em muitas plataformas como o matlab, para loop com soma em todos os dados, é muito mais lento que as operações de matriz.

Haitao Du

@ hxd1011: Apenas um pequeno comentário: reduzir as equações da matriz nem sempre é sábio. No caso de , você não deve tentar procurar inversa de matriz , mas sim algo como uma decomposição de Cholesky que será muito mais rápida e estável numericamente. Para a regressão logística, existem vários esquemas de iteração diferentes que de fato usam cálculos matriciais. Para uma grande revisão ver aqui: research.microsoft.com/en-us/um/people/minka/papers/logreg/...

A^{T} A x = A^{T} b

$A^TAx=A^Tb$

A^{T} A

$A^TA$

Alex R.

@AlexR. Muito obrigado. Aprendi que o uso da equação normal tornará o número condicional da matriz ao quadrado. E QR ou Cholesky seria muito melhor. Seu link é ótimo, essa revisão com métodos numéricos é sempre o que eu queria.

Haitao Du

A resposta do @joceratops se concentra no problema de otimização da máxima probabilidade de estimativa. Esta é realmente uma abordagem flexível que é passível de muitos tipos de problemas. Para estimar a maioria dos modelos, incluindo modelos de regressão linear e logística, existe outra abordagem geral baseada no método de estimativa de momentos.

O estimador de regressão linear também pode ser formulado como a raiz da equação de estimativa:

0 0 = X^{T} (Y - X β)

$0 = \mathbf{X}^T(Y - \mathbf{X}\beta)$

Nesse sentido, é visto como o valor que recupera um resíduo médio de 0. Ele não precisa contar com nenhum modelo de probabilidade subjacente para ter essa interpretação. É, no entanto, interessante deduzir as equações de pontuação para uma probabilidade normal; você verá que elas assumem exatamente a forma exibida acima. Maximizar a probabilidade de família exponencial regular para um modelo linear (por exemplo, regressão linear ou logística) é equivalente a obter soluções para suas equações de pontuação. $\beta$

0 0 = \sum_{Eu = 1}^{n} S_{Eu} (α, β) = \frac{\partial}{\partial β} registro eu (β, α, X, Y) = X^{T} (Y - g (X β))

$0 = \sum_{i=1}^n S_i(\alpha, \beta) = \frac{\partial}{\partial \beta} \log \mathcal{L}( \beta, \alpha, X, Y) = \mathbf{X}^T (Y - g(\mathbf{X}\beta))$

Onde possui o valor esperado . Na estimativa de GLM, é considerado o inverso de uma função de link. Nas equações de probabilidade normal, é a função de identidade e na regressão logística é a função de logit. Uma abordagem mais geral seria exigir que permita a especificação incorreta do modelo. $Y_i$ $g(\mathbf{X}_i \beta)$ $g$ $g^{-1}$ $g^{-1}$ $0 = \sum_{i=1}^n Y - g(\mathbf{X}_i\beta)$

Além disso, é interessante notar que, para famílias exponenciais regulares, que é chamado de relação de variância média. De fato, para a regressão logística, a relação de variação média é tal que a média está relacionada à variação por . Isso sugere uma interpretação de um modelo GLM mal especificado como sendo aquele que fornece um resíduo médio de 0 Pearson. Isso sugere ainda uma generalização para permitir derivadas médias funcionais não proporcionais e relações de variação média. $\frac{\partial g(\mathbf{X}\beta)}{\partial \beta} = \mathbf{V}(g(\mathbf{X}\beta))$ $p = g(\mathbf{X}\beta)$ $\mbox{var}(Y_i) = p_i(1-p_i)$

Uma abordagem de equação de estimativa generalizada especificaria modelos lineares da seguinte maneira:

0 0 = \frac{\partial g (X β)}{\partial β} V^{- 1} (Y - g (X β))

$0 = \frac{\partial g(\mathbf{X}\beta)}{\partial \beta} \mathbf{V}^{-1}\left(Y - g(\mathbf{X}\beta)\right)$

Com uma matriz de variações baseada no valor ajustado (média) dado por . Essa abordagem de estimativa permite escolher uma função de link e uma relação de variação média como nos GLMs. $\mathbf{V}$ $g(\mathbf{X}\beta)$

Na regressão logística, seria o logit inverso e seria dado por . As soluções para esta equação de estimativa, obtidas por Newton-Raphson, produzirão o obtido a partir da regressão logística. No entanto, uma classe um pouco mais ampla de modelos é estimada sob uma estrutura semelhante. Por exemplo, a função de link pode ser considerada o log do preditor linear, de modo que os coeficientes de regressão são riscos relativos e não razões de chances . O que - dadas as armadilhas bem documentadas de interpretar as ORs como RRs - me cabe perguntar por que alguém se encaixa mais nos modelos de regressão logística. $g$ $V_{ii}$ $g(\mathbf{X}_i \beta)(1-g(\mathbf{X}\beta))$ $\beta$

AdamO
fonte

+1 ótima resposta. formulá-lo como uma descoberta raiz sobre derivado é realmente novo para mim. e a segunda equação é realmente concisa.

Haitao Du