Por que os GLMs prevêem a média e não o modo?

8

Por que um GLM prevê a média e não o modo de um sinal? Isso não contradiz a própria base do GLM, ou seja, a máxima probabilidade? As equações a serem resolvidas para os parâmetros do modelo em um GLM são baseadas na maximização da probabilidade, conforme descrito pela distribuição de probabilidade do sinal modelado. Essa distribuição de probabilidade é máxima para o modo não para a média (a distribuição normal é uma exceção: o modo e a média são iguais). Portanto, um GLM deve prever o modo , não a média de um sinal! (Para mais informações sobre esta questão, clique aqui .)

nukimov
fonte
Estou um pouco enferrujado para dar isso como resposta, mas acredito que a idéia é que haja uma distribuição de meios condicionais prováveis, e o GLM fornece o modo dessa distribuição. (Então é a estimativa modal da média.)
Shea Parkes
1
Editei seu título para refletir o modelo StackExchange - perguntas são perguntas, não peças de opinião. (Você deve tentar evitar que o corpo de seu som pergunta como uma espécie de discurso.)
Glen_b -Reinstate Monica
7
Observe que a probabilidade é uma função dos parâmetros, enquanto o modelo está tentando descrever a distribuição dos dados. Não há inconsistência. De fato, considere uma regressão logística para dados binários, onde as proporções ajustadas variam entre 0,2 e 0,475. O modo da distribuição de Bernoulli é, em cada caso, 0 - então você está dizendo que o modelo deve consistir inteiramente de 0? Isso é muito menos útil que um modelo para a média.
Glen_b -Reinstala Monica
3
Apenas uma observação: o modo de sua resposta pode ser extremamente pouco informativo. No exemplo mais extremo, o modo de uma distribuição de Bernoulli sempre será 0 ou 1.
Cliff AB
9
O que está sendo maximizado na probabilidade máxima não é a densidade da distribuição dos dados, mas a probabilidade do parâmetro.
Glen_b -Reinstar Monica

Respostas:

13

O objetivo do ajuste de máxima verossimilhança é determinar os parâmetros de alguma distribuição que melhor se ajusta aos dados - e, de maneira mais geral, como esses parâmetros podem variar com as covariáveis. No caso de MLG, queremos determinar os parâmetros de alguma distribuição de família exponencial, e como eles são uma função de algumas co-variáveis X .θX

Para qualquer distribuição de probabilidade na família exponencial superdispersa, é garantido que a média esteja relacionada ao parâmetro da família exponencial canônica θ através da função de ligação canônica, θ = g ( μ ) . Podemos até determinar uma fórmula geral para g , e tipicamente g também é invertível. Se simplesmente definirmos μ = g - 1 ( θ ) e θ = X β , obteremos automaticamente um modelo de como μ e θ variam comμθθ=g(μ)ggμ=g-1(θ)θ=Xβμθ , independentemente da distribuição com a qual estamos lidando, e esse modelo pode serajustado de maneira fácil e confiável aos dados pela otimização convexa. A resposta de Mattmostra como funciona para a distribuição de Bernoulli, mas a verdadeira mágica é que funciona para todas as distribuições da família.X

O modo não possui essas propriedades. De fato, como Cliff AB aponta, o modo pode nem ter uma relação bijetiva com o parâmetro de distribuição, portanto a inferência do modo é de poder muito limitado. Veja a distribuição de Bernoulli, por exemplo. Seu modo é 0 ou 1, e saber o modo apenas informa se , a probabilidade de 1, é maior ou menor que 1/2. Por outro lado, a média diz exatamente o que p é.pp

Agora, para esclarecer alguma confusão na pergunta: probabilidade máxima não é encontrar o modo de uma distribuição, porque a probabilidade não é a mesma função que a distribuição. A probabilidade envolve a distribuição do modelo em sua fórmula, mas é aí que as semelhanças terminam. A função de probabilidade usa um valor de parâmetro θ como entrada e informa a probabilidade de todo o conjunto de dados , considerando a distribuição do modelo com θ . A distribuição do modelo f θ ( y ) depende de θ , mas, como função, assume um valor yeu(θ)θθfθ(y)θycomo entrada e informa com que frequência uma amostra aleatória dessa distribuição será igual a . O máximo de L ( θ ) e o modo de f θ ( y ) não são a mesma coisa.yeu(θ)fθ(y)

Talvez ajude a ver a fórmula da probabilidade. No caso dos dados IID , temos L ( θ ) = n i = 1 f θ ( y i ) Os valores de y i são todos fixos - eles são os valores do seu dados. A probabilidade máxima é encontrar o θ que maximiza L ( θ ) . Encontrar o modo da distribuição seria encontrar y que maximiza fy1,y2,,yn

eu(θ)=Eu=1nfθ(yEu)
yEuθeu(θ)y , que não é o que queremos: y é fixo na probabilidade, não uma variável.fθ(y)y

Portanto, encontrar o máximo da função de verossimilhança não é, em geral, o mesmo que encontrar o modo de distribuição do modelo. (É o modo de outra distribuição, se você perguntar a um bayesiano objetivo, mas essa é uma história muito diferente!)

Paulo
fonte
14

Há duas coisas a discutir aqui:

  • Os fatos que um glm tenta prever como a média de uma distribuição condicional e estima seus parâmetros β pela máxima probabilidade são consistentes.yβ
  • Estimar os parâmetros por máxima probabilidade não está determinando o modo de nenhuma distribuição. Pelo menos não na formulação clássica de um glm.

Vamos considerar o glm não trivial mais simples como um exemplo prático, o modelo logístico. Na regressão logística, temos uma resposta com valor 0, 1. Postulamos que y é bernoulli distribuído condicionalmente em nossos dadosyy

yXBernovocêeueuEu(p(X))

E tentamos estimar a média dessa distribuição condicional (que neste caso é apenas ) vinculando-a a uma função linear de XpX

registro(p1-p)=Xβ

Parando e refletindo, vemos neste caso que é natural querer saber , que é o meio de uma distribuição condicional.p

Na configuração do glm, não é estimado diretamente, é β que o procedimento de estimativa visa. Para chegar a β , usamos a máxima verossimilhança. A probabilidade de observar um ponto de dados y da distribuição condicional de bernoulli, dado o valor de X observado, e um conjunto específico de parâmetros β , épββyXβ

P(yX,β)=py(1-p)1-y

onde é uma função de β e X através do relacionamento de ligação.pβX

Observe que é que é amostrado de uma distribuição de probabilidade aqui, não beta.y

Para aplicar a máxima probabilidade, invertemos isso em uma função de , considerando X e y como fixos e observados:βXy

eu(β)=py(1-p)1-y

Mas não é uma função de densidade , é uma probabilidade. Quando você maximizar a probabilidade de que você está não estimar o modo de distribuição, porque simplesmente não há distribuição para, assim, modo-ize.eu

Você pode produzir uma densidade a partir de fornecendo uma distribuição prévia dos parâmetros β e usando a regra de Bayes, mas na formulação glm clássica, isso não é feito.euβ

Matthew Drury
fonte
4

Obrigado por todos os comentários e respostas. Embora em nenhum deles seja 100% a resposta para minha pergunta, todos eles me ajudaram a enxergar a aparente contradição. Assim, decidi formular a resposta pessoalmente, acho que este é um resumo de todas as idéias envolvidas nos comentários e respostas:

f(y;θ,ϕ)f

  1. f(y;θ,ϕ)fyβfβyββfβy (que, de fato, seria o modo), é a saída do processo de maximização.

  2. μβμ

nukimov
fonte