Por que um GLM prevê a média e não o modo de um sinal? Isso não contradiz a própria base do GLM, ou seja, a máxima probabilidade? As equações a serem resolvidas para os parâmetros do modelo em um GLM são baseadas na maximização da probabilidade, conforme descrito pela distribuição de probabilidade do sinal modelado. Essa distribuição de probabilidade é máxima para o modo não para a média (a distribuição normal é uma exceção: o modo e a média são iguais). Portanto, um GLM deve prever o modo , não a média de um sinal! (Para mais informações sobre esta questão, clique aqui .)
8
Respostas:
O objetivo do ajuste de máxima verossimilhança é determinar os parâmetros de alguma distribuição que melhor se ajusta aos dados - e, de maneira mais geral, como esses parâmetros podem variar com as covariáveis. No caso de MLG, queremos determinar os parâmetros de alguma distribuição de família exponencial, e como eles são uma função de algumas co-variáveis X .θ X
Para qualquer distribuição de probabilidade na família exponencial superdispersa, é garantido que a média esteja relacionada ao parâmetro da família exponencial canônica θ através da função de ligação canônica, θ = g ( μ ) . Podemos até determinar uma fórmula geral para g , e tipicamente g também é invertível. Se simplesmente definirmos μ = g - 1 ( θ ) e θ = X β , obteremos automaticamente um modelo de como μ e θ variam comμ θ θ=g(μ) g g μ = g- 1( θ ) θ = Xβ μ θ , independentemente da distribuição com a qual estamos lidando, e esse modelo pode serajustado de maneira fácil e confiável aos dados pela otimização convexa. A resposta de Mattmostra como funciona para a distribuição de Bernoulli, mas a verdadeira mágica é que funciona para todas as distribuições da família.X
O modo não possui essas propriedades. De fato, como Cliff AB aponta, o modo pode nem ter uma relação bijetiva com o parâmetro de distribuição, portanto a inferência do modo é de poder muito limitado. Veja a distribuição de Bernoulli, por exemplo. Seu modo é 0 ou 1, e saber o modo apenas informa se , a probabilidade de 1, é maior ou menor que 1/2. Por outro lado, a média diz exatamente o que p é.p p
Agora, para esclarecer alguma confusão na pergunta: probabilidade máxima não é encontrar o modo de uma distribuição, porque a probabilidade não é a mesma função que a distribuição. A probabilidade envolve a distribuição do modelo em sua fórmula, mas é aí que as semelhanças terminam. A função de probabilidade usa um valor de parâmetro θ como entrada e informa a probabilidade de todo o conjunto de dados , considerando a distribuição do modelo com θ . A distribuição do modelo f θ ( y ) depende de θ , mas, como função, assume um valor yL ( θ ) θ θ fθ( y) θ y como entrada e informa com que frequência uma amostra aleatória dessa distribuição será igual a . O máximo de L ( θ ) e o modo de f θ ( y ) não são a mesma coisa.y L ( θ ) fθ( y)
Talvez ajude a ver a fórmula da probabilidade. No caso dos dados IID , temos L ( θ ) = n ∏ i = 1 f θ ( y i ) Os valores de y i são todos fixos - eles são os valores do seu dados. A probabilidade máxima é encontrar o θ que maximiza L ( θ ) . Encontrar o modo da distribuição seria encontrar y que maximiza fy1, y2, … , Yn
Portanto, encontrar o máximo da função de verossimilhança não é, em geral, o mesmo que encontrar o modo de distribuição do modelo. (É o modo de outra distribuição, se você perguntar a um bayesiano objetivo, mas essa é uma história muito diferente!)
fonte
Há duas coisas a discutir aqui:
Vamos considerar o glm não trivial mais simples como um exemplo prático, o modelo logístico. Na regressão logística, temos uma resposta com valor 0, 1. Postulamos que y é bernoulli distribuído condicionalmente em nossos dadosy y
E tentamos estimar a média dessa distribuição condicional (que neste caso é apenas ) vinculando-a a uma função linear de Xp X
Parando e refletindo, vemos neste caso que é natural querer saber , que é o meio de uma distribuição condicional.p
Na configuração do glm, não é estimado diretamente, é β que o procedimento de estimativa visa. Para chegar a β , usamos a máxima verossimilhança. A probabilidade de observar um ponto de dados y da distribuição condicional de bernoulli, dado o valor de X observado, e um conjunto específico de parâmetros β , ép β β y X β
onde é uma função de β e X através do relacionamento de ligação.p β X
Observe que é que é amostrado de uma distribuição de probabilidade aqui, não beta.y
Para aplicar a máxima probabilidade, invertemos isso em uma função de , considerando X e y como fixos e observados:β X y
Mas não é uma função de densidade , é uma probabilidade. Quando você maximizar a probabilidade de que você está não estimar o modo de distribuição, porque simplesmente não há distribuição para, assim, modo-ize.eu
Você pode produzir uma densidade a partir de fornecendo uma distribuição prévia dos parâmetros β e usando a regra de Bayes, mas na formulação glm clássica, isso não é feito.eu β
fonte
Obrigado por todos os comentários e respostas. Embora em nenhum deles seja 100% a resposta para minha pergunta, todos eles me ajudaram a enxergar a aparente contradição. Assim, decidi formular a resposta pessoalmente, acho que este é um resumo de todas as idéias envolvidas nos comentários e respostas:
fonte