Eu tenho tentado aprender quais distribuições usar nos GLMs e estou um pouco confuso sobre quando usar a distribuição normal. Em uma parte do meu livro, ele diz que uma distribuição normal pode ser boa para modelar as notas dos exames. Na próxima parte, ele pergunta qual distribuição seria apropriada para modelar uma reivindicação de seguro de carro. Desta vez, ele disse que as distribuições apropriadas seriam gama ou gaussiana inversa porque são contínuas apenas com valores positivos. Bem, acredito que as pontuações dos exames também seriam contínuas apenas com valores positivos; então, por que usaríamos uma distribuição normal lá? A distribuição normal não permite valores negativos?
normal-distribution
generalized-linear-model
gamma-distribution
inverse-gaussian-distrib
mistersunnyd
fonte
fonte
Respostas:
A altura, por exemplo, costuma ser modelada como normal. Talvez a altura dos homens seja algo como um metro e meio de altura e um desvio padrão de duas polegadas. Sabemos que a altura negativa não é física, mas, nesse modelo, a probabilidade de observar uma altura negativa é essencialmente zero. De qualquer maneira, usamos o modelo porque é uma aproximação suficientemente boa.
Todos os modelos estão errados. A questão é "esse modelo ainda pode ser útil" e, nos casos em que modelamos coisas como altura e resultados de testes, modelar o fenômeno como normal é útil, apesar de permitir tecnicamente coisas não-físicas.
fonte
Corrigir. Também não tem limite superior.
Apesar das declarações anteriores, no entanto, às vezes é esse o caso. Se você tem muitos componentes para o teste, não tem uma relação muito forte (por exemplo, você não é essencialmente a mesma pergunta uma dúzia de vezes, nem exige que cada parte exija uma resposta correta à parte anterior) e não é muito fácil ou muito difícil ( para que a maioria das marcas esteja em algum lugar próximo do meio), as marcas geralmente podem ser razoavelmente bem aproximadas por uma distribuição normal; frequentemente bem o suficiente para que análises típicas causem pouca preocupação.
Nós sabemos com certeza que eles não são normais , mas isso não é automaticamente um problema - desde que o comportamento dos procedimentos que usamos são perto o suficiente para que eles devem ser para os nossos propósitos (por exemplo, erros padrão, intervalos de confiança, níveis de significância e poder - o que for necessário - faça o que esperamos)
Sim, mas mais do que isso - eles tendem a ser altamente inclinados à direita e a variabilidade tende a aumentar quando a média fica maior.
Aqui está um exemplo de uma distribuição de tamanho de declaração para reivindicações de veículo:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig 5 de Garrido, Genest & Schulz (2016) "Modelos lineares generalizados para frequência dependente e gravidade de reivindicações de seguros", Insurance: Mathematics and Economics, Vol 70, setembro, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Isso mostra uma inclinação direita típica e cauda direita pesada. No entanto, devemos ter muito cuidado, porque essa é uma distribuição marginal e estamos escrevendo um modelo para a distribuição condicional , que normalmente será muito menos distorcida (a distribuição marginal que observamos se fizermos apenas um histograma de tamanhos de afirmações como uma mistura dessas distribuições condicionais). No entanto, normalmente é o caso de que, se examinarmos o tamanho da afirmação em subgrupos dos preditores (talvez categorizando variáveis contínuas), a distribuição ainda esteja fortemente inclinada à direita e com cauda bastante pesada à direita, sugerindo que algo como um modelo gama * seja provavelmente mais adequado do que um modelo gaussiano.
* pode haver várias outras distribuições que seriam mais adequadas que uma gaussiana - a gaussiana inversa é outra opção - embora menos comum; Os modelos lognormal ou Weibull, embora não sejam GLMs como estão, também podem ser bastante úteis.
[Raramente é o caso de qualquer uma dessas distribuições serem descrições quase perfeitas; são aproximações inexatas, mas, em muitos casos, suficientemente boas para que a análise seja útil e tenha perto das propriedades desejadas.]
Porque (nas condições que eu mencionei antes - muitos componentes, não muito dependentes, não muito difíceis ou fáceis), a distribuição tende a ser bastante próxima de simétrica, unimodal e não de cauda pesada.
fonte
As pontuações dos exames podem ser melhor modeladas por uma distribuição binomial. Em um caso altamente simplificado, você pode ter 100 perguntas verdadeiras / falsas, cada uma valendo 1 ponto; portanto, a pontuação seria um número inteiro entre 0 e 100. Se você não assumir nenhuma correlação entre a correção do examinador de um problema para o problema (embora seja uma hipótese duvidosa) ), a pontuação é uma soma de variáveis aleatórias independentes e o Teorema do Limite Central se aplica. À medida que o número de perguntas aumenta, a fração de problemas corretos converge para uma distribuição normal.
Você faz uma boa pergunta sobre valores menores que 0. Você também pode fazer a mesma pergunta sobre valores maiores que 100%. À medida que o número de perguntas de teste aumenta, a variação da soma diminui, e o pico é puxado em direção à média. Da mesma forma, a distribuição normal de melhor ajuste terá menor variação e o peso do pdf fora do intervalo [0, 1] tende a 0, embora sempre seja diferente de zero. O espaço entre os valores possíveis de "fração correta" também diminuirá (1/100 para 100 perguntas, 1/1000 para 1000 perguntas etc.); portanto, informalmente, o pdf começa a se comportar cada vez mais como um pdf contínuo.
fonte