Pressupostos do modelo linear generalizado

14

Fiz um modelo linear generalizado com uma variável de resposta única (contínua / normalmente distribuída) e 4 variáveis ​​explicativas (3 das quais são fatores e a quarta é um número inteiro). Eu usei uma distribuição de erro gaussiana com uma função de link de identidade. Atualmente, estou verificando se o modelo atende às premissas do modelo linear generalizado, que são:

  1. independência de Y
  2. função de link correta
  3. escala correta de medida das variáveis ​​explicativas
  4. sem observações influentes

Minha pergunta é: como posso verificar se o modelo atende a essas suposições? O melhor ponto de partida parece estar plotando a variável resposta contra cada variável explicativa. No entanto, três das variáveis ​​explicativas são categóricas (com 1 a 4 níveis), então o que devo procurar nas parcelas?

Além disso, preciso verificar a multicolinearidade e interações entre variáveis ​​explicativas? Se sim, como faço isso com variáveis ​​explicativas categóricas?

luciano
fonte

Respostas:

20

Eu acho que tentar pensar nisso como um modelo linear generalizado é um exagero. O que você tem é um modelo de regressão simples e antigo. Mais especificamente, como você possui algumas variáveis ​​explicativas categóricas e um VE contínuo, mas sem interações entre elas, isso também pode ser chamado de ANCOVA clássica.

Eu diria que o # 3 não é realmente uma suposição aqui com a qual você precisa se preocupar. Além disso, você realmente não precisa se preocupar com o # 2. Em vez disso, eu os substituiria com duas suposições diferentes:

2 '. Homogeneidade da variância
3 '. Normalidade de resíduos

Além disso, o item 4 é uma coisa importante a ser verificada, mas não penso nisso como uma suposição em si. Vamos pensar em como as suposições podem ser verificadas.

A independência é freqüentemente 'verificada' primeiro, pensando sobre o que os dados representam e como foram coletados. Além disso, ele pode ser verificado usando coisas como um teste de execução , teste de Durbin-Watson ou examinando o padrão de correlações automáticas - você também pode examinar autocorrelações parciais . (Observe que eles só podem ser avaliados em relação à sua covariável contínua.)

Com variáveis ​​explicativas principalmente categóricas, a homogeneidade da variação pode ser verificada calculando a variação em cada nível de seus fatores. Depois de calculados, existem vários testes usados ​​para verificar se são iguais, principalmente o teste de Levene , mas também o teste de Brown-Forsyth . oFmumaxteste, também chamado teste de Hartley, não é recomendado; se você quiser um pouco mais de informações sobre isso, eu discuto aqui . (Observe que esses testes podem ser aplicados às suas covariáveis ​​categóricas, diferentemente do descrito acima.) Para um VE contínuo, gosto de plotar meus resíduos contra a covariável contínua e examiná-los visualmente para ver se eles se espalham mais para um lado ou para o outro.

A normalidade dos resíduos pode ser avaliada através de alguns testes, como os testes Shapiro-Wilk ou Kolmogorov-Smirnov , mas geralmente é melhor avaliada visualmente através de um gráfico de qq . (Observe que essa suposição é geralmente a menos importante do conjunto; se não for atendida, suas estimativas beta ainda serão imparciais , mas seus valores-p serão imprecisos.)

Existem várias maneiras de avaliar a influência de suas observações individuais. É possível obter valores numéricos que indexam isso, mas minha maneira favorita, se você puder, é extrair seus dados. Ou seja, você solta cada ponto de dados por sua vez e adapta seu modelo. Em seguida, você pode examinar o quanto seus betas se movimentam se essa observação não fizer parte do seu conjunto de dados. Essa medida é chamada dfbeta . Isso requer um pouco de programação, mas existem maneiras padrão pelas quais o software pode computar automaticamente para você. Isso inclui alavancagem e distância de Cook .

Com relação à sua pergunta, como declarado originalmente, se você quiser saber mais sobre as funções de link e o modelo linear generalizado, discuti isso bastante aqui . Basicamente, a coisa mais importante a considerar para selecionar uma função de link apropriada é a natureza da sua distribuição de respostas; desde que você acreditaY é gaussiano, o link de identidade é apropriado e você pode pensar nessa situação usando idéias padrão sobre modelos de regressão.

Em relação à "escala correta de medição das variáveis ​​explicativas", considero que você está se referindo aos níveis de medição de Steven (ou seja, categórico, ordinal, intervalo e razão). A primeira coisa a perceber é que os métodos de regressão (incluindo GLiM) não fazem suposições sobre as variáveis ​​explicativas; em vez disso, a maneira pela qual você usa suas variáveis ​​explicativas em seu modelo reflete suas crenças sobre elas. Além disso, costumo pensar que os níveis de Steven são exagerados; para um tratamento mais teórico desse tópico, veja aqui .

Repor a Monica
fonte
1
Como o Op incluiu uma função de link, acho que ele realmente quis dizer um modelo linear generalizado onde uma função de link é aplicada a Y. Também chamaria de independência de Y como uma suposição. A suposição que acho mais apropriada é que os componentes de erro no modelo sejam independentes. Dado que acho que o resto do que Gung escreveu está correto.
22912 Michael Michael Chernick
@ MichaelChernick, eu concordo com você. Eu editei minha resposta um pouco para resolver esses problemas. Deixe-me saber se você acha que ainda precisa de mais trabalho.
gung - Restabelece Monica