Eu tenho uma pergunta sobre modelos lineares generalizados (GLM). Minha variável dependente (DV) é contínua e não é normal. Então eu log transformá-lo (ainda não é normal, mas melhorou).
Quero relacionar o DV com duas variáveis categóricas e uma covariável contínua. Para isso, quero conduzir um GLM (estou usando o SPSS), mas não sei como decidir sobre a distribuição e a função a escolher.
Realizei o teste não paramétrico de Levene e tenho homogeneidade de variações, por isso estou inclinado a usar a distribuição normal. Eu li que, para regressão linear, os dados não precisam ser normais, os resíduos sim. Portanto, imprimi os resíduos de Pearson padronizados e os valores previstos para o preditor linear de cada GLM individualmente (função de identidade normal do GLM e função de log normal). Realizei testes de normalidade (histograma e Shapiro-Wilk) e plotei resíduos contra os valores previstos (para verificar a aleatoriedade e a variação) de ambos individualmente. Os resíduos da função de identidade não são normais, mas os resíduos da função de log são normais. Estou inclinado a escolher normal com a função de link de log porque os resíduos de Pearson são normalmente distribuídos.
Então, minhas perguntas são:
- Posso usar a distribuição normal GLM com a função de link LOG em um DV que já foi transformado em log?
- O teste de homogeneidade de variância é suficiente para justificar o uso da distribuição normal?
- O procedimento de verificação de resíduos está correto para justificar a escolha do modelo da função de link?
Imagem da distribuição DV à esquerda e resíduos do GLM normal com a função de link de log à direita.
fonte
Respostas:
Sim; se as premissas forem atendidas nessa escala
Por que igualdade de variância implicaria normalidade?
Você deve tomar cuidado com o uso de histogramas e testes de qualidade de ajuste para verificar a adequação de suas suposições:
1) Cuidado ao usar o histograma para avaliar a normalidade. (Veja também aqui )
Em resumo, dependendo de algo tão simples quanto uma pequena alteração na sua escolha de largura de caixa ou até mesmo a localização do limite da caixa, é possível obter impressões bastante diferentes da forma dos dados:
São dois histogramas do mesmo conjunto de dados. O uso de várias larguras de caixa diferentes pode ser útil para verificar se a impressão é sensível a isso.
2) Cuidado ao usar testes de bondade de ajuste para concluir que a suposição de normalidade é razoável. Testes formais de hipóteses realmente não respondem à pergunta certa.
por exemplo, veja os links no item 2. aqui
Em circunstâncias normais, a pergunta não é 'meus erros (ou distribuições condicionais) são normais?' - eles não serão, nem precisamos verificar. Uma pergunta mais relevante é 'quão mal o grau de não normalidade presente afeta minhas inferências? "
Sugiro uma estimativa da densidade do kernel ou QQplot normal (gráfico de resíduos versus escores normais). Se a distribuição parecer razoavelmente normal, você terá pouco com que se preocupar. De fato, mesmo quando claramente não é normal, ainda pode não ser muito importante, dependendo do que você deseja fazer (intervalos de previsão normais realmente dependerão da normalidade, por exemplo, mas muitas outras coisas tendem a funcionar em amostras de tamanhos grandes )
Curiosamente, em amostras grandes, a normalidade se torna geralmente cada vez menos crucial (além dos IPs, como mencionado acima), mas sua capacidade de rejeitar a normalidade se torna cada vez maior.
Editar: o ponto sobre igualdade de variância é que realmente pode impactar suas inferências, mesmo em grandes amostras. Mas você provavelmente também não deve avaliar isso por testes de hipótese. Entender a suposição de variação incorretamente é um problema, independentemente da sua distribuição assumida.
Quando você ajusta um modelo normal, ele possui um parâmetro de escala; nesse caso, seu desvio escalonado será sobre Np, mesmo que sua distribuição não seja normal.
Na contínua ausência de saber o que você está medindo ou para o que está usando a inferência, ainda não posso julgar se deve sugerir outra distribuição para o GLM, nem a importância da normalidade para suas inferências.
No entanto, se suas outras suposições também forem razoáveis (a linearidade e a igualdade de variância devem ser pelo menos verificadas e possíveis fontes de dependência consideradas), na maioria das circunstâncias eu ficaria muito confortável fazendo coisas como usar ICs e realizando testes de coeficientes ou contrastes - há apenas uma leve impressão de assimetria nesses resíduos, que, mesmo que seja um efeito real, não devem ter impacto substancial sobre esses tipos de inferência.
Em suma, você deve ficar bem.
(Embora outra função de distribuição e link possa melhorar um pouco em termos de ajuste, apenas em circunstâncias restritas é provável que também façam mais sentido.)
fonte