Heterocedasticidade e distribuição da variável dependente em modelos lineares

7

Estou executando um modelo de oliv multivariado em que minha variável dependente é a Pontuação de consumo de alimentos , um índice criado pela soma ponderada das ocorrências de consumo de algumas categorias de alimentos.

Embora eu tenha tentado especificações diferentes do modelo, escalado e / ou transformado os preditores em log, o teste Breusch-Pagan sempre detecta uma forte heterocedasticidade.

  1. Excluo a causa usual de variáveis ​​omitidas;
  2. Não há presença de discrepantes, principalmente após a escala do log e a normalização;
  3. Utilizo índices 3/4 criados pela aplicação do PCA Policórico, no entanto, mesmo excluir alguns ou todos eles do OLS não altera a saída Breusch-Pagan.
  4. Apenas poucas variáveis ​​fictícias (usuais) são usadas no modelo: sexo, estado civil;
  5. Detecto alto grau de variação entre as regiões da minha amostra, apesar de controlar com a inclusão de manequins para cada região e ganhar mais 20% em termos de adj-R ^ 2, a heterocedasticidade reamina.
  6. A amostra possui 20.000 observações.

Eu acho que o problema está na distribuição da minha variável dependente. Tanto quanto pude verificar, a distribuição normal é a melhor aproximação da distribuição real dos meus dados (talvez não seja suficientemente próxima). Anexo aqui dois qq-plot respectivamente com a variável dependente normalizada e logarítmica transformada (em vermelho o Quantis teóricos normais).

  1. Dada a distribuição de minha variável, a heterocedasticidade pode ser causada pela não normalidade na variável dependente (o que causa a não normalidade nos erros do modelo?)
  2. Devo transformar a variável dependente? Devo aplicar um modelo glm? -Eu tentei com glm, mas nada mudou em termos de saída do teste BP.
  3. Tenho maneiras mais eficientes de controlar a variação entre grupos e me livrar da heterocedasticidade (modelo misto de interceptação aleatória)?

    insira a descrição da imagem aqui insira a descrição da imagem aqui Agradeço antecipadamente.

EDIT 1: Verifiquei no manual técnico do Score de consumo de alimentos e é relatado que geralmente o indicador segue uma distribuição "quase normal". De fato, o Teste Shapiro-Wilk rejeita a hipótese nula de que minha variável é normalmente distribuída (eu fui capaz de executar o teste nos primeiros 5.000 obs). O que posso ver no gráfico do ajustado contra os resíduos é que, para valores mais baixos do ajustado, a variabilidade nos erros diminui. Anexo o enredo aqui abaixo. O gráfico vem de um Modelo Misto Linear, para ser mais preciso, um Modelo de Interceptação Aleatória, levando em consideração 398 grupos diferentes (coeficiente de correlação inter = 0,32, confiança média dos grupos não inferior a 0,80). Embora eu tenha levado em consideração a variabilidade entre os grupos, a heterocedasticidade ainda existe.

Também realizei diversas regressões quantílicas. Eu estava particularmente interessado na regressão no quantil de 0,25, no entanto, não houve melhorias em termos de igual variância dos erros.

Agora, estou pensando em explicar a diversidade entre quantis e grupos (regiões geográficas) ao mesmo tempo, ajustando uma regressão quantílica de interceptação aleatória. Pode ser uma boa ideia?

Além disso, a distribuição de Poisson parece seguir a tendência dos meus dados, mesmo que para valores baixos da variável vague um pouco (um pouco menos que o normal). No entanto, o problema é que o ajuste da família Poisson requer números inteiros positivos, minha variável é positiva, mas não possui números inteiros exclusivos. Assim, descartei a opção glm (ou glmm).

insira a descrição da imagem aqui EDIT 2:

A maioria das suas sugestões vai na direção de estimadores robustos. No entanto, acho que é apenas uma das soluções. Compreender o motivo da heterocedasticidade em meus dados melhoraria o entendimento da relação que quero modelar. Aqui está claro que algo está acontecendo na parte inferior da distribuição de erros - observe esse qqplot de resíduos de uma especificação OLS.

Alguma idéia vem à sua mente sobre como lidar ainda mais com esse problema? Devo investigar mais com regressões quantílicas?

insira a descrição da imagem aqui PROBLEMA RESOLVIDO ?

Seguindo suas sugestões, eu finalmente executei um modelo de interceptação aleatória, para relacionar o problema técnico à teoria do meu campo de estudo. Eu encontrei uma variável que, se incluída na parte aleatória do modelo, faz com que os termos de erro passem à homocedasticidade. Aqui eu posto 3 parcelas:

  1. O primeiro é calculado a partir de um modelo de interceptação aleatória com 34 grupos (províncias)
  2. O segundo vem de um modelo de coeficiente aleatório com 34 grupos (províncias)
  3. Finalmente, o terceiro é o resultado da estimativa de um modelo de coeficiente aleatório com 398 grupos (distritos).

Posso dizer com segurança que estou controlando a heterocedasticidade na última especificação?

Interceptação aleatória M. Random Coeff.  M. (34 grupos Random Coeff.  M (398 grupos

Caserio
fonte
11
Qual é o objetivo da sua análise? Você já tentou outras transformações do DV, como raiz quadrada? Você também pode usar quadrados ponderados durava ou um estimador heteroscedástico consistente, como Huber-White
Robert Longo
11
Raiz quadrada de DV não resolve o problema.
Caserio
11
Por que você se importa com a heterocedasticidade? Use erros padrão robustos, e ser feliz
Repmat
2
Raiz quadrada foi apenas um exemplo. A transformação deve ser possível, se os resíduos normais forem muito importantes, mas não esqueça que os coeficientes de regressão são imparciais sob a hereroscedasticidade. E como eu disse no meu primeiro comentário, você sempre pode usar o WLS ou um estimador robusto.
Robert Long
11
Usar um estimador robusto significa que você não precisa se preocupar com o teste de pressão arterial. Como você tem 20.000 observações, pode "detectar" muitas coisas!
Robert Long

Respostas:

1

Esta é a solução para o problema acima:

Em resumo, no meu caso, a heterocedasticidade é causada por pelo menos duas fontes diferentes:

  1. Diferenças do grupo que OLS e toda a família do modelo de regressão "mono-nível" dificilmente podem explicar;
  2. Especificação incorreta da forma funcional do modelo: mais detalhadamente (como sugerido por @Robert Long em primeiro lugar) a relação entre o DV e as covariáveis ​​não é linear.

No que diz respeito às diferenças entre os grupos que causam heterocedasticidade, foi de grande ajuda executar análises de dados truncados para grupos únicos e reconhecer no teste da BP que a heterocedasticidade desapareceu quase em todos os grupos quando considerados singularmente.

Ao ajustar um modelo de interceptação aleatória, a estrutura do erro melhorou, mas conforme observado pelos comentários acima, a heterocedasticidade ainda pode ser detectada. Mesmo depois de incluir uma variável na parte aleatória da equação que foi capaz de melhorar ainda mais a estrutura do erro, o problema não pôde ser considerado resolvido. (Essa variável-chave, estratégias de enfrentamento, descreve bem os hábitos da família em caso de escassez de alimentos; na verdade, esses hábitos geralmente variam muito entre regiões geográficas e grupos étnicos.)

Aí vem o segundo ponto, o mais importante. A relação entre DV (como é originalmente) e covariáveis ​​não é linear.

Mais opções estão disponíveis nesta fase:

  1. Use um modelo não linear para levar em consideração explicitamente o problema;
  2. Transforme o DV, se você puder encontrar uma transformação adequada. No meu caso, raiz quadrada de DV.
  3. Tente usar modelos que não assumem a distribuição do termo de erro (família glm).

Na minha opinião, a primeira opção complica um pouco a interpretação dos coeficientes (é uma observação pessoal dependente do projeto, apenas porque eu quero simplificar as coisas para este artigo) e, pelo menos das minhas experiências (recentes), precisa de mais poder computacional que para modelos complicados com muitos coeficientes e observações aleatórios, pode levar o R ​​a cair.

Transformar o DV é certamente a melhor solução, se funcionar e se você tiver mais sorte do que eu. O que eu quero dizer? No caso de DV transformado por log, a interpretação seria em termos de porcentagem, mas e a transformação da raiz quadrada? Como posso comparar meus resultados com outros estudos? Talvez uma padronização da variável transformada possa ajudar na interpretação dos resultados em z-scores. Na minha opinião é demais.

Sobre os modelos glm ou glmm, não posso dizer muito; no meu caso nenhum deles funcionou, o glm não explica adequadamente diferenças aleatórias entre grupos e a saída do glmm relatou problemas de convergência.

Observe que, para o meu modelo, a transformação do DV também não funciona com o OLS pelo mesmo motivo em relação ao glm acima.

No entanto, existe pelo menos uma opção: atribuir pesos à regressão para corrigir a heterocedasticidade sem transformar o DV. Ergo: interpretação simples dos coeficientes.

Este é o resultado obtido pesando com DV_sqrt ao usar o DV não transformado em um modelo de coeficiente aleatório.

Nesta fase, posso comparar os erros padrão dos meus cofres com os seus homólogos do estimador robusto.

insira a descrição da imagem aqui

Em relação ao uso direto de estimadores robustos no caso como meu, sem tentar entender a fonte do problema, gostaria de sugerir esta leitura: G. King, ME Roberts (2014), "Como erros padrão robustos expõem problemas metodológicos que eles não corrigem" , e o que fazer sobre isso".

Caserio
fonte