Estou procurando qualquer ajuda, conselho ou dicas sobre como explicar a heterogeneidade / heterocedasticidade aos biólogos do meu departamento. Em particular, quero explicar por que é importante procurá-lo e lidar com ele, se existir, estava procurando opiniões sobre as seguintes perguntas.
- A heterogeneidade influencia a confiabilidade das estimativas de efeitos aleatórios? Tenho certeza que sim, mas não consegui encontrar um papel.
- Quão sério é o problema da heterogeneidade? Descobri pontos de vista conflitantes sobre isso, enquanto alguns dizem que os erros padrão do modelo etc. não são confiáveis, mas também li que é apenas um problema se a heterogeneidade for grave. Quão grave é grave?
- Conselhos sobre modelagem de heterogeneidade. Atualmente, concentro-me amplamente no pacote nlme em R e no uso de covariáveis de variância, isso é bastante simples e a maioria das pessoas aqui usa R, portanto, fornecer scripts é útil. Também estou usando o pacote MCMCglmm, mas outras sugestões são bem-vindas, principalmente para dados não normais.
- Quaisquer outras sugestões são bem-vindas.
Respostas:
A alometria seria um bom ponto de partida, familiar aos biólogos. As transformações logarítmicas são frequentemente usadas em alometria porque os dados têm uma forma de lei de potência, mas também porque o processo de ruído é heterocedástico (pois a variabilidade é proporcional ao tamanho). Para um exemplo em que isso causou um problema grave, consulte "Equações alométricas para prever a massa corporal de dinossauros" , onde a conclusão de que os dinossauros tinham apenas metade do tamanho anteriormente estava incorreta porque foi feita uma suposição inválida de homoscedasticidade (consulte a correspondência para detalhes).
fonte
Uma opção é usar uma simulação. Portanto, configure um modelo em que você especifique especificamente a heterogeneidade suponha como . Em seguida, gere seus dados a partir desse modelo, usando interceptações aleatórias como um exemplo simples.var(αi)=X¯¯¯¯2iσ2u
(espero que esta notação faça sentido). Acredito que brincar com uma configuração como essa ajudará você a responder à pergunta 2). Portanto, você ajustaria esse modelo usando uma interceptação aleatória, quando na verdade deveria ser uma inclinação aleatória (que fornece uma resposta parcial à pergunta 3 - interceptações aleatórias podem ser responsáveis por "abanar" até certo ponto - isso é "abanar o nível 2" ) A idéia do exposto acima é tentar o máximo possível para quebrar seu método de modelagem - tente condições extremas consistentes com o que você sabe sobre os dados e veja o que acontece. Se você está lutando para encontrar essas condições, não se preocupe.
Fiz uma verificação rápida da heterocedasticidade para o OLS, e isso não parece afetar muito os betas estimados. Para mim, parece que a heterocedasticidade, em alguns lugares, fornece uma subestimação do erro provável e, em outros lugares, fornece uma superestimação do erro provável (em termos preditivos). Ver abaixo:
aguardando plotagem de dados aqui, usuário atualmente frustrado com computadores
E uma coisa que sempre acho divertida é essa "não normalidade dos dados" com a qual as pessoas se preocupam. Os dados não precisam ser distribuídos normalmente, mas o termo do erro precisa. Se isso não fosse verdade, os GLMs não funcionariam - os GLMs usam uma aproximação normal da função de probabilidade para estimar os parâmetros, assim como os GLMMs.
Então, eu diria que se estimar parâmetros de efeito fixo é o objetivo principal, então não há muito com que se preocupar, mas você pode obter melhores resultados para previsão levando em consideração a heterocedasticidade.
fonte
O melhor recurso online GRATUITO que conheço para aprender sobre a heterocedasticidade são as palestras ECON 421 do Prof. Thoma de 2011. Especificamente, as aulas 1 a 7. Suas palestras são muito organizadas e fáceis de acompanhar, independentemente da sua disciplina.
Aqui está a primeira palestra. Você também pode encontrar o restante das palestras do semestre de inverno de 2011 aqui. http://www.youtube.com/watch?v=WK03XgoVsPM
Além disso, o site correspondente ao curso Econ 421 do Prof. Thoma tem Problemas de trabalhos de casa e suas soluções. Para soluções que exigem software, a solução é detalhada passo a passo usando uma combinação de texto, fórmulas e capturas de tela da Eviews.
Embora as etapas usadas para resolver os problemas da lição de casa sejam detalhadas usando capturas de tela das visualizações eletrônicas, as soluções se traduzem facilmente em outros pacotes estatísticos, como estatísticas STATA ou R.
Não há soluções listadas para o Homeworks a partir do semestre de 2011, que é o último semestre gravado pelo Prof. Thoma. No entanto, há trabalhos de casa disponíveis para o semestre de inverno de 2012 .
Aqui está um link para a seção de soluções para trabalhos de casa da classe Prof. Thomas Winter 2012 421. Especificamente, aqui está a Solução do Trabalho de Casa 3, onde a heterocedasticidade é introduzida nos conjuntos de trabalhos de casa. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html
fonte