Conselhos sobre explicação da heterogeneidade / heterocedasticidade

8

Estou procurando qualquer ajuda, conselho ou dicas sobre como explicar a heterogeneidade / heterocedasticidade aos biólogos do meu departamento. Em particular, quero explicar por que é importante procurá-lo e lidar com ele, se existir, estava procurando opiniões sobre as seguintes perguntas.

  1. A heterogeneidade influencia a confiabilidade das estimativas de efeitos aleatórios? Tenho certeza que sim, mas não consegui encontrar um papel.
  2. Quão sério é o problema da heterogeneidade? Descobri pontos de vista conflitantes sobre isso, enquanto alguns dizem que os erros padrão do modelo etc. não são confiáveis, mas também li que é apenas um problema se a heterogeneidade for grave. Quão grave é grave?
  3. Conselhos sobre modelagem de heterogeneidade. Atualmente, concentro-me amplamente no pacote nlme em R e no uso de covariáveis ​​de variância, isso é bastante simples e a maioria das pessoas aqui usa R, portanto, fornecer scripts é útil. Também estou usando o pacote MCMCglmm, mas outras sugestões são bem-vindas, principalmente para dados não normais.
  4. Quaisquer outras sugestões são bem-vindas.
user3136
fonte
1
@ user3136, esclareça: sua principal preocupação é a heterogeneidade (espécies diferentes com atributos únicos, provavelmente extraídos de distribuição conhecida) ou heterocedasticidade (a propriedade do processo aleatório de ter variação no tempo), pois esses dois conceitos são claramente diferentes. Porém, ambos os problemas são interessantes: o primeiro leva a modelos de efeitos mistos ou modelos de coeficiente aleatório; o segundo tem muitas curas para lidar (mas é menos importante, já que o simplesmente não é eficiente, mas as estimativas são imparciais). OLS
Dmitrij Celov
Oi, desculpe por isso. Minha preocupação é realmente sobre heterocedasticidade. Um problema que tive é que esses dois termos (heterocedasticidade e heterogeneidade) são usados ​​quase de forma intercambiável. Neste contexto, tanto é suposto referir-se à situação em que o erro nos resíduos não é constante
user3136
4
Na verdade, as fontes de heterogeneidade são muitas: diferenças de parâmetros (parâmetros aleatórios, por exemplo), variáveis ​​(coisa de regressão usual), resíduos (parte idiossincrática que pode pertencer a distribuições diferentes ou parâmetros de distribuição podem ser diferentes, a heterocedasticidade pertence a esse elemento, portanto é um caso separado de heterogeneidade), diferenças na forma funcional. Então, deixaria apenas o termo mais específico - heterocedasticidade.
Dmitrij Celov
Obrigado Dimitrij, uma pergunta que eu pretendia fazer era sobre a terminologia correta nessa área.
user3136

Respostas:

6

A alometria seria um bom ponto de partida, familiar aos biólogos. As transformações logarítmicas são frequentemente usadas em alometria porque os dados têm uma forma de lei de potência, mas também porque o processo de ruído é heterocedástico (pois a variabilidade é proporcional ao tamanho). Para um exemplo em que isso causou um problema grave, consulte "Equações alométricas para prever a massa corporal de dinossauros" , onde a conclusão de que os dinossauros tinham apenas metade do tamanho anteriormente estava incorreta porque foi feita uma suposição inválida de homoscedasticidade (consulte a correspondência para detalhes).

Dikran Marsupial
fonte
6

Uma opção é usar uma simulação. Portanto, configure um modelo em que você especifique especificamente a heterogeneidade suponha como . Em seguida, gere seus dados a partir desse modelo, usando interceptações aleatórias como um exemplo simples.var(αi)=X¯i2σu2

αi=X¯iuiuiN(0,σu2)

Yij=αi+βXij+eijeijN(0,σe2)

(espero que esta notação faça sentido). Acredito que brincar com uma configuração como essa ajudará você a responder à pergunta 2). Portanto, você ajustaria esse modelo usando uma interceptação aleatória, quando na verdade deveria ser uma inclinação aleatória (que fornece uma resposta parcial à pergunta 3 - interceptações aleatórias podem ser responsáveis ​​por "abanar" até certo ponto - isso é "abanar o nível 2" ) A idéia do exposto acima é tentar o máximo possível para quebrar seu método de modelagem - tente condições extremas consistentes com o que você sabe sobre os dados e veja o que acontece. Se você está lutando para encontrar essas condições, não se preocupe.

Fiz uma verificação rápida da heterocedasticidade para o OLS, e isso não parece afetar muito os betas estimados. Para mim, parece que a heterocedasticidade, em alguns lugares, fornece uma subestimação do erro provável e, em outros lugares, fornece uma superestimação do erro provável (em termos preditivos). Ver abaixo:

aguardando plotagem de dados aqui, usuário atualmente frustrado com computadores

E uma coisa que sempre acho divertida é essa "não normalidade dos dados" com a qual as pessoas se preocupam. Os dados não precisam ser distribuídos normalmente, mas o termo do erro precisa. Se isso não fosse verdade, os GLMs não funcionariam - os GLMs usam uma aproximação normal da função de probabilidade para estimar os parâmetros, assim como os GLMMs.

Então, eu diria que se estimar parâmetros de efeito fixo é o objetivo principal, então não há muito com que se preocupar, mas você pode obter melhores resultados para previsão levando em consideração a heterocedasticidade.

probabilityislogic
fonte
1
Oi, obrigado pelo conselho. Atualmente, estou trabalhando em algumas simulações, então espero que funcionem. Até onde eu sei, a heterocedasticidade não afeta a estimativa dos coeficientes de regressão, mas pode superestimar ou subestimar os erros padrão dessas estimativas.
user3136
Na verdade, ele faz as duas coisas (super e subestima) se houver heterocedasticidade - de maneira semelhante à "média" de dados comuns superestima e subestima os valores reais. Para uma inclinação, você terá diferentes graus de precisão em diferentes pontos da linha.
probabilityislogic
No meu campo particular, também existe uma grande confiança nos testes de significância e, portanto, nos valores de p. Portanto, acho que o fato de o SE poder ser subestimado e subestimado pode causar alguns problemas se você basear toda a inferência em seus valores-p.
user3136
Eu diria que você tem problemas maiores que os erros padrão, se toda a inferência for baseada em valores de p e testes de significância. Esse tipo de coisa incentiva "estatísticas irracionais".
probabilityislogic
Não posso concordar mais, acho que a maioria das pessoas com quem falo sabe que essa abordagem é suspeita, mas é difícil impedi-las de se concentrarem apenas nos valores-p, geralmente à custa de todo o resto.
User3136
0

O melhor recurso online GRATUITO que conheço para aprender sobre a heterocedasticidade são as palestras ECON 421 do Prof. Thoma de 2011. Especificamente, as aulas 1 a 7. Suas palestras são muito organizadas e fáceis de acompanhar, independentemente da sua disciplina.

Aqui está a primeira palestra. Você também pode encontrar o restante das palestras do semestre de inverno de 2011 aqui. http://www.youtube.com/watch?v=WK03XgoVsPM

Além disso, o site correspondente ao curso Econ 421 do Prof. Thoma tem Problemas de trabalhos de casa e suas soluções. Para soluções que exigem software, a solução é detalhada passo a passo usando uma combinação de texto, fórmulas e capturas de tela da Eviews.

Embora as etapas usadas para resolver os problemas da lição de casa sejam detalhadas usando capturas de tela das visualizações eletrônicas, as soluções se traduzem facilmente em outros pacotes estatísticos, como estatísticas STATA ou R.

Não há soluções listadas para o Homeworks a partir do semestre de 2011, que é o último semestre gravado pelo Prof. Thoma. No entanto, há trabalhos de casa disponíveis para o semestre de inverno de 2012 .

Aqui está um link para a seção de soluções para trabalhos de casa da classe Prof. Thomas Winter 2012 421. Especificamente, aqui está a Solução do Trabalho de Casa 3, onde a heterocedasticidade é introduzida nos conjuntos de trabalhos de casa. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html

James Bradshaw IV
fonte
1
Obrigado por essas referências, James. Aqui, no entanto, o questionador está pedindo explicações e conselhos. Para que sua resposta seja relevante, você poderá parafrasear "ajuda, conselhos ou dicas" específicos nessas referências?
whuber